|
|
@@ -708,7 +708,8 @@ def find_available_ocr_files(ocr_out_dir: str) -> List[str]:
|
|
|
if search_dir.exists():
|
|
|
# 递归搜索JSON文件
|
|
|
for json_file in search_dir.rglob("*.json"):
|
|
|
- available_files.append(str(json_file))
|
|
|
+ if re.match(r'.*_page_\d+\.json$', json_file.name, re.IGNORECASE):
|
|
|
+ available_files.append(str(json_file))
|
|
|
# 去重并排序
|
|
|
# available_files = sorted(list(set(available_files)))
|
|
|
# 解析文件名并提取页码信息
|