赵小蒙 d3c9cb84f8 分段部分log限定在debug模式下才能输出 1 年間 前
..
dict2md 473a0a7de0 拼接markdown时,如果para_text为空则跳过拼接 1 年間 前
filter d5dbed7325 目录重构 1 年間 前
layout d5dbed7325 目录重构 1 年間 前
libs f36c26565e 使用面积占比方式判断一行文本是不是在一个layoutbox里 1 年間 前
para d3c9cb84f8 分段部分log限定在debug模式下才能输出 1 年間 前
post_proc 71a042d9fc footnote检测逻辑更新 1 年間 前
pre_proc 90ea9096e5 部分layout最底部的文本圈不全,降低阈值减少底边文本被丢弃的可能性 1 年間 前
train_utils 05161c6e62 feat: backup footnote_bbox_tmp 1 年間 前
__init__.py d5dbed7325 目录重构 1 年間 前
pdf_parse_by_model.py f68c66290c update code 1 年間 前
pdf_parse_by_ocr.py d3c9cb84f8 分段部分log限定在debug模式下才能输出 1 年間 前
pdf_parse_for_train.py 05161c6e62 feat: backup footnote_bbox_tmp 1 年間 前
pipeline.py 07e4f115e6 ocr_pdf_intermediate_dict_to_markdown_with_para输出nlp格式的markdown 1 年間 前