许瑞 cb1b02e716 feat: disable auto include table title 1 год назад
..
dict2md 473a0a7de0 拼接markdown时,如果para_text为空则跳过拼接 1 год назад
filter d5dbed7325 目录重构 1 год назад
layout d5dbed7325 目录重构 1 год назад
libs f36c26565e 使用面积占比方式判断一行文本是不是在一个layoutbox里 1 год назад
para d3c9cb84f8 分段部分log限定在debug模式下才能输出 1 год назад
post_proc 71a042d9fc footnote检测逻辑更新 1 год назад
pre_proc 90ea9096e5 部分layout最底部的文本圈不全,降低阈值减少底边文本被丢弃的可能性 1 год назад
train_utils efed5faa53 feat: modify foot note bbox tmp 1 год назад
__init__.py d5dbed7325 目录重构 1 год назад
pdf_parse_by_model.py f68c66290c update code 1 год назад
pdf_parse_by_ocr.py 3d2fcc9dce 删除无用代码 1 год назад
pdf_parse_for_train.py cb1b02e716 feat: disable auto include table title 1 год назад
pipeline.py 07e4f115e6 ocr_pdf_intermediate_dict_to_markdown_with_para输出nlp格式的markdown 1 год назад