赵小蒙 27c080a944 pipeline调整 hai 1 ano
..
dict2md 99055af331 英文文本拼接时,如果单个单词超过15个字符,则对该单词进行切分处理。行间公式/图片/表格独立占有一行 hai 1 ano
filter d5dbed7325 目录重构 hai 1 ano
layout d5dbed7325 目录重构 hai 1 ano
libs ce96c3f67c 为ocr模式的demo增加online模式,pipeline进行微调适配online模式 hai 1 ano
para 8e3beebd1a 修复index越界错误 hai 1 ano
post_proc 71a042d9fc footnote检测逻辑更新 hai 1 ano
pre_proc 90ea9096e5 部分layout最底部的文本圈不全,降低阈值减少底边文本被丢弃的可能性 hai 1 ano
train_utils 4f1f7d62d5 feat: add layout hai 1 ano
__init__.py d5dbed7325 目录重构 hai 1 ano
pdf_parse_by_model.py f68c66290c update code hai 1 ano
pdf_parse_by_ocr.py a4a9fd6934 Merge remote-tracking branch 'origin/master' hai 1 ano
pdf_parse_for_train.py 09269c845e feat: add extract_train_data hai 1 ano
pipeline.py 27c080a944 pipeline调整 hai 1 ano