drunkpig a828ebd768 Merge pull request #17 from myhloli/master пре 1 година
..
cli 02d805ea9b 增加重构函数位置 пре 1 година
dict2md 00f16239c6 实现parse_ocr_pdf api,切图逻辑s3使用平铺地址,本地使用层级地址,删除预设s3_image_save_path пре 1 година
filter d5dbed7325 目录重构 пре 1 година
io 6bc9df8247 io modules пре 1 година
layout d5dbed7325 目录重构 пре 1 година
libs 51bb3b3646 cut_image不报错公式图片,增加parse_union_pdf逻辑 пре 1 година
para c3b8f6d7bb OCR line的左右侧如果超过layoutbox,那么让layoutbox截断左右侧 пре 1 година
post_proc 71a042d9fc footnote检测逻辑更新 пре 1 година
pre_proc 0e2d0b8b4f parse_pdf_by_ocr 和 cut_image 重构,使用抽象类进行写出操作 пре 1 година
spark 877160a74f fix parse_union_pdf logic пре 1 година
train_utils efed5faa53 feat: modify foot note bbox tmp пре 1 година
__init__.py d5dbed7325 目录重构 пре 1 година
pdf_parse_by_ocr.py 0e2d0b8b4f parse_pdf_by_ocr 和 cut_image 重构,使用抽象类进行写出操作 пре 1 година
pdf_parse_by_txt.py 88f5b9325c parse_pdf_by_txt 和 cut_image 重构,使用抽象类进行写出操作 пре 1 година
pdf_parse_for_train.py 0e2d0b8b4f parse_pdf_by_ocr 和 cut_image 重构,使用抽象类进行写出操作 пре 1 година
pipeline.bak c81f699e68 更新libs/config_reader,删除spark/s3.py пре 1 година
pipeline_ocr.bak c81f699e68 更新libs/config_reader,删除spark/s3.py пре 1 година
pipeline_txt.bak c81f699e68 更新libs/config_reader,删除spark/s3.py пре 1 година