drunkpig a828ebd768 Merge pull request #17 from myhloli/master hai 1 ano
..
cli 02d805ea9b 增加重构函数位置 hai 1 ano
dict2md 00f16239c6 实现parse_ocr_pdf api,切图逻辑s3使用平铺地址,本地使用层级地址,删除预设s3_image_save_path hai 1 ano
filter d5dbed7325 目录重构 hai 1 ano
io 6bc9df8247 io modules hai 1 ano
layout d5dbed7325 目录重构 hai 1 ano
libs 51bb3b3646 cut_image不报错公式图片,增加parse_union_pdf逻辑 hai 1 ano
para c3b8f6d7bb OCR line的左右侧如果超过layoutbox,那么让layoutbox截断左右侧 hai 1 ano
post_proc 71a042d9fc footnote检测逻辑更新 hai 1 ano
pre_proc 0e2d0b8b4f parse_pdf_by_ocr 和 cut_image 重构,使用抽象类进行写出操作 hai 1 ano
spark 877160a74f fix parse_union_pdf logic hai 1 ano
train_utils efed5faa53 feat: modify foot note bbox tmp hai 1 ano
__init__.py d5dbed7325 目录重构 hai 1 ano
pdf_parse_by_ocr.py 0e2d0b8b4f parse_pdf_by_ocr 和 cut_image 重构,使用抽象类进行写出操作 hai 1 ano
pdf_parse_by_txt.py 88f5b9325c parse_pdf_by_txt 和 cut_image 重构,使用抽象类进行写出操作 hai 1 ano
pdf_parse_for_train.py 0e2d0b8b4f parse_pdf_by_ocr 和 cut_image 重构,使用抽象类进行写出操作 hai 1 ano
pipeline.bak c81f699e68 更新libs/config_reader,删除spark/s3.py hai 1 ano
pipeline_ocr.bak c81f699e68 更新libs/config_reader,删除spark/s3.py hai 1 ano
pipeline_txt.bak c81f699e68 更新libs/config_reader,删除spark/s3.py hai 1 ano