drunkpig a828ebd768 Merge pull request #17 from myhloli/master 1 年之前
..
cli 02d805ea9b 增加重构函数位置 1 年之前
dict2md 00f16239c6 实现parse_ocr_pdf api,切图逻辑s3使用平铺地址,本地使用层级地址,删除预设s3_image_save_path 1 年之前
filter d5dbed7325 目录重构 1 年之前
io 6bc9df8247 io modules 1 年之前
layout d5dbed7325 目录重构 1 年之前
libs 51bb3b3646 cut_image不报错公式图片,增加parse_union_pdf逻辑 1 年之前
para c3b8f6d7bb OCR line的左右侧如果超过layoutbox,那么让layoutbox截断左右侧 1 年之前
post_proc 71a042d9fc footnote检测逻辑更新 1 年之前
pre_proc 0e2d0b8b4f parse_pdf_by_ocr 和 cut_image 重构,使用抽象类进行写出操作 1 年之前
spark 877160a74f fix parse_union_pdf logic 1 年之前
train_utils efed5faa53 feat: modify foot note bbox tmp 1 年之前
__init__.py d5dbed7325 目录重构 1 年之前
pdf_parse_by_ocr.py 0e2d0b8b4f parse_pdf_by_ocr 和 cut_image 重构,使用抽象类进行写出操作 1 年之前
pdf_parse_by_txt.py 88f5b9325c parse_pdf_by_txt 和 cut_image 重构,使用抽象类进行写出操作 1 年之前
pdf_parse_for_train.py 0e2d0b8b4f parse_pdf_by_ocr 和 cut_image 重构,使用抽象类进行写出操作 1 年之前
pipeline.bak c81f699e68 更新libs/config_reader,删除spark/s3.py 1 年之前
pipeline_ocr.bak c81f699e68 更新libs/config_reader,删除spark/s3.py 1 年之前
pipeline_txt.bak c81f699e68 更新libs/config_reader,删除spark/s3.py 1 年之前