许瑞 4c37e741a2 feat: support multiple pdf parse method há 1 ano atrás
..
cli 4c37e741a2 feat: support multiple pdf parse method há 1 ano atrás
dict2md 00f16239c6 实现parse_ocr_pdf api,切图逻辑s3使用平铺地址,本地使用层级地址,删除预设s3_image_save_path há 1 ano atrás
filter d5dbed7325 目录重构 há 1 ano atrás
io 55cba1f4ed feat: impl cli há 1 ano atrás
layout d5dbed7325 目录重构 há 1 ano atrás
libs 55cba1f4ed feat: impl cli há 1 ano atrás
para c3b8f6d7bb OCR line的左右侧如果超过layoutbox,那么让layoutbox截断左右侧 há 1 ano atrás
post_proc 71a042d9fc footnote检测逻辑更新 há 1 ano atrás
pre_proc 0e2d0b8b4f parse_pdf_by_ocr 和 cut_image 重构,使用抽象类进行写出操作 há 1 ano atrás
spark 877160a74f fix parse_union_pdf logic há 1 ano atrás
train_utils efed5faa53 feat: modify foot note bbox tmp há 1 ano atrás
__init__.py d5dbed7325 目录重构 há 1 ano atrás
pdf_parse_by_ocr.py 0e2d0b8b4f parse_pdf_by_ocr 和 cut_image 重构,使用抽象类进行写出操作 há 1 ano atrás
pdf_parse_by_txt.py 88f5b9325c parse_pdf_by_txt 和 cut_image 重构,使用抽象类进行写出操作 há 1 ano atrás
pdf_parse_for_train.py 0e2d0b8b4f parse_pdf_by_ocr 和 cut_image 重构,使用抽象类进行写出操作 há 1 ano atrás
pipeline.bak c81f699e68 更新libs/config_reader,删除spark/s3.py há 1 ano atrás
pipeline_ocr.bak c81f699e68 更新libs/config_reader,删除spark/s3.py há 1 ano atrás
pipeline_txt.bak c81f699e68 更新libs/config_reader,删除spark/s3.py há 1 ano atrás