myhloli c8b06ad589 Merge branch 'master' into master vor 1 Jahr
..
cli 02d805ea9b 增加重构函数位置 vor 1 Jahr
dict2md 00f16239c6 实现parse_ocr_pdf api,切图逻辑s3使用平铺地址,本地使用层级地址,删除预设s3_image_save_path vor 1 Jahr
filter d5dbed7325 目录重构 vor 1 Jahr
io 1764552762 重构AbsReaderWriter vor 1 Jahr
layout d5dbed7325 目录重构 vor 1 Jahr
libs 88f5b9325c parse_pdf_by_txt 和 cut_image 重构,使用抽象类进行写出操作 vor 1 Jahr
para c3b8f6d7bb OCR line的左右侧如果超过layoutbox,那么让layoutbox截断左右侧 vor 1 Jahr
post_proc 71a042d9fc footnote检测逻辑更新 vor 1 Jahr
pre_proc 0e2d0b8b4f parse_pdf_by_ocr 和 cut_image 重构,使用抽象类进行写出操作 vor 1 Jahr
spark 88f5b9325c parse_pdf_by_txt 和 cut_image 重构,使用抽象类进行写出操作 vor 1 Jahr
train_utils efed5faa53 feat: modify foot note bbox tmp vor 1 Jahr
__init__.py d5dbed7325 目录重构 vor 1 Jahr
pdf_parse_by_ocr.py 0e2d0b8b4f parse_pdf_by_ocr 和 cut_image 重构,使用抽象类进行写出操作 vor 1 Jahr
pdf_parse_by_txt.py 88f5b9325c parse_pdf_by_txt 和 cut_image 重构,使用抽象类进行写出操作 vor 1 Jahr
pdf_parse_for_train.py 0e2d0b8b4f parse_pdf_by_ocr 和 cut_image 重构,使用抽象类进行写出操作 vor 1 Jahr
pipeline.bak c81f699e68 更新libs/config_reader,删除spark/s3.py vor 1 Jahr
pipeline_ocr.bak c81f699e68 更新libs/config_reader,删除spark/s3.py vor 1 Jahr
pipeline_txt.bak c81f699e68 更新libs/config_reader,删除spark/s3.py vor 1 Jahr