许瑞
|
09269c845e
feat: add extract_train_data
|
1 year ago |
赵小蒙
|
ef267e0957
qa需求定制输出
|
1 year ago |
赵小蒙
|
f5b9cff4c4
ocr后不需要再次检测need_drop,且ocr_dropped_parse_pdf逻辑后需要将need_drop置为false
|
1 year ago |
赵小蒙
|
b7c12891cc
增加uni_parse_pdf逻辑
|
1 year ago |
xuchao
|
d5ea44f944
按照统一格式组合文本型pdf的解析结果
|
1 year ago |
赵小蒙
|
051ee3c3f5
增加标准格式的拼装逻辑
|
1 year ago |
赵小蒙
|
f10b4a501f
s3_image_save_path统一配置
|
1 year ago |
赵小蒙
|
b1ac8d03da
book_name生成逻辑更新
|
1 year ago |
赵小蒙
|
9bd6294bfa
ocr模式更新spark pipeline
|
1 year ago |
赵小蒙
|
8a52ada337
data_type/bookid/data_source兼容处理
|
1 year ago |
赵小蒙
|
f7a7206e08
目录重构
|
1 year ago |