赵小蒙
|
016cde3ece
修复init错误
|
1 year ago |
赵小蒙
|
575ca00e01
app.common依赖删除,pipeline_ocr重构
|
1 year ago |
赵小蒙
|
7f0c734ff6
pipeline重构
|
1 year ago |
赵小蒙
|
872cd73f4a
pipeline重构
|
1 year ago |
kernel.h@qq.com
|
7162debc38
实现文本拼PDF解析结果装标准格式
|
1 year ago |
赵小蒙
|
a343175d66
恢复pipeline
|
1 year ago |
赵小蒙
|
6f80beaa31
原pipeline拆分
|
1 year ago |
赵小蒙
|
07e4f115e6
ocr_pdf_intermediate_dict_to_markdown_with_para输出nlp格式的markdown
|
1 year ago |
赵小蒙
|
e9aa103cae
ocr增加分页markdown输出格式
|
1 year ago |
赵小蒙
|
27c080a944
pipeline调整
|
1 year ago |
icecraft
|
36e86dcbc5
Merge pull request #7 from myhloli/feat/add_layout
|
1 year ago |
许瑞
|
4f1f7d62d5
feat: add layout
|
1 year ago |
赵小蒙
|
1d5d778197
qa版本最终阶段保留pdf_intermediate_dict信息
|
1 year ago |
许瑞
|
390fdb2cd5
fix: fix typo
|
1 year ago |
许瑞
|
09269c845e
feat: add extract_train_data
|
1 year ago |
赵小蒙
|
ef267e0957
qa需求定制输出
|
1 year ago |
赵小蒙
|
f5b9cff4c4
ocr后不需要再次检测need_drop,且ocr_dropped_parse_pdf逻辑后需要将need_drop置为false
|
1 year ago |
赵小蒙
|
b7c12891cc
增加uni_parse_pdf逻辑
|
1 year ago |
xuchao
|
d5ea44f944
按照统一格式组合文本型pdf的解析结果
|
1 year ago |
赵小蒙
|
051ee3c3f5
增加标准格式的拼装逻辑
|
1 year ago |
赵小蒙
|
f10b4a501f
s3_image_save_path统一配置
|
1 year ago |
赵小蒙
|
b1ac8d03da
book_name生成逻辑更新
|
1 year ago |
赵小蒙
|
9bd6294bfa
ocr模式更新spark pipeline
|
1 year ago |
赵小蒙
|
8a52ada337
data_type/bookid/data_source兼容处理
|
1 year ago |
赵小蒙
|
f7a7206e08
目录重构
|
1 year ago |