赵小蒙
|
c81f699e68
更新libs/config_reader,删除spark/s3.py
|
1 anno fa |
赵小蒙
|
4b87a571bf
config读写配置更新
|
1 anno fa |
赵小蒙
|
aedaeb00fa
一些变量命名更新
|
1 anno fa |
赵小蒙
|
7e59b4b651
实现从本地home目录获取s3config信息
|
1 anno fa |
赵小蒙
|
58c191e769
将s3的init配置转换成json配置,并保存到home目录下
|
1 anno fa |
赵小蒙
|
34bde6d8ec
classify后在jso根层级添加_pdf_type标识,同时取消对非文本类pdf的drop
|
1 anno fa |
赵小蒙
|
f65be6e094
pdf_parse_by_model.py ---> pdf_parse_by_txt.py
|
1 anno fa |
赵小蒙
|
0f3bfa1044
Merge remote-tracking branch 'origin/master'
|
1 anno fa |
赵小蒙
|
f52c6249be
更新路径输入和markdown输出逻辑
|
1 anno fa |
赵小蒙
|
ca7059e514
注释更新
|
1 anno fa |
赵小蒙
|
97153fabb8
(统一格式)修复中文语境下长文本因分词导致文本丢失问题
|
1 anno fa |
赵小蒙
|
05fe0548b1
修复中文语境下长文本因分词导致文本丢失和content间被增加额外空格的问题
|
1 anno fa |
kernel.h@qq.com
|
02d805ea9b
增加重构函数位置
|
1 anno fa |
kernel.h@qq.com
|
47d5ea96e5
update
|
1 anno fa |
kernel.h@qq.com
|
044bd0191b
delete 无用字段
|
1 anno fa |
myhloli
|
696906ed02
Update README.md
|
1 anno fa |
赵小蒙
|
892f522aea
update
|
1 anno fa |
赵小蒙
|
26e19fd220
mk_nlp_markdown中table的拼接方式更新
|
1 anno fa |
赵小蒙
|
cd8b2d2c78
修复import错误
|
1 anno fa |
赵小蒙
|
d35c49268d
修复import错误
|
1 anno fa |
赵小蒙
|
016cde3ece
修复init错误
|
1 anno fa |
赵小蒙
|
4b8dbd7cfb
ocr_pdf_intermediate_dict_to_markdown_with_para支持mm和nlp双模式
|
1 anno fa |
赵小蒙
|
d6a5724b26
table_latex支持
|
1 anno fa |
赵小蒙
|
50a543ce0e
s3配置信息路径更换
|
1 anno fa |
赵小蒙
|
575ca00e01
app.common依赖删除,pipeline_ocr重构
|
1 anno fa |
赵小蒙
|
7f0c734ff6
pipeline重构
|
1 anno fa |
赵小蒙
|
872cd73f4a
pipeline重构
|
1 anno fa |
赵小蒙
|
7fcbae01fe
demo重构
|
1 anno fa |
赵小蒙
|
752d620a0c
Merge remote-tracking branch 'origin/master'
|
1 anno fa |
赵小蒙
|
fc10772503
ocr_construct_page_component 位置移动
|
1 anno fa |