赵小蒙
|
18b02ae3bd
Pipe类重构
|
1 سال پیش |
赵小蒙
|
1f186f5f45
fix pdf_info_dict dict->list
|
1 سال پیش |
赵小蒙
|
709a65008a
中间态dict结构调整
|
1 سال پیش |
赵小蒙
|
1b9d65b3d3
1、Trace类的key增加前置下划线
|
1 سال پیش |
赵小蒙
|
00f16239c6
实现parse_ocr_pdf api,切图逻辑s3使用平铺地址,本地使用层级地址,删除预设s3_image_save_path
|
1 سال پیش |
赵小蒙
|
ca7059e514
注释更新
|
1 سال پیش |
赵小蒙
|
97153fabb8
(统一格式)修复中文语境下长文本因分词导致文本丢失问题
|
1 سال پیش |
赵小蒙
|
05fe0548b1
修复中文语境下长文本因分词导致文本丢失和content间被增加额外空格的问题
|
1 سال پیش |
赵小蒙
|
892f522aea
update
|
1 سال پیش |
赵小蒙
|
b7652171ea
make_standard_format_with_para逻辑更新
|
1 سال پیش |
赵小蒙
|
473a0a7de0
拼接markdown时,如果para_text为空则跳过拼接
|
1 سال پیش |
赵小蒙
|
d3ee9abbab
更新ocr_mk_mm_markdown_with_para_core逻辑
|
1 سال پیش |
赵小蒙
|
bf8d8e217d
新增ocr_mk_nlp_markdown_with_para方法
|
1 سال پیش |
赵小蒙
|
7d010e1969
ocr_mk_mm_markdown_with_para和ocr_mk_mm_markdown_with_para_and_pagination逻辑优化
|
1 سال پیش |
赵小蒙
|
dbe79ba1b2
ocr_mk_mm_markdown_with_para_and_pagination逻辑更新
|
1 سال پیش |
kernel.h@qq.com
|
f36c26565e
使用面积占比方式判断一行文本是不是在一个layoutbox里
|
1 سال پیش |
赵小蒙
|
e9aa103cae
ocr增加分页markdown输出格式
|
1 سال پیش |
赵小蒙
|
99055af331
英文文本拼接时,如果单个单词超过15个字符,则对该单词进行切分处理。行间公式/图片/表格独立占有一行
|
1 سال پیش |
赵小蒙
|
0dbbf9c362
解决'[]'括起来的文本被识别成链接的问题
|
1 سال پیش |
kernel.h@qq.com
|
056aed8677
制作OCR markdown
|
1 سال پیش |
赵小蒙
|
c5624ace1e
line_to_standard_format 逻辑更新
|
1 سال پیش |
赵小蒙
|
ef267e0957
qa需求定制输出
|
1 سال پیش |
赵小蒙
|
051ee3c3f5
增加标准格式的拼装逻辑
|
1 سال پیش |
赵小蒙
|
f10b4a501f
s3_image_save_path统一配置
|
1 سال پیش |
赵小蒙
|
195998a07f
mk_mm_markdown2中span_type分类更新
|
1 سال پیش |
赵小蒙
|
25a0fd0665
Merge remote-tracking branch 'origin/master'
|
1 سال پیش |
赵小蒙
|
f06a32133c
make多模态markdown时图片地址更改为fullpath
|
1 سال پیش |
xuchao
|
084e9328d0
实现layout内部分段
|
1 سال پیش |
赵小蒙
|
59b0b0c3da
make markdown时特殊符号转义
|
1 سال پیش |
赵小蒙
|
9bd6294bfa
ocr模式更新spark pipeline
|
1 سال پیش |