myhloli
|
7a8568045d
fix(pre_proc): add Discarded block type to span block type compatibility
|
пре 8 месеци |
myhloli
|
083b787c15
refactor(pre_proc): allow interline equations to be associated with text blocks
|
пре 8 месеци |
myhloli
|
19916856e7
feat(pre_proc): add block type compatibility check for span allocation
|
пре 8 месеци |
myhloli
|
a46b12e967
refactor(pre_proc): clean up OCR processing code
|
пре 11 месеци |
myhloli
|
21fa78195e
refactor(pre_proc): remove unused functions and simplify code
|
пре 11 месеци |
Xiaomeng Zhao
|
a8ea5d4aa1
Merge pull request #1046 from myhloli/dev
|
пре 1 година |
myhloli
|
b9f78c9ba1
refactor(ocr_dict_merge): add threshold parameter for line merging
|
пре 1 година |
icecraft
|
b492c19c4c
refactor: move some constants or enums defs to config folder
|
пре 1 година |
myhloli
|
1807126e7f
refactor(ocr): adjust OCR processing parameters
|
пре 1 година |
myhloli
|
c34c9d21ef
refactor(ocr): improve image and table block handling
|
пре 1 година |
myhloli
|
1f1dd3538d
feat(list&index block): detect and merge list and index blocks
|
пре 1 година |
icecraft
|
03469909bb
Feat/support footnote in figure (#532)
|
пре 1 година |
赵小蒙
|
3c145ba0ca
fix: some text char removed by interline_equations overlap
|
пре 1 година |
赵小蒙
|
f1252e71bd
fix lost image bug
|
пре 1 година |
赵小蒙
|
eebd976715
remove overlap between with all blocks
|
пре 1 година |
赵小蒙
|
a817075b3c
update discarded block and spans build logic
|
пре 1 година |
赵小蒙
|
f01cb89f01
fix lost image or table bug
|
пре 1 година |
赵小蒙
|
1146206164
fix annotation
|
пре 1 година |
赵小蒙
|
ce992f271e
有些ocr的text和block框差异过大,降低fill阈值到0.7
|
пре 1 година |
赵小蒙
|
45ce99bf87
block type 字段名修复
|
пре 1 година |
赵小蒙
|
dcf6e7127a
将ocr_parse逻辑切换到v2,并解决几个parse过程中的error
|
пре 1 година |
赵小蒙
|
6b6bad4c58
解决互相引用导致的循环依赖问题
|
пре 1 година |
赵小蒙
|
54f165aac6
基于block内对spans做一些fix
|
пре 1 година |
赵小蒙
|
f5341e162f
重构 parse_by_ocr_v2.py
|
пре 1 година |
赵小蒙
|
7e8e9cabee
重构parse_by_ocr_v2
|
пре 1 година |
赵小蒙
|
90ea9096e5
部分layout最底部的文本圈不全,降低阈值减少底边文本被丢弃的可能性
|
пре 1 година |
赵小蒙
|
5eab010b98
ocr模式对所有drop的span记录tag并分类
|
пре 1 година |
赵小蒙
|
a01356400e
修复spans为空list导致的IndexError: list index out of range
|
пре 1 година |
赵小蒙
|
26c2378271
ocr模式下content type 抽象
|
пре 1 година |
赵小蒙
|
b6f051d88f
在layout.pdf中绘制drop的bbox
|
пре 1 година |