Commitin historia

Tekijä SHA1 Viesti Päivämäärä
  myhloli 7a8568045d fix(pre_proc): add Discarded block type to span block type compatibility 8 kuukautta sitten
  myhloli 083b787c15 refactor(pre_proc): allow interline equations to be associated with text blocks 8 kuukautta sitten
  myhloli 19916856e7 feat(pre_proc): add block type compatibility check for span allocation 8 kuukautta sitten
  myhloli a46b12e967 refactor(pre_proc): clean up OCR processing code 11 kuukautta sitten
  myhloli 21fa78195e refactor(pre_proc): remove unused functions and simplify code 11 kuukautta sitten
  Xiaomeng Zhao a8ea5d4aa1 Merge pull request #1046 from myhloli/dev 1 vuosi sitten
  myhloli b9f78c9ba1 refactor(ocr_dict_merge): add threshold parameter for line merging 1 vuosi sitten
  icecraft b492c19c4c refactor: move some constants or enums defs to config folder 1 vuosi sitten
  myhloli 1807126e7f refactor(ocr): adjust OCR processing parameters 1 vuosi sitten
  myhloli c34c9d21ef refactor(ocr): improve image and table block handling 1 vuosi sitten
  myhloli 1f1dd3538d feat(list&index block): detect and merge list and index blocks 1 vuosi sitten
  icecraft 03469909bb Feat/support footnote in figure (#532) 1 vuosi sitten
  赵小蒙 3c145ba0ca fix: some text char removed by interline_equations overlap 1 vuosi sitten
  赵小蒙 f1252e71bd fix lost image bug 1 vuosi sitten
  赵小蒙 eebd976715 remove overlap between with all blocks 1 vuosi sitten
  赵小蒙 a817075b3c update discarded block and spans build logic 1 vuosi sitten
  赵小蒙 f01cb89f01 fix lost image or table bug 1 vuosi sitten
  赵小蒙 1146206164 fix annotation 1 vuosi sitten
  赵小蒙 ce992f271e 有些ocr的text和block框差异过大,降低fill阈值到0.7 1 vuosi sitten
  赵小蒙 45ce99bf87 block type 字段名修复 1 vuosi sitten
  赵小蒙 dcf6e7127a 将ocr_parse逻辑切换到v2,并解决几个parse过程中的error 1 vuosi sitten
  赵小蒙 6b6bad4c58 解决互相引用导致的循环依赖问题 1 vuosi sitten
  赵小蒙 54f165aac6 基于block内对spans做一些fix 1 vuosi sitten
  赵小蒙 f5341e162f 重构 parse_by_ocr_v2.py 1 vuosi sitten
  赵小蒙 7e8e9cabee 重构parse_by_ocr_v2 1 vuosi sitten
  赵小蒙 90ea9096e5 部分layout最底部的文本圈不全,降低阈值减少底边文本被丢弃的可能性 1 vuosi sitten
  赵小蒙 5eab010b98 ocr模式对所有drop的span记录tag并分类 1 vuosi sitten
  赵小蒙 a01356400e 修复spans为空list导致的IndexError: list index out of range 1 vuosi sitten
  赵小蒙 26c2378271 ocr模式下content type 抽象 1 vuosi sitten
  赵小蒙 b6f051d88f 在layout.pdf中绘制drop的bbox 1 vuosi sitten