فهرست منبع

feat: 新增银行交易流水处理流程文档,描述模型统一框架及处理步骤

zhch158_admin 2 هفته پیش
والد
کامیت
8ee3fb00b0
1فایلهای تغییر یافته به همراه17 افزوده شده و 0 حذف شده
  1. 17 0
      zhch/universal_doc_parser/模型统一框架.md

+ 17 - 0
zhch/universal_doc_parser/模型统一框架.md

@@ -0,0 +1,17 @@
+参考minerU实现的模型统一框架, 
+对于我们设计的金融场景,
+一种是银行交易流水,特点是单栏列表形式,没有合并单元格,分无线表格和有线表格两种形式;
+另一种是财务报表形式,特点是多栏列表形式,有合并单元格,且表头复杂。且分有线,无线表格两种形式。
+minerU pipeline使用paddle的ocr模型,对于文字识别效果较好,但表格结构识别效果一般
+对于表格识别minerU vlm和PaddleOCR-VL的效果都很好
+对于我们的应用场景,版式识别使用paddle的转寒微onnx的RT-DETR-H_layout_17cls模型效果较好
+同时要求为了方便交叉核对,需要返回每个单元格的坐标信息。
+
+对于银行交易流水, 构想的处理流程如下:
+1. 方向旋转, PP-LCNet_x1_0_doc_ori.onnx沿用现有minerU实现
+2. layout检测, RT-DETR-H_layout_17cls.onnx仿制minerU实现
+3. 文本调用PaddleOCR进行检测和识别,pytorch模型
+4. 其他如:表格,数学公式等调用minerU vlm或PaddleOCR-VL进行检测和识别
+5. 调用minerU后处理模块进行表格结构恢复和HTML生成,同时返回单元格坐标信息
+
+这里用到的模型都可以通过配置文件进行配置和替换,方便后续进行模型升级和替换,调用模型的代码都应可以采用adpter的方式尽量复用minerU的实现。