|
|
@@ -0,0 +1,17 @@
|
|
|
+参考minerU实现的模型统一框架,
|
|
|
+对于我们设计的金融场景,
|
|
|
+一种是银行交易流水,特点是单栏列表形式,没有合并单元格,分无线表格和有线表格两种形式;
|
|
|
+另一种是财务报表形式,特点是多栏列表形式,有合并单元格,且表头复杂。且分有线,无线表格两种形式。
|
|
|
+minerU pipeline使用paddle的ocr模型,对于文字识别效果较好,但表格结构识别效果一般
|
|
|
+对于表格识别minerU vlm和PaddleOCR-VL的效果都很好
|
|
|
+对于我们的应用场景,版式识别使用paddle的转寒微onnx的RT-DETR-H_layout_17cls模型效果较好
|
|
|
+同时要求为了方便交叉核对,需要返回每个单元格的坐标信息。
|
|
|
+
|
|
|
+对于银行交易流水, 构想的处理流程如下:
|
|
|
+1. 方向旋转, PP-LCNet_x1_0_doc_ori.onnx沿用现有minerU实现
|
|
|
+2. layout检测, RT-DETR-H_layout_17cls.onnx仿制minerU实现
|
|
|
+3. 文本调用PaddleOCR进行检测和识别,pytorch模型
|
|
|
+4. 其他如:表格,数学公式等调用minerU vlm或PaddleOCR-VL进行检测和识别
|
|
|
+5. 调用minerU后处理模块进行表格结构恢复和HTML生成,同时返回单元格坐标信息
|
|
|
+
|
|
|
+这里用到的模型都可以通过配置文件进行配置和替换,方便后续进行模型升级和替换,调用模型的代码都应可以采用adpter的方式尽量复用minerU的实现。
|