2 weeks ago · 8ee3fb00b0
--- a/zhch/universal_doc_parser/模型统一框架.md
+++ b/zhch/universal_doc_parser/模型统一框架.md
@@ -0,0 +1,17 @@
 
				+参考minerU实现的模型统一框架, 
			
 
				+对于我们设计的金融场景，
			
 
				+一种是银行交易流水，特点是单栏列表形式，没有合并单元格，分无线表格和有线表格两种形式；
			
 
				+另一种是财务报表形式，特点是多栏列表形式，有合并单元格，且表头复杂。且分有线，无线表格两种形式。
			
 
				+minerU pipeline使用paddle的ocr模型，对于文字识别效果较好，但表格结构识别效果一般
			
 
				+对于表格识别minerU vlm和PaddleOCR-VL的效果都很好
			
 
				+对于我们的应用场景，版式识别使用paddle的转寒微onnx的RT-DETR-H_layout_17cls模型效果较好
			
 
				+同时要求为了方便交叉核对，需要返回每个单元格的坐标信息。
			
 
				+
			
 
				+对于银行交易流水, 构想的处理流程如下:
			
 
				+1. 方向旋转, PP-LCNet_x1_0_doc_ori.onnx沿用现有minerU实现
			
 
				+2. layout检测, RT-DETR-H_layout_17cls.onnx仿制minerU实现
			
 
				+3. 文本调用PaddleOCR进行检测和识别，pytorch模型
			
 
				+4. 其他如：表格，数学公式等调用minerU vlm或PaddleOCR-VL进行检测和识别
			
 
				+5. 调用minerU后处理模块进行表格结构恢复和HTML生成，同时返回单元格坐标信息
			
 
				+
			
 
				+这里用到的模型都可以通过配置文件进行配置和替换，方便后续进行模型升级和替换，调用模型的代码都应可以采用adpter的方式尽量复用minerU的实现。