参考minerU实现的模型统一框架, 对于我们设计的金融场景, 一种是银行交易流水,特点是单栏列表形式,没有合并单元格,分无线表格和有线表格两种形式; 另一种是财务报表形式,特点是多栏列表形式,有合并单元格,且表头复杂。且分有线,无线表格两种形式。 minerU pipeline使用paddle的ocr模型,对于文字识别效果较好,但表格结构识别效果一般 对于表格识别minerU vlm和PaddleOCR-VL的效果都很好 对于我们的应用场景,版式识别使用paddle的转寒微onnx的RT-DETR-H_layout_17cls模型效果较好 同时要求为了方便交叉核对,需要返回每个单元格的坐标信息。
对于银行交易流水, 构想的处理流程如下:
这里用到的模型都可以通过配置文件进行配置和替换,方便后续进行模型升级和替换,调用模型的代码都应可以采用adpter的方式尽量复用minerU的实现。