|
|
@@ -1,430 +0,0 @@
|
|
|
-基于您提供的 table_cell_matcher.py 代码,`_match_html_rows_to_paddle_groups` 方法实现了一个**全局动态规划 (Global Dynamic Programming)** 算法。
|
|
|
-
|
|
|
-这个算法的核心目标是解决两个序列(HTML 表格行序列 vs PaddleOCR 文本行序列)的**非线性对齐**问题。
|
|
|
-
|
|
|
-以下是该算法的详细原理解析:
|
|
|
-
|
|
|
-### 1. 核心思想:为什么用动态规划?
|
|
|
-
|
|
|
-传统的“贪婪算法”是逐行匹配,如果第 1 行匹配错了,第 2 行就会基于错误的位置继续找,导致“一步错,步步错”。
|
|
|
-
|
|
|
-**动态规划 (DP)** 的思想是:**不急着做决定**。它会计算所有可能的匹配路径的得分,最后回溯找出一条**总分最高**的路径。即使中间某一行匹配分值较低,只要它能让整体结构最合理,DP 就会选择它。
|
|
|
-
|
|
|
-### 2. 算法状态定义
|
|
|
-
|
|
|
-在代码中,`dp` 矩阵定义如下:
|
|
|
-
|
|
|
-* **维度**:`dp[n_html][n_paddle]`
|
|
|
-* **含义**:`dp[i][j]` 表示 **“HTML 的前 `i` 行”** 成功匹配到了 **“Paddle 的前 `j` 组”** 时,所能获得的**最大累计得分**。
|
|
|
-* **值**:
|
|
|
- * `-inf` (负无穷):表示此状态不可达(例如 HTML 第 5 行不可能匹配到 Paddle 第 1 组,因为顺序不对)。
|
|
|
- * `float`:表示当前的累计相似度分数。
|
|
|
-
|
|
|
-### 3. 算法执行流程
|
|
|
-
|
|
|
-#### 第一步:预计算 (Pre-computation)
|
|
|
-为了性能,代码预先计算了 Paddle 组的合并文本。
|
|
|
-* `merged_cache[(j, k)]`:存储从 Paddle 第 `j` 组开始,合并 `k` 个组后的文本。
|
|
|
-* 这避免了在多重循环中反复进行字符串拼接。
|
|
|
-
|
|
|
-#### 第二步:初始化 (Initialization)
|
|
|
-处理 HTML 的第 0 行 (`i=0`)。
|
|
|
-* 尝试将 HTML 第 0 行匹配 Paddle 的第 `0` 到 `SEARCH_WINDOW` 组。
|
|
|
-* 允许合并 `1` 到 `MAX_MERGE` (4) 个 Paddle 组。
|
|
|
-* **得分计算**:`相似度 - 跳过惩罚`。
|
|
|
-* 如果得分有效,填入 `dp[0][end_j]`。
|
|
|
-
|
|
|
-#### 第三步:状态转移 (State Transition) - 核心循环
|
|
|
-这是算法最复杂的部分,遍历每一行 HTML (`i` 从 1 到 N)。对于当前行,有两种选择:
|
|
|
-
|
|
|
-**选择 A:跳过当前 HTML 行 (The "Skip" Strategy)**
|
|
|
-* **场景**:HTML 有这一行,但 OCR 漏识别了,或者 OCR 顺序错乱导致当前位置找不到对应的 OCR 组。
|
|
|
-* **逻辑**:直接继承上一行的最佳状态,但扣除 `SKIP_HTML_PENALTY`。
|
|
|
-* **代码**:
|
|
|
- ```python
|
|
|
- score_skip = dp[i-1][prev_j] - SKIP_HTML_PENALTY
|
|
|
- if score_skip > dp[i][prev_j]:
|
|
|
- dp[i][prev_j] = score_skip
|
|
|
- path[(i, prev_j)] = (prev_j, prev_j + 1) # 标记未消耗新组
|
|
|
- ```
|
|
|
-* **作用**:防止“链条断裂”。即使这一行匹配失败,状态也能传递给下一行。
|
|
|
-
|
|
|
-**选择 B:匹配 Paddle 组 (The "Match" Strategy)**
|
|
|
-* **场景**:正常匹配。
|
|
|
-* **逻辑**:
|
|
|
- 1. 找到上一行所有有效的结束位置 `prev_j`。
|
|
|
- 2. **Gap (跳过)**:允许跳过中间的一些 Paddle 组(可能是噪音或页眉),即 `start_j = prev_j + 1 + gap`。
|
|
|
- 3. **Merge (合并)**:尝试将 `start_j` 开始的 `1` 到 `4` 个 Paddle 组视为一行。
|
|
|
- 4. **计算得分**:
|
|
|
- $$Score = Similarity(HTML\_Text, Paddle\_Text) - Gap\_Penalty - Length\_Penalty$$
|
|
|
- 5. **转移方程**:
|
|
|
- $$dp[i][end\_j] = \max(dp[i][end\_j], \ dp[i-1][prev\_j] + Score)$$
|
|
|
-* **代码**:
|
|
|
- ```python
|
|
|
- total_score = prev_score + current_score
|
|
|
- if total_score > dp[i][end_j]:
|
|
|
- dp[i][end_j] = total_score
|
|
|
- path[(i, end_j)] = (prev_j, start_j) # 记录路径
|
|
|
- ```
|
|
|
-
|
|
|
-#### 第四步:回溯 (Backtracking)
|
|
|
-当填满 `dp` 表后,我们需要找出最优路径:
|
|
|
-1. **找终点**:在最后一行 HTML (`n_html-1`) 中找到得分最高的 `j`。如果最后一行没匹配上,就往前找倒数第二行,以此类推。
|
|
|
-2. **倒推**:利用 `path` 字典,从终点一步步回到起点。
|
|
|
- * `path[(i, j)]` 存储了 `(prev_j, start_j)`。
|
|
|
- * 如果 `start_j <= j`:说明 HTML 行 `i` 对应了 Paddle 组 `[start_j, ..., j]`。
|
|
|
- * 如果 `start_j > j`:说明 HTML 行 `i` 被跳过了(对应空列表)。
|
|
|
-
|
|
|
-#### 第五步:孤儿挽救 (Orphan Rescue)
|
|
|
-DP 找的是“主干路径”,可能会漏掉一些没能进入最优路径的 Paddle 组(Orphans)。
|
|
|
-* **逻辑**:遍历所有未使用的 Paddle 组,看它在物理位置上(Y坐标)离哪个已匹配的组最近(上方或下方)。
|
|
|
-* **归属**:将其强行合并到最近的 HTML 行中。这解决了 OCR 过度切分导致的小碎片丢失问题。
|
|
|
-
|
|
|
-### 4. 关键参数解析
|
|
|
-
|
|
|
-* **`MAX_MERGE = 4`**:
|
|
|
- * 允许一行 HTML 对应最多 4 行 OCR 文本。解决 OCR 将长表格行切分成多行的问题。
|
|
|
-* **`SEARCH_WINDOW = 15`**:
|
|
|
- * 允许 OCR 结果相对于 HTML 出现较大的位移或中间插入了大量噪音(如印章干扰)。
|
|
|
-* **`SKIP_HTML_PENALTY = 0.3`**:
|
|
|
- * 这是您之前遇到问题的关键修复。允许算法以 0.3 分的代价放弃一行 HTML,从而保全后续的匹配。
|
|
|
-* **`SKIP_PADDLE_PENALTY = 0.1`**:
|
|
|
- * 允许跳过 OCR 中的噪音行,但跳过越多扣分越多,倾向于连续匹配。
|
|
|
-
|
|
|
-### 5. 总结
|
|
|
-
|
|
|
-这个算法将表格行匹配问题转化为了一个**寻找最大权值路径**的图论问题。
|
|
|
-
|
|
|
-* **节点**:`(HTML行索引, Paddle组索引)`
|
|
|
-* **边**:匹配操作(得分)或跳过操作(罚分)。
|
|
|
-* **目标**:找到从第 0 行到第 N 行的总分最高路线。
|
|
|
-
|
|
|
-这种方法极其鲁棒,能够同时处理:OCR 分行、OCR 漏行、OCR 噪音、HTML 空行以及轻微的顺序错乱问题。
|
|
|
-
|
|
|
----
|
|
|
-
|
|
|
-# 行级动态规划 (Row-Level DP)
|
|
|
-
|
|
|
-1. **贪婪算法 (Greedy)**:它是一个接一个匹配的。如果第一个单元格错误地“吞掉”了本属于第二个单元格的 Box(或者像之前的案例,短日期匹配到了长 ID),后面的单元格就无路可走了。
|
|
|
-2. **逻辑耦合 (Coupling)**:匹配流程控制(循环、指针移动)与 相似度评分逻辑(各种防御、加分、扣分)深度纠缠在一起,导致代码臃肿且难以维护。
|
|
|
-
|
|
|
-### 🚀 更好的思路:行级动态规划 (Row-Level DP)
|
|
|
-
|
|
|
-既然你已经在行与行的匹配中使用了 DP,**在行内的单元格匹配中,DP 同样是终极解决方案。**
|
|
|
-
|
|
|
-**核心思想**:
|
|
|
-不要问“当前单元格最匹配哪个 Box”,而要问“**如何将这一行的 M 个 Box 分配给 N 个单元格,使得整体匹配得分最高**”。
|
|
|
-
|
|
|
-这样,如果“短日期”匹配“长ID”会导致“长ID”对应的单元格没东西匹配(总分变低),DP 就会自动放弃这个错误匹配,选择全局最优解。
|
|
|
-
|
|
|
-### 🛠️ 重构方案
|
|
|
-
|
|
|
-我们将代码拆分为两个清晰的部分:
|
|
|
-1. **纯粹的评分函数 (`_compute_match_score`)**:只负责计算“文本 A”和“文本 B”的匹配度,包含所有的防御逻辑(长度、类型、子序列等)。
|
|
|
-2. **DP 匹配器 (`_match_cells_in_row_dp`)**:只负责路径规划,决定哪个 Box 归哪个 Cell。
|
|
|
-
|
|
|
-#### 1. 提取评分逻辑 (解耦与瘦身)
|
|
|
-
|
|
|
-把所有复杂的 `if/else` 防御逻辑移到这里。
|
|
|
-
|
|
|
-```python
|
|
|
- def _compute_match_score(self, cell_text: str, box_text: str) -> float:
|
|
|
- """
|
|
|
- 纯粹的评分函数:计算单元格文本与候选 Box 文本的匹配得分
|
|
|
- 包含所有防御逻辑、加权逻辑
|
|
|
- """
|
|
|
- # 1. 预处理
|
|
|
- cell_norm = self.text_matcher.normalize_text(cell_text)
|
|
|
- box_norm = self.text_matcher.normalize_text(box_text)
|
|
|
-
|
|
|
- if not cell_norm or not box_norm:
|
|
|
- return 0.0
|
|
|
-
|
|
|
- # --- ⚡️ 快速防御 (Fast Fail) ---
|
|
|
- len_cell = len(cell_norm)
|
|
|
- len_box = len(box_norm)
|
|
|
-
|
|
|
- # 长度差异过大直接 0 分 (除非是包含关系且特征明显)
|
|
|
- if len_box > len_cell * 3 + 5:
|
|
|
- # 除非 cell 很长 (长ID),否则不许短 cell 匹配超长 box
|
|
|
- if len_cell < 5:
|
|
|
- return 0.0
|
|
|
-
|
|
|
- # --- 🔍 核心相似度计算 ---
|
|
|
- cell_proc = self._preprocess_text_for_matching(cell_text)
|
|
|
- box_proc = self._preprocess_text_for_matching(box_text)
|
|
|
-
|
|
|
- # A. Token Sort (解决乱序)
|
|
|
- score_sort = fuzz.token_sort_ratio(cell_proc, box_proc)
|
|
|
-
|
|
|
- # B. Partial (解决截断/包含)
|
|
|
- score_partial = fuzz.partial_ratio(cell_norm, box_norm)
|
|
|
-
|
|
|
- # C. Subsequence (解决噪音插入)
|
|
|
- score_subseq = 0.0
|
|
|
- if len_cell > 5:
|
|
|
- score_subseq = self._calculate_subsequence_score(cell_norm, box_norm)
|
|
|
-
|
|
|
- # --- 🛡️ 深度防御逻辑 (Deep Defense) ---
|
|
|
-
|
|
|
- # 1. 短文本防御 (防止 "1" 匹配 "1000")
|
|
|
- if score_partial > 80:
|
|
|
- import re
|
|
|
- has_content = lambda t: bool(re.search(r'[a-zA-Z0-9\u4e00-\u9fa5]', t))
|
|
|
-
|
|
|
- # 纯符号防御
|
|
|
- if not has_content(cell_norm) and has_content(box_norm):
|
|
|
- if len_box > len_cell + 2: score_partial = 0.0
|
|
|
-
|
|
|
- # 微小碎片防御
|
|
|
- elif len_cell <= 2 and len_box > 8:
|
|
|
- score_partial = 0.0
|
|
|
-
|
|
|
- # 覆盖率防御 (防止 "2024" 匹配 "ID2024...")
|
|
|
- else:
|
|
|
- coverage = len_cell / len_box
|
|
|
- if coverage < 0.3 and score_sort < 45:
|
|
|
- score_partial = 0.0
|
|
|
-
|
|
|
- # 2. 子序列防御 (防止短数字匹配长ID)
|
|
|
- if score_subseq > 80:
|
|
|
- if len_box > len_cell * 1.5:
|
|
|
- import re
|
|
|
- # 如果是数字类型且较短
|
|
|
- if re.match(r'^[\d\-\:\.\s]+$', cell_norm) and len_cell < 12:
|
|
|
- score_subseq = 0.0
|
|
|
-
|
|
|
- # --- 📊 综合评分 ---
|
|
|
- final_score = max(score_sort, score_partial, score_subseq)
|
|
|
-
|
|
|
- # 精确匹配奖励
|
|
|
- if cell_norm == box_norm:
|
|
|
- final_score = 100.0
|
|
|
- # 包含关系奖励
|
|
|
- elif cell_norm in box_norm:
|
|
|
- final_score = min(100, final_score + 5)
|
|
|
-
|
|
|
- return final_score
|
|
|
-```
|
|
|
-
|
|
|
-#### 2. 实现行内 DP (解决贪婪问题)
|
|
|
-
|
|
|
-用 DP 替代 `_match_cell_sequential`。
|
|
|
-
|
|
|
-```python
|
|
|
- def _match_cells_in_row_dp(self, html_cells: List, row_boxes: List[Dict]) -> List[Dict]:
|
|
|
- """
|
|
|
- 使用动态规划进行行内单元格匹配
|
|
|
- 目标:找到一种分配方案,使得整行的匹配总分最高
|
|
|
- """
|
|
|
- n_cells = len(html_cells)
|
|
|
- n_boxes = len(row_boxes)
|
|
|
-
|
|
|
- # dp[i][j] 表示:前 i 个单元格 消耗了 前 j 个 boxes 的最大得分
|
|
|
- dp = np.full((n_cells + 1, n_boxes + 1), -np.inf)
|
|
|
- dp[0][0] = 0
|
|
|
-
|
|
|
- # path[i][j] = (prev_j, matched_info) 用于回溯
|
|
|
- path = {}
|
|
|
-
|
|
|
- # 允许合并的最大 box 数量
|
|
|
- MAX_MERGE = 5
|
|
|
-
|
|
|
- for i in range(1, n_cells + 1):
|
|
|
- cell = html_cells[i-1]
|
|
|
- cell_text = cell.get_text(strip=True)
|
|
|
-
|
|
|
- # 优化:如果单元格为空,直接继承状态,不消耗 box
|
|
|
- if not cell_text:
|
|
|
- for j in range(n_boxes + 1):
|
|
|
- if dp[i-1][j] > -np.inf:
|
|
|
- dp[i][j] = dp[i-1][j]
|
|
|
- path[(i, j)] = (j, None) # None 表示空匹配
|
|
|
- continue
|
|
|
-
|
|
|
- # 遍历当前 box 指针 j
|
|
|
- for j in range(n_boxes + 1):
|
|
|
- # 1. 策略:跳过当前单元格 (Cell Missing)
|
|
|
- # 继承 dp[i-1][j]
|
|
|
- if dp[i-1][j] > dp[i][j]:
|
|
|
- dp[i][j] = dp[i-1][j]
|
|
|
- path[(i, j)] = (j, None)
|
|
|
-
|
|
|
- # 2. 策略:匹配 k 个 boxes (从 j-k 到 j)
|
|
|
- # 我们尝试用 boxes[prev_j : j] 来匹配 cell[i]
|
|
|
- # prev_j 是上一个单元格结束的位置
|
|
|
-
|
|
|
- # 限制搜索范围,提高性能
|
|
|
- # 假设中间跳过的噪音 box 不超过 3 个
|
|
|
- search_start = max(0, j - MAX_MERGE - 3)
|
|
|
-
|
|
|
- for prev_j in range(j - 1, search_start - 1, -1):
|
|
|
- if dp[i-1][prev_j] == -np.inf:
|
|
|
- continue
|
|
|
-
|
|
|
- # 取出中间的 boxes (prev_j 到 j)
|
|
|
- # 注意:这里我们允许中间有一些 box 被跳过(视为噪音),
|
|
|
- # 但为了简化 DP,我们通常假设连续取用,或者只取末尾的 k 个
|
|
|
-
|
|
|
- # 简化版:尝试合并 boxes[prev_j:j] 中的所有内容
|
|
|
- candidate_boxes = row_boxes[prev_j:j]
|
|
|
-
|
|
|
- # 组合文本
|
|
|
- merged_text = "".join([b['text'] for b in candidate_boxes])
|
|
|
- # 或者用空格连接,视情况而定
|
|
|
- merged_text_spaced = " ".join([b['text'] for b in candidate_boxes])
|
|
|
-
|
|
|
- # 计算得分
|
|
|
- score = self._compute_match_score(cell_text, merged_text_spaced)
|
|
|
-
|
|
|
- if score > 60: # 只有及格的匹配才考虑
|
|
|
- new_score = dp[i-1][prev_j] + score
|
|
|
- if new_score > dp[i][j]:
|
|
|
- dp[i][j] = new_score
|
|
|
- path[(i, j)] = (prev_j, {
|
|
|
- 'text': merged_text_spaced,
|
|
|
- 'boxes': candidate_boxes,
|
|
|
- 'score': score
|
|
|
- })
|
|
|
-
|
|
|
- # --- 回溯找最优解 ---
|
|
|
- # 找到最后一行得分最高的 j
|
|
|
- best_j = np.argmax(dp[n_cells])
|
|
|
- if dp[n_cells][best_j] == -np.inf:
|
|
|
- return [] # 匹配完全失败
|
|
|
-
|
|
|
- results = []
|
|
|
- curr_i, curr_j = n_cells, best_j
|
|
|
-
|
|
|
- while curr_i > 0:
|
|
|
- prev_j, match_info = path.get((curr_i, curr_j), (curr_j, None))
|
|
|
-
|
|
|
- if match_info:
|
|
|
- # 构造结果
|
|
|
- cell_idx = curr_i - 1
|
|
|
- # 这里需要把结果存下来,最后反转
|
|
|
- results.append({
|
|
|
- 'cell_idx': cell_idx,
|
|
|
- 'match_info': match_info
|
|
|
- })
|
|
|
-
|
|
|
- curr_i -= 1
|
|
|
- curr_j = prev_j
|
|
|
-
|
|
|
- return results[::-1]
|
|
|
-```
|
|
|
-
|
|
|
-### 💡 为什么这个方案更好?
|
|
|
-
|
|
|
-1. **全局最优**:
|
|
|
- * **场景**:Cell 1=`2024`, Cell 2=`ID2024...`。
|
|
|
- * **贪婪**:Cell 1 看到 `ID2024...`,部分匹配 100分,抢走。Cell 2 没得吃,0分。总分 100。
|
|
|
- * **DP**:
|
|
|
- * 方案 A (Cell 1 抢走): Cell 1 得 100,Cell 2 得 0。总分 100。
|
|
|
- * 方案 B (Cell 1 跳过): Cell 1 匹配后面的短日期 (100分),Cell 2 匹配长ID (100分)。总分 200。
|
|
|
- * **结果**:DP 自动选择方案 B。
|
|
|
-
|
|
|
-2. **代码清晰**:
|
|
|
- * `_compute_match_score` 只有评分逻辑,没有循环和指针。
|
|
|
- * `_match_cells_in_row_dp` 只有路径规划,没有复杂的字符串处理。
|
|
|
-
|
|
|
-3. **天然处理合并**:
|
|
|
- * DP 的内层循环 `candidate_boxes = row_boxes[prev_j:j]` 天然支持将多个 Box 合并给一个 Cell,不需要单独写 `merged_bboxes` 逻辑。
|
|
|
-
|
|
|
-# 全局动态规划与行级动态规划详解
|
|
|
-
|
|
|
-结合 `ocr_verify/merger/table_cell_matcher.py` 代码与提供的流水分析数据,为您讲解这两种动态规划在表格匹配中的应用。
|
|
|
-
|
|
|
-## 核心背景
|
|
|
-
|
|
|
-表格匹配的任务是将 **HTML 表格结构**(来自 PP-Structure)与 **OCR 文字框**(来自 PaddleOCR)进行对齐。由于 OCR 结果可能存在漏检、误检、多行被识别为单行或单行被切分为多行的情况,简单的顺序匹配容易出错。因此,代码采用了**两级动态规划(DP)**策略。
|
|
|
-
|
|
|
----
|
|
|
-
|
|
|
-## 1. 全局动态规划 (Global DP):行级匹配
|
|
|
-
|
|
|
-**目标**:将 HTML 的 `<tr>` 行与 OCR 的“行组”(Grouped Boxes)进行对齐。
|
|
|
-
|
|
|
-### 代码位置
|
|
|
-`TableCellMatcher._match_html_rows_to_paddle_groups` (Line 548)
|
|
|
-
|
|
|
-### 算法原理
|
|
|
-* **状态定义**:`dp[i][j]` 表示 HTML 前 `i` 行与 OCR 前 `j` 个行组匹配的最大得分。
|
|
|
-* **核心挑战**:HTML 行数与 OCR 行组数往往不一致(例如 OCR 将一行文字拆成了两行,或者漏掉了某一行)。
|
|
|
-* **转移方程**:
|
|
|
- 1. **匹配 (Match)**:HTML 第 `i` 行与 OCR 第 `j` 组(或合并 `j` 到 `j+k` 组)匹配。
|
|
|
- * `score = similarity(html_text, ocr_text) - penalty`
|
|
|
- 2. **跳过 HTML (Skip HTML)**:HTML 第 `i` 行在 OCR 中没找到对应(可能是 OCR 漏检)。
|
|
|
- * `dp[i][j] = dp[i-1][j] - SKIP_HTML_PENALTY`
|
|
|
- 3. **跳过 OCR (Skip Paddle)**:OCR 第 `j` 组是噪音,不匹配任何 HTML 行(通过 `gap` 参数实现)。
|
|
|
-
|
|
|
-### 实例演示
|
|
|
-**数据来源**:`A用户_单元格扫描流水_page_007.json`
|
|
|
-
|
|
|
-假设 HTML 结构如下(简化):
|
|
|
-* **HTML Row 0**: `1000107... 2024-07-21...` (交易记录1)
|
|
|
-* **HTML Row 1**: `1000107... 2024-07-21...` (交易记录2)
|
|
|
-
|
|
|
-OCR 分组结果(按 Y 坐标聚类):
|
|
|
-* **OCR Group 0**: `1000107... 2024-07-21...` (对应 HTML Row 0)
|
|
|
-* **OCR Group 1**: `1000107... 2024-07-21...` (对应 HTML Row 1)
|
|
|
-* **OCR Group 2**: `(噪音/水印)`
|
|
|
-
|
|
|
-**DP 过程**:
|
|
|
-1. `dp[0][0]` 计算 HTML Row 0 与 OCR Group 0 的相似度,得分高。
|
|
|
-2. `dp[1][1]` 基于 `dp[0][0]`,计算 HTML Row 1 与 OCR Group 1 的相似度,得分高。
|
|
|
-3. 如果 OCR Group 2 是噪音,算法会发现 HTML Row 2 与 OCR Group 2 匹配度极低,可能会选择跳过 OCR Group 2,或者如果 HTML 结束了,OCR Group 2 就成为“未匹配组”。
|
|
|
-
|
|
|
----
|
|
|
-
|
|
|
-## 2. 行级动态规划 (Row-level DP):单元格匹配
|
|
|
-
|
|
|
-**目标**:在已对齐的某一行内,将 HTML 的 `<td>` 单元格与该行的 OCR Boxes 进行对齐。
|
|
|
-
|
|
|
-### 代码位置
|
|
|
-`TableCellMatcher._match_cells_in_row_dp` (Line 171)
|
|
|
-
|
|
|
-### 算法原理
|
|
|
-* **状态定义**:`dp[i][j]` 表示该行前 `i` 个 HTML 单元格消耗了前 `j` 个 OCR Boxes 的最大得分。
|
|
|
-* **核心挑战**:一个单元格可能对应多个 OCR Box(例如长文本被切断),或者某个单元格内容 OCR 漏检。
|
|
|
-* **转移方程**:
|
|
|
- 1. **匹配 (Match)**:HTML 单元格 `i` 匹配 OCR Boxes `prev_j` 到 `j` 的合并内容。
|
|
|
- * `score = similarity(cell_text, merged_box_text)`
|
|
|
- * 这里允许合并最多 `MAX_MERGE` (5) 个 Box。
|
|
|
- 2. **单元格缺失 (Cell Missing)**:当前 HTML 单元格为空或 OCR 没识别到。
|
|
|
- * `dp[i][j] = dp[i-1][j]` (继承上一个状态,相当于当前单元格不消耗 Box)
|
|
|
-
|
|
|
-### 实例演示
|
|
|
-**数据来源**:`A用户_单元格扫描流水_page_007.json` (HTML Row 0)
|
|
|
-
|
|
|
-**HTML 单元格**:
|
|
|
-1. Cell 0: `100010710124072100059119291975743003` (长数字)
|
|
|
-2. Cell 1: `2024-07-2107:50:38` (时间)
|
|
|
-3. Cell 2: `扫二维码付款`
|
|
|
-
|
|
|
-**OCR Boxes (按 X 排序)**:
|
|
|
-1. Box 0: `100010710124072100059119291975743003`
|
|
|
-2. Box 1: `2024-07-21`
|
|
|
-3. Box 2: `07:50:38` (假设时间被切分为两个 Box)
|
|
|
-4. Box 3: `扫二维码付款`
|
|
|
-
|
|
|
-**DP 过程**:
|
|
|
-1. **i=1 (Cell 0)**:
|
|
|
- * 尝试匹配 Box 0: 相似度 100%,得分高。
|
|
|
- * `dp[1][1]` 更新为高分。
|
|
|
-2. **i=2 (Cell 1)**:
|
|
|
- * 尝试匹配 Box 1: `2024-07-21` vs `2024-07-2107:50:38` -> 相似度一般。
|
|
|
- * 尝试匹配 Box 1+2: `2024-07-21 07:50:38` vs `2024-07-2107:50:38` -> 相似度极高。
|
|
|
- * 算法选择合并 Box 1 和 Box 2 赋给 Cell 1。
|
|
|
- * `dp[2][3]` 更新为 `dp[1][1] + score`。
|
|
|
-3. **i=3 (Cell 2)**:
|
|
|
- * 尝试匹配 Box 3: 相似度 100%。
|
|
|
- * `dp[3][4]` 更新。
|
|
|
-
|
|
|
-最终回溯路径:Cell 0 <- [Box 0], Cell 1 <- [Box 1, Box 2], Cell 2 <- [Box 3]。
|
|
|
-
|
|
|
-## 总结
|
|
|
-
|
|
|
-* **全局 DP** 解决了“行对齐”问题,处理行层面的漏检和错位。
|
|
|
-* **行级 DP** 解决了“单元格对齐”问题,处理单元格内的碎片化识别和内容匹配。
|
|
|
-* 两者结合,实现了从整页到细节的高精度表格还原。
|