Commit History

作者 SHA1 備註 提交日期
  赵小蒙 18b02ae3bd Pipe类重构 1 年之前
  赵小蒙 1f186f5f45 fix pdf_info_dict dict->list 1 年之前
  赵小蒙 709a65008a 中间态dict结构调整 1 年之前
  赵小蒙 1b9d65b3d3 1、Trace类的key增加前置下划线 1 年之前
  赵小蒙 00f16239c6 实现parse_ocr_pdf api,切图逻辑s3使用平铺地址,本地使用层级地址,删除预设s3_image_save_path 1 年之前
  赵小蒙 ca7059e514 注释更新 1 年之前
  赵小蒙 97153fabb8 (统一格式)修复中文语境下长文本因分词导致文本丢失问题 1 年之前
  赵小蒙 05fe0548b1 修复中文语境下长文本因分词导致文本丢失和content间被增加额外空格的问题 1 年之前
  赵小蒙 892f522aea update 1 年之前
  赵小蒙 b7652171ea make_standard_format_with_para逻辑更新 1 年之前
  赵小蒙 473a0a7de0 拼接markdown时,如果para_text为空则跳过拼接 1 年之前
  赵小蒙 d3ee9abbab 更新ocr_mk_mm_markdown_with_para_core逻辑 1 年之前
  赵小蒙 bf8d8e217d 新增ocr_mk_nlp_markdown_with_para方法 1 年之前
  赵小蒙 7d010e1969 ocr_mk_mm_markdown_with_para和ocr_mk_mm_markdown_with_para_and_pagination逻辑优化 1 年之前
  赵小蒙 dbe79ba1b2 ocr_mk_mm_markdown_with_para_and_pagination逻辑更新 1 年之前
  kernel.h@qq.com f36c26565e 使用面积占比方式判断一行文本是不是在一个layoutbox里 1 年之前
  赵小蒙 e9aa103cae ocr增加分页markdown输出格式 1 年之前
  赵小蒙 99055af331 英文文本拼接时,如果单个单词超过15个字符,则对该单词进行切分处理。行间公式/图片/表格独立占有一行 1 年之前
  赵小蒙 0dbbf9c362 解决'[]'括起来的文本被识别成链接的问题 1 年之前
  kernel.h@qq.com 056aed8677 制作OCR markdown 1 年之前
  赵小蒙 c5624ace1e line_to_standard_format 逻辑更新 1 年之前
  赵小蒙 ef267e0957 qa需求定制输出 1 年之前
  赵小蒙 051ee3c3f5 增加标准格式的拼装逻辑 1 年之前
  赵小蒙 f10b4a501f s3_image_save_path统一配置 1 年之前
  赵小蒙 195998a07f mk_mm_markdown2中span_type分类更新 1 年之前
  赵小蒙 25a0fd0665 Merge remote-tracking branch 'origin/master' 1 年之前
  赵小蒙 f06a32133c make多模态markdown时图片地址更改为fullpath 1 年之前
  xuchao 084e9328d0 实现layout内部分段 1 年之前
  赵小蒙 59b0b0c3da make markdown时特殊符号转义 1 年之前
  赵小蒙 9bd6294bfa ocr模式更新spark pipeline 1 年之前