Histórico de Commits

Autor SHA1 Mensagem Data
  许瑞 390fdb2cd5 fix: fix typo há 1 ano atrás
  许瑞 09269c845e feat: add extract_train_data há 1 ano atrás
  赵小蒙 ef267e0957 qa需求定制输出 há 1 ano atrás
  赵小蒙 f5b9cff4c4 ocr后不需要再次检测need_drop,且ocr_dropped_parse_pdf逻辑后需要将need_drop置为false há 1 ano atrás
  赵小蒙 b7c12891cc 增加uni_parse_pdf逻辑 há 1 ano atrás
  xuchao d5ea44f944 按照统一格式组合文本型pdf的解析结果 há 1 ano atrás
  赵小蒙 051ee3c3f5 增加标准格式的拼装逻辑 há 1 ano atrás
  赵小蒙 f10b4a501f s3_image_save_path统一配置 há 1 ano atrás
  赵小蒙 b1ac8d03da book_name生成逻辑更新 há 1 ano atrás
  赵小蒙 9bd6294bfa ocr模式更新spark pipeline há 1 ano atrás
  赵小蒙 8a52ada337 data_type/bookid/data_source兼容处理 há 1 ano atrás
  赵小蒙 f7a7206e08 目录重构 há 1 ano atrás