待优化任务列表
这里记录了多模态解析系统的待优化任务,防止忘记。
文件列表
当前进度
已完成 ✅
- RealFlinkJob 基础版本(测试用)
- PureJavaTest(纯 Java 测试,不依赖 Flink)
- Flink Docker Compose 部署
- parse-service 单实例运行
- 完整流程验证(Flink → parse-service → embedding-api → ES → 检索)
进行中 🔄
待开始 ⏳
- Flink Async I/O 优化
- Flink Kafka Source
- parse-service 多实例部署
- 性能极限测试
快速参考
访问地址
常用命令
# 启动 Flink
docker-compose -f docker-compose-flink.yml up -d
# 停止 Flink
docker-compose -f docker-compose-flink.yml down
# 提交 Job 到 Flink
docker exec flink-jobmanager ./bin/flink run \
-c com.yusys.flink.RealFlinkJob \
/opt/flink/usrlib/schedule-flink-1.0-SNAPSHOT.jar
# 查看 Flink 日志
docker logs flink-jobmanager --tail 100
docker logs flink-taskmanager --tail 100
# 编译 schedule-flink
cd schedule-flink
jdk17 && mvn package -DskipTests
关键问题记录
1. Flink + parse-service 的定位
- Flink:可靠编排(重试、状态、背压、Exactly-Once)
- parse-service:实际解析(AI 模型、文件格式处理)- 核心业务逻辑,必须保留
2. 是否需要 HistoryServer
- 开发环境:不需要,看日志/Web UI 够了
- 生产环境:建议配置,用 Kubernetes + 对象存储
3. 性能测试顺序
- 先测 parse-service 单实例极限
- 再扩 parse-service 实例
- 最后调 Flink 参数
4. GPU 异构资源调度问题
- 问题:图片任务占满 Flink,音频/视频任务排队,但 GPU 空闲
- 方案:按类型分 Topic + 独立 Flink Job
- 实现:
send_task_to_kafka_by_type.py(PDF 扫描检测 + 按类型分发)
相关文档