3 месяцев назад · c083ce536e
--- a/.gitignore
+++ b/.gitignore
@@ -5,6 +5,7 @@ target/
 
															 !**/src/main/**/target/
														
 
															 !**/src/test/**/target/
														
 
															 .kotlin
														
 
															+**.log
														
 
															 ### IntelliJ IDEA ###
														
 
															 .idea/modules.xml
														
--- a/parser/.dockerignore
+++ b/parser/.dockerignore
@@ -0,0 +1,55 @@
 
															+# Git相关
														
 
															+.git
														
 
															+.gitignore
														
 
															+.gitattributes
														
 
															+
														
 
															+# Python相关
														
 
															+__pycache__
														
 
															+*.pyc
														
 
															+*.pyo
														
 
															+*.pyd
														
 
															+.Python
														
 
															+*.egg-info/
														
 
															+dist/
														
 
															+build/
														
 
															+*.egg
														
 
															+.pytest_cache/
														
 
															+.coverage
														
 
															+htmlcov/
														
 
															+
														
 
															+# 虚拟环境
														
 
															+venv/
														
 
															+env/
														
 
															+ENV/
														
 
															+.venv
														
 
															+
														
 
															+# IDE相关
														
 
															+.vscode/
														
 
															+.idea/
														
 
															+*.swp
														
 
															+*.swo
														
 
															+*~
														
 
															+.DS_Store
														
 
															+
														
 
															+# 输出文件
														
 
															+output/
														
 
															+logs/
														
 
															+*.log
														
 
															+
														
 
															+# 临时文件
														
 
															+tmp/
														
 
															+temp/
														
 
															+*.tmp
														
 
															+
														
 
															+# 文档
														
 
															+*.md
														
 
															+doc/
														
 
															+docs/
														
 
															+
														
 
															+# 开发工具
														
 
															+.editorconfig
														
 
															+.pre-commit-config.yaml
														
 
															+Makefile
														
 
															+
														
 
															+# 不需要的目录
														
 
															+.github/
														
--- a/parser/core/router.py
+++ b/parser/core/router.py
@@ -0,0 +1,342 @@
 
															+from typing import Optional, Type

														
 
															+from abc import ABC, abstractmethod

														
 
															+import fitz  # PyMuPDF

														
 
															+from utils.mime_detector import MimeDetector

														
 
															+from utils.logger import log

														
 
															+from models.result import ParseResult

														
 
															+

														
 
															+

														
 
															+class Parser(ABC):

														
 
															+    """解析器基类"""

														
 
															+    

														
 
															+    @abstractmethod

														
 
															+    async def parse(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        解析文件

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果

														
 
															+        """

														
 
															+        pass

														
 
															+    

														
 
															+    def _get_file_size(self, file_path: str) -> int:

														
 
															+        """

														
 
															+        获取文件大小

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            int: 文件大小（字节）

														
 
															+        """

														
 
															+        import os

														
 
															+        try:

														
 
															+            return os.path.getsize(file_path)

														
 
															+        except Exception:

														
 
															+            return 0

														
 
															+

														
 
															+

														
 
															+class ParserFactory:

														
 
															+    """解析器工厂类"""

														
 
															+    

														
 
															+    def __init__(self):

														
 
															+        self.mime_detector = MimeDetector()

														
 
															+        self.parsers = {}

														
 
															+        self.parser_instances = {}  # 缓存解析器实例

														
 
															+        # 统计信息

														
 
															+        self.stats = {

														
 
															+            'total_files': 0,

														
 
															+            'total_size': 0,

														
 
															+            'text_files': 0,

														
 
															+            'text_size': 0,

														
 
															+            'image_files': 0,

														
 
															+            'image_size': 0,

														
 
															+            'audio_files': 0,

														
 
															+            'audio_size': 0,

														
 
															+            'video_files': 0,

														
 
															+            'video_size': 0,

														
 
															+            'pdf_files': 0,

														
 
															+            'pdf_size': 0,

														
 
															+            'office_files': 0,

														
 
															+            'office_size': 0,

														
 
															+            'total_time': 0,

														
 
															+            'successful_files': 0,

														
 
															+            'failed_files': 0

														
 
															+        }

														
 
															+    

														
 
															+    def register_parser(self, mime_type: str, parser_class: Type[Parser]):

														
 
															+        """

														
 
															+        注册解析器

														
 
															+        

														
 
															+        Args:

														
 
															+            mime_type: MIME类型

														
 
															+            parser_class: 解析器类

														
 
															+        """

														
 
															+        self.parsers[mime_type] = parser_class

														
 
															+    

														
 
															+    async def get_parser(self, file_path: str) -> Parser:

														
 
															+        """

														
 
															+        根据文件类型和内容特征获取合适的解析器

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            Parser: 解析器实例

														
 
															+        """

														
 
															+        log.info(f"开始获取解析器，文件路径: {file_path}")

														
 
															+        # 1. 检测文件MIME类型

														
 
															+        mime_type = self.mime_detector.detect(file_path)

														
 
															+        log.info(f"文件MIME类型: {mime_type}")

														
 
															+        

														
 
															+        # 2. 第一层路由：根据MIME类型分流

														
 
															+        if mime_type.startswith("text/"):

														
 
															+            log.info("检测到文本文件，使用TextParser")

														
 
															+            if "TextParser" not in self.parser_instances:

														
 
															+                from parsers.text_parser import TextParser

														
 
															+                self.parser_instances["TextParser"] = TextParser()

														
 
															+            return self.parser_instances["TextParser"]

														
 
															+        elif mime_type.startswith("image/"):

														
 
															+            log.info("检测到图片文件，使用VisualDocParser")

														
 
															+            if "VisualDocParser" not in self.parser_instances:

														
 
															+                from parsers.visual_parser import VisualDocParser

														
 
															+                self.parser_instances["VisualDocParser"] = VisualDocParser()

														
 
															+            return self.parser_instances["VisualDocParser"]

														
 
															+        elif mime_type.startswith("audio/"):

														
 
															+            log.info("检测到音频文件，使用AudioParser")

														
 
															+            if "AudioParser" not in self.parser_instances:

														
 
															+                from parsers.audio_parser import AudioParser

														
 
															+                self.parser_instances["AudioParser"] = AudioParser()

														
 
															+            return self.parser_instances["AudioParser"]

														
 
															+        elif mime_type.startswith("video/"):

														
 
															+            log.info("检测到视频文件，使用VideoParser")

														
 
															+            if "VideoParser" not in self.parser_instances:

														
 
															+                from parsers.video_parser import VideoParser

														
 
															+                self.parser_instances["VideoParser"] = VideoParser()

														
 
															+            return self.parser_instances["VideoParser"]

														
 
															+        elif mime_type == "application/pdf":

														
 
															+            # 3. 第二层路由：PDF特殊处理

														
 
															+            log.info("检测到PDF文件，进入特殊路由")

														
 
															+            return await self._route_pdf(file_path)

														
 
															+        elif "openxmlformats" in mime_type or mime_type == "application/msword":

														
 
															+            # Office文件处理（包括docx和doc）

														
 
															+            log.info(f"检测到Office文件，MIME类型: {mime_type}，使用NativeDocParser")

														
 
															+            return await self._route_office(file_path, mime_type)

														
 
															+        else:

														
 
															+            log.error(f"不支持的文件类型: {mime_type}")

														
 
															+            raise Exception(f"不支持的文件类型: {mime_type}")

														
 
															+    

														
 
															+    async def _route_pdf(self, file_path: str) -> Parser:

														
 
															+        """

														
 
															+        PDF文件路由逻辑

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            Parser: 解析器实例

														
 
															+        """

														
 
															+        # 检测PDF是否为扫描件（文本密度检测）

														
 
															+        if self._is_scanned_pdf(file_path):

														
 
															+            log.info("PDF为扫描件，使用VisualDocParser")

														
 
															+            if "VisualDocParser" not in self.parser_instances:

														
 
															+                from parsers.visual_parser import VisualDocParser

														
 
															+                self.parser_instances["VisualDocParser"] = VisualDocParser()

														
 
															+            return self.parser_instances["VisualDocParser"]

														
 
															+        else:

														
 
															+            log.info("PDF为原生文档，使用NativeDocParser")

														
 
															+            if "NativeDocParser" not in self.parser_instances:

														
 
															+                from parsers.native_parser import NativeDocParser

														
 
															+                self.parser_instances["NativeDocParser"] = NativeDocParser()

														
 
															+            return self.parser_instances["NativeDocParser"]

														
 
															+    

														
 
															+    async def _route_office(self, file_path: str, mime_type: str) -> Parser:

														
 
															+        """

														
 
															+        Office文件路由逻辑

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            mime_type: MIME类型

														
 
															+            

														
 
															+        Returns:

														
 
															+            Parser: 解析器实例

														
 
															+        """

														
 
															+        if "NativeDocParser" not in self.parser_instances:

														
 
															+            from parsers.native_parser import NativeDocParser

														
 
															+            self.parser_instances["NativeDocParser"] = NativeDocParser()

														
 
															+        return self.parser_instances["NativeDocParser"]

														
 
															+    

														
 
															+    def _is_scanned_pdf(self, file_path: str) -> bool:

														
 
															+        """

														
 
															+        检测PDF是否为扫描件

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            bool: 是否为扫描件

														
 
															+        """

														
 
															+        try:

														
 
															+            doc = fitz.open(file_path)

														
 
															+            text_content = ""

														
 
															+            # 提取前3页文本

														
 
															+            for page_num in range(min(3, len(doc))):

														
 
															+                page = doc[page_num]

														
 
															+                text_content += page.get_text()

														
 
															+            doc.close()

														
 
															+            

														
 
															+            # 计算有效字符数

														
 
															+            valid_chars = len([c for c in text_content if c.isalnum() or c.isspace()])

														
 
															+            log.info(f"PDF前3页有效字符数: {valid_chars}")

														
 
															+            

														
 
															+            # 如果有效字符数少于50，认为是扫描件

														
 
															+            return valid_chars < 50

														
 
															+        except Exception as e:

														
 
															+            log.error(f"PDF文本提取失败: {str(e)}")

														
 
															+            # 提取失败时默认使用VisualDocParser

														
 
															+            return True

														
 
															+    

														
 
															+    async def parse(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        解析文件的入口方法

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果

														
 
															+        """

														
 
															+        import time

														
 
															+        import os

														
 
															+        

														
 
															+        start_time = time.time()

														
 
															+        file_size = 0

														
 
															+        

														
 
															+        try:

														
 
															+            file_size = os.path.getsize(file_path)

														
 
															+        except Exception:

														
 
															+            pass

														
 
															+        

														
 
															+        log.info(f"开始解析文件: {file_path}, 文件大小: {file_size / (1024 * 1024):.2f} MB")

														
 
															+        

														
 
															+        try:

														
 
															+            parser = await self.get_parser(file_path)

														
 
															+            log.info(f"获取到解析器: {parser.__class__.__name__}")

														
 
															+            

														
 
															+            result = await parser.parse(file_path)

														
 
															+            

														
 
															+            end_time = time.time()

														
 
															+            elapsed_time = end_time - start_time

														
 
															+            

														
 
															+            # 更新统计信息

														
 
															+            self.stats['total_files'] += 1

														
 
															+            self.stats['total_size'] += file_size

														
 
															+            self.stats['total_time'] += elapsed_time

														
 
															+            self.stats['successful_files'] += 1

														
 
															+            

														
 
															+            # 根据文件类型更新统计

														
 
															+            file_type = result.file_type

														
 
															+            if file_type.startswith('text'):

														
 
															+                self.stats['text_files'] += 1

														
 
															+                self.stats['text_size'] += file_size

														
 
															+            elif file_type.startswith('image') or file_type == 'visual':

														
 
															+                self.stats['image_files'] += 1

														
 
															+                self.stats['image_size'] += file_size

														
 
															+            elif file_type.startswith('audio'):

														
 
															+                self.stats['audio_files'] += 1

														
 
															+                self.stats['audio_size'] += file_size

														
 
															+            elif file_type.startswith('video'):

														
 
															+                self.stats['video_files'] += 1

														
 
															+                self.stats['video_size'] += file_size

														
 
															+            elif file_type == 'pdf' or file_type == 'pdf_scanned':

														
 
															+                self.stats['pdf_files'] += 1

														
 
															+                self.stats['pdf_size'] += file_size

														
 
															+            elif file_type == 'office':

														
 
															+                self.stats['office_files'] += 1

														
 
															+                self.stats['office_size'] += file_size

														
 
															+            

														
 
															+            # 解析结果日志

														
 
															+            log.info(f"文件解析完成，耗时: {elapsed_time:.2f} 秒")

														
 
															+            log.info(f"文件类型: {result.file_type}")

														
 
															+            log.info(f"解析内容长度: {len(result.content)} 字符")

														
 
															+            log.info(f"元数据: {result.metadata}")

														
 
															+            if result.tables:

														
 
															+                log.info(f"提取到表格数量: {len(result.tables)}")

														
 
															+            

														
 
															+            return result

														
 
															+        except Exception as e:

														
 
															+            end_time = time.time()

														
 
															+            elapsed_time = end_time - start_time

														
 
															+            

														
 
															+            # 更新统计信息

														
 
															+            self.stats['total_files'] += 1

														
 
															+            self.stats['total_size'] += file_size

														
 
															+            self.stats['total_time'] += elapsed_time

														
 
															+            self.stats['failed_files'] += 1

														
 
															+            

														
 
															+            log.error(f"解析失败: {str(e)}, 耗时: {elapsed_time:.2f} 秒")

														
 
															+            # 返回错误结果

														
 
															+            return ParseResult(

														
 
															+                content=f"解析失败: {str(e)}",

														
 
															+                metadata={"error": str(e)},

														
 
															+                file_type="error"

														
 
															+            )

														
 
															+    

														
 
															+    def generate_performance_report(self) -> str:

														
 
															+        """

														
 
															+        生成性能报告

														
 
															+        

														
 
															+        Returns:

														
 
															+            str: 性能报告

														
 
															+        """

														
 
															+        stats = self.stats

														
 
															+        

														
 
															+        # 计算各项指标

														
 
															+        total_files = stats['total_files']

														
 
															+        total_size = stats['total_size']

														
 
															+        total_time = stats['total_time']

														
 
															+        successful_files = stats['successful_files']

														
 
															+        failed_files = stats['failed_files']

														
 
															+        

														
 
															+        # 计算各类文件占比

														
 
															+        text_ratio = (stats['text_size'] / total_size * 100) if total_size > 0 else 0

														
 
															+        image_ratio = (stats['image_size'] / total_size * 100) if total_size > 0 else 0

														
 
															+        audio_ratio = (stats['audio_size'] / total_size * 100) if total_size > 0 else 0

														
 
															+        video_ratio = (stats['video_size'] / total_size * 100) if total_size > 0 else 0

														
 
															+        pdf_ratio = (stats['pdf_size'] / total_size * 100) if total_size > 0 else 0

														
 
															+        office_ratio = (stats['office_size'] / total_size * 100) if total_size > 0 else 0

														
 
															+        

														
 
															+        # 计算解析速度

														
 
															+        total_size_mb = total_size / (1024 * 1024)

														
 
															+        avg_speed = (total_size_mb / total_time) if total_time > 0 else 0

														
 
															+        

														
 
															+        # 生成报告

														
 
															+        report = f"""# 解析性能报告

														
 
															+

														
 
															+## 总体情况

														
 
															+- 总解析文件数: {total_files}

														
 
															+- 成功解析: {successful_files}

														
 
															+- 解析失败: {failed_files}

														
 
															+- 总文件大小: {total_size_mb:.2f} MB

														
 
															+- 总耗时: {total_time:.2f} 秒

														
 
															+- 平均解析速度: {avg_speed:.2f} MB/秒

														
 
															+

														
 
															+## 文件类型分布

														
 
															+- 文本文件: {stats['text_files']} 个, {stats['text_size'] / (1024 * 1024):.2f} MB, 占比: {text_ratio:.2f}%

														
 
															+- 图片文件: {stats['image_files']} 个, {stats['image_size'] / (1024 * 1024):.2f} MB, 占比: {image_ratio:.2f}%

														
 
															+- 音频文件: {stats['audio_files']} 个, {stats['audio_size'] / (1024 * 1024):.2f} MB, 占比: {audio_ratio:.2f}%

														
 
															+- 视频文件: {stats['video_files']} 个, {stats['video_size'] / (1024 * 1024):.2f} MB, 占比: {video_ratio:.2f}%

														
 
															+- PDF文件: {stats['pdf_files']} 个, {stats['pdf_size'] / (1024 * 1024):.2f} MB, 占比: {pdf_ratio:.2f}%

														
 
															+- Office文件: {stats['office_files']} 个, {stats['office_size'] / (1024 * 1024):.2f} MB, 占比: {office_ratio:.2f}%

														
 
															+

														
 
															+## 性能分析

														
 
															+- 文本类平均解析速度: {(stats['text_size'] / (1024 * 1024) / total_time):.2f} MB/秒 (如果有文本文件)

														
 
															+- 图片类平均解析速度: {(stats['image_size'] / (1024 * 1024) / total_time):.2f} MB/秒 (如果有图片文件)

														
 
															+- 音频类平均解析速度: {(stats['audio_size'] / (1024 * 1024) / total_time):.2f} MB/秒 (如果有音频文件)

														
 
															+- 视频类平均解析速度: {(stats['video_size'] / (1024 * 1024) / total_time):.2f} MB/秒 (如果有视频文件)

														
 
															+"""

														
 
															+        

														
 
															+        return report

														
--- a/parser/dockerfile
+++ b/parser/dockerfile
@@ -1,34 +1,46 @@
 
															-# 基础镜像：使用Python 3.12-alpine
														
 
															-FROM python:3.12-alpine
														
 
															+# 基础镜像：使用Python官方镜像（更稳定）
														
 
															+FROM python:3.11-slim
														
 
															 # 设置工作目录
														
 
															 WORKDIR /app
														
 
															-
														
 
															+# 环境变量
														
 
															+ENV PYTHONIOENCODING=utf-8 \
														
 
															+    PIP_DEFAULT_TIMEOUT=120 \
														
 
															+    PIP_DISABLE_PIP_VERSION_CHECK=1 \
														
 
															+    DEBIAN_FRONTEND=noninteractive \
														
 
															+    PYTHONUNBUFFERED=1
														
 
															+
														
 
															+# ========== 系统依赖安装 ==========
														
 
															+RUN sed -i 's|deb.debian.org|mirrors.ustc.edu.cn|g' /etc/apt/sources.list.d/debian.sources && \
														
 
															+    apt-get update && \
														
 
															+    apt-get install -y --no-install-recommends \
														
 
															+    libglib2.0-0 \
														
 
															+    libsm6 \
														
 
															+    libxext6 \
														
 
															+    libxrender-dev \
														
 
															+    libgomp1 \
														
 
															+    libgthread-2.0-0 \
														
 
															+    libgtk-3-0 \
														
 
															+    libgstreamer1.0-0 \
														
 
															+    libgstreamer-plugins-base1.0-0 \
														
 
															+    ffmpeg \
														
 
															+    ca-certificates \
														
 
															+    && rm -rf /var/lib/apt/lists/*
														
 
															+
														
 
															+# ========== 配置pip源（国内加速） ==========
														
 
															+RUN pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/ && \
														
 
															+    pip config set global.trusted-host mirrors.aliyun.com
														
 
															+
														
 
															+# ========== 安装Python依赖（包括所有系统库的Python包装） ==========
														
 
															 COPY requirements.txt .
														
 
															+RUN pip install --no-cache-dir -r requirements.txt
														
 
															+
														
 
															+# ========== 复制应用代码 ==========
														
 
															+COPY . .
														
 
															-# 设置环境变量
														
 
															-ENV PYTHONUNBUFFERED=1 \
														
 
															-    PYTHONDONTWRITEBYTECODE=1 \
														
 
															-    PIP_NO_CACHE_DIR=off \
														
 
															-    PIP_DISABLE_PIP_VERSION_CHECK=on
														
 
															-
														
 
															-# 安装编译依赖并编译安装所有需要的包
														
 
															-RUN apk add --no-cache \
														
 
															-    gcc \
														
 
															-    musl-dev \
														
 
															-    linux-headers \
														
 
															-    && pip install -i https://mirrors.aliyun.com/pypi/simple/ psutil==5.9.5 \
														
 
															-    # 注意：在这里安装所有需要编译的依赖
														
 
															-    && pip install -i https://mirrors.aliyun.com/pypi/simple/ -r requirements.txt \
														
 
															-    # 最后清理编译工具
														
 
															-    && apk del gcc musl-dev linux-headers
														
 
															-
														
 
															-# 复制服务代码
														
 
															-COPY parse_service.py .
														
 
															-
														
 
															-# 暴露服务端口
														
 
															+# ========== 暴露端口 ==========
														
 
															 EXPOSE 8000
														
 
															-# 启动命令
														
 
															-CMD ["python", "parse_service.py", "--host", "0.0.0.0", "--port", "8000"]
														
 
															+# ========== 启动应用 ==========
														
 
															+CMD ["python", "-m", "uvicorn", "parse_service:app", "--host", "0.0.0.0", "--port", "8000"]
														
--- a/parser/examples/test1.pdf
+++ b/parser/examples/test1.pdf
--- a/parser/models/result.py
+++ b/parser/models/result.py
@@ -0,0 +1,25 @@
 
															+from dataclasses import dataclass, field

														
 
															+from typing import Dict, List, Optional

														
 
															+

														
 
															+

														
 
															+@dataclass

														
 
															+class ParseResult:

														
 
															+    """解析结果的统一输出结构"""

														
 
															+    content: str = ""  # 解析出的 Markdown 文本

														
 
															+    metadata: Dict[str, any] = field(default_factory=dict)  # 页数、作者、时长等元数据

														
 
															+    file_type: str = ""  # 识别出的具体类型

														
 
															+    tables: List[Dict] = field(default_factory=list)  # 提取出的结构化表格数据

														
 
															+

														
 
															+    def to_dict(self) -> Dict[str, any]:

														
 
															+        """转换为字典格式"""

														
 
															+        return {

														
 
															+            "content": self.content,

														
 
															+            "metadata": self.metadata,

														
 
															+            "file_type": self.file_type,

														
 
															+            "tables": self.tables

														
 
															+        }

														
 
															+

														
 
															+    def to_json(self) -> str:

														
 
															+        """转换为JSON字符串"""

														
 
															+        import json

														
 
															+        return json.dumps(self.to_dict(), ensure_ascii=False, indent=2)

														
--- a/parser/parse_service.py
+++ b/parser/parse_service.py
@@ -5,8 +5,9 @@ import argparse
 
															 from fastapi import FastAPI, BackgroundTasks
														
 
															 from pydantic import BaseModel
														
 
															 from typing import Dict, Optional, List
														
 
															-import psutil
														
 
															 import os
														
 
															+from core.router import ParserFactory
														
 
															+
														
 
															 # 初始化FastAPI应用
														
 
															 app = FastAPI(title="Python解析服务", version="1.0")
														
@@ -22,114 +23,53 @@ service_status = {
 
															 # 锁机制，保证多线程安全
														
 
															 task_lock = threading.Lock()
														
 
															-# 任务请求模型
														
 
															-class ParseTask(BaseModel):
														
 
															-    task_id: str
														
 
															-    file_path: str
														
 
															-    parse_params: Optional[Dict] = None  # 解析参数，如解析类型、阈值等
														
 
															-
														
 
															-# ------------------------------
														
 
															-# 核心解析逻辑（模拟真实解析器调用）
														
 
															-# ------------------------------
														
 
															-def parse_task_worker(task_id: str, file_path: str, parse_params: Dict):
														
 
															-    """
														
 
															-    后台解析任务执行函数
														
 
															-    """
														
 
															-    try:
														
 
															-        with task_lock:
														
 
															-            task_status[task_id] = {
														
 
															-                "status": "running",
														
 
															-                "progress": 0,
														
 
															-                "result": None,
														
 
															-                "error": None
														
 
															-            }
														
 
															-        
														
 
															-        # 模拟解析过程（实际场景替换为真实解析器调用）
														
 
															-        total_steps = 10
														
 
															-        for step in range(total_steps):
														
 
															-            time.sleep(1)  # 模拟解析耗时
														
 
															-            progress = (step + 1) * 10
														
 
															-            with task_lock:
														
 
															-                task_status[task_id]["progress"] = progress
														
 
															-        
														
 
															-        # 解析完成，模拟返回结果
														
 
															-        with task_lock:
														
 
															-            task_status[task_id]["status"] = "completed"
														
 
															-            task_status[task_id]["result"] = {
														
 
															-                "file_path": file_path,
														
 
															-                "parse_result": "解析成功（模拟结果）",
														
 
															-                "parse_params": parse_params,
														
 
															-                "finish_time": time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
														
 
															-            }
														
 
															-    
														
 
															-    except Exception as e:
														
 
															-        with task_lock:
														
 
															-            task_status[task_id]["status"] = "failed"
														
 
															-            task_status[task_id]["error"] = str(e)
														
 
															 # ------------------------------
														
 
															 # 接口定义
														
 
															 # ------------------------------
														
 
															 @app.post("/execute", summary="接收解析任务并执行")
														
 
															-async def execute_task(task: ParseTask, background_tasks: BackgroundTasks):
														
 
															+async def execute_task(file_path: str):
														
 
															     """
														
 
															     接收Java端下发的解析任务，后台异步执行
														
 
															     """
														
 
															-    # 检查任务ID是否已存在
														
 
															-    if task.task_id in task_status:
														
 
															-        return {
														
 
															-            "code": 400,
														
 
															-            "msg": f"任务ID {task.task_id} 已存在",
														
 
															-            "data": None
														
 
															-        }
														
 
															+
														
 
															+    factory = ParserFactory()
														
 
															-    # 提交后台任务执行
														
 
															-    background_tasks.add_task(parse_task_worker, task.task_id, task.file_path, task.parse_params)
														
 
															+    # 解析文件
														
 
															+    result = await factory.parse(file_path)
														
 
															-    return {
														
 
															-        "code": 200,
														
 
															-        "msg": "任务接收成功，已开始执行",
														
 
															-        "data": {"task_id": task.task_id}
														
 
															-    }
														
 
															-
														
 
															-@app.get("/status/{task_id}", summary="查询指定任务状态")
														
 
															-async def get_task_status(task_id: str):
														
 
															-    """
														
 
															-    查询单个任务的执行状态、进度、结果
														
 
															-    """
														
 
															-    if task_id not in task_status:
														
 
															-        return {
														
 
															-            "code": 404,
														
 
															-            "msg": f"任务ID {task_id} 不存在",
														
 
															-            "data": None
														
 
															-        }
														
 
															+    print(result.content)
														
 
															+    
														
 
															+    # 生成并显示性能报告
														
 
															+    report = factory.generate_performance_report()
														
 
															+    print("\n" + "="*80)
														
 
															+    print(report)
														
 
															+    print("="*80)
														
 
															+    
														
 
															+
														
 
															     return {
														
 
															         "code": 200,
														
 
															-        "msg": "查询成功",
														
 
															-        "data": task_status[task_id]
														
 
															+        "msg": "任务执行成功",
														
 
															+        "data": result.content
														
 
															     }
														
 
															-
														
 
															 @app.get("/status", summary="状态接口")
														
 
															 async def health_check():
														
 
															     """
														
 
															     返回实例健康状态、资源使用情况
														
 
															     """
														
 
															-    cpu_usage = psutil.cpu_percent(interval=1)
														
 
															-    # 内存信息
														
 
															-    memory = psutil.virtual_memory()
														
 
															-    memory_usage = memory.percent
														
 
															+    
														
 
															     return {
														
 
															     "code": 200,
														
 
															     "msg": "success",
														
 
															     "data": {
														
 
															         "status": 0,
														
 
															-        "cpu_usage": cpu_usage,
														
 
															+        "cpu_usage": 0.2,
														
 
															         "gpu_usage": 0.0,
														
 
															-        "memory_usage": memory_usage,
														
 
															+        "memory_usage": 0.2,
														
 
															         "gpu_memory": 0.0
														
 
															     }
														
 
															 }
														
--- a/parser/parsers/audio_parser.py
+++ b/parser/parsers/audio_parser.py
@@ -0,0 +1,137 @@
 
															+from core.router import Parser

														
 
															+from models.result import ParseResult

														
 
															+from utils.logger import log

														
 
															+from utils.ffmpeg_wrapper import FFmpegWrapper

														
 
															+import os

														
 
															+import tempfile

														
 
															+import requests

														
 
															+

														
 
															+

														
 
															+class AudioParser(Parser):

														
 
															+    """音频文件解析器"""

														
 
															+    

														
 
															+    def __init__(self):

														
 
															+        self.ffmpeg = FFmpegWrapper()

														
 
															+        # Qwen3-ASR模型配置 - 使用专门的音频转录端点

														
 
															+        self.qwen_asr_api_url = "http://10.192.72.13:7283/v1/audio/transcriptions"

														
 
															+        log.info("音频解析器初始化完成，使用本地部署的Qwen3-ASR模型")

														
 
															+    

														
 
															+    async def parse(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        解析音频文件

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果

														
 
															+        """

														
 
															+        log.info(f"开始解析音频文件: {file_path}")

														
 
															+        temp_wav_path = None

														
 
															+        try:

														
 
															+            # 1. 预处理：转换为16k/16bit/mono wav

														
 
															+            with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_file:

														
 
															+                temp_wav_path = temp_file.name

														
 
															+            

														
 
															+            log.info(f"创建临时文件: {temp_wav_path}")

														
 
															+            self.ffmpeg.convert_audio(file_path, temp_wav_path)

														
 
															+            log.info(f"音频转换完成: {temp_wav_path}")

														
 
															+            

														
 
															+            # 2. 使用Qwen3-ASR进行语音识别

														
 
															+            log.info("开始使用Qwen3-ASR进行语音识别...")

														
 
															+            log.info(f"使用的API地址: {self.qwen_asr_api_url}")

														
 
															+            

														
 
															+            content = []

														
 
															+            result = None

														
 
															+            try:

														
 
															+                # 检查文件大小

														
 
															+                file_size = os.path.getsize(temp_wav_path)

														
 
															+                log.info(f"音频文件大小: {file_size / (1024 * 1024):.2f} MB")

														
 
															+                

														
 
															+                # 使用专门的音频转录端点，支持文件上传

														
 
															+                log.info("准备使用文件上传方式进行语音识别...")

														
 
															+                

														
 
															+                # 构建请求数据

														
 
															+                session = requests.Session()

														
 
															+                session.trust_env = False  # 禁用环境变量中的代理设置

														
 
															+                

														
 
															+                # 使用multipart/form-data上传文件

														
 
															+                files = {

														
 
															+                    'file': ('audio.wav', open(temp_wav_path, 'rb'), 'audio/wav')

														
 
															+                }

														
 
															+                data = {

														
 
															+                    'model': '/data/shared/Qwen3-ASR/qwen/Qwen3-ASR-1.7B',

														
 
															+                    'language': 'zh',

														
 
															+                    'response_format': 'json'

														
 
															+                }

														
 
															+                

														
 
															+                # 发送请求

														
 
															+                log.info("开始发送请求...")

														
 
															+                # 增加超时时间，音频处理可能需要更长时间

														
 
															+                response = session.post(self.qwen_asr_api_url, files=files, data=data, timeout=600)

														
 
															+                log.info(f"请求完成，状态码: {response.status_code}")

														
 
															+                

														
 
															+                # 打印响应内容以进行调试

														
 
															+                if response.status_code != 200:

														
 
															+                    log.warning(f"响应内容: {response.text}")

														
 
															+                

														
 
															+                response.raise_for_status()

														
 
															+                result = response.json()

														
 
															+                

														
 
															+                log.info("Qwen3-ASR语音识别完成")

														
 
															+                log.info(f"识别结果: {result}")

														
 
															+                

														
 
															+                # 3. 构建解析结果

														
 
															+                if result and 'text' in result:

														
 
															+                    full_text = result['text']

														
 
															+                    # 清理识别结果中的标记

														
 
															+                    clean_text = full_text.replace('language Chinese<asr_text>', '').strip()

														
 
															+                    content.append(f"完整文本: {clean_text}")

														
 
															+                else:

														
 
															+                    log.warning("解析失败：未获取到有效结果")

														
 
															+                    content.append("解析失败：未获取到有效结果")

														
 
															+                

														
 
															+                log.info(f"构建完成，内容长度: {len(content)}")

														
 
															+            except requests.exceptions.Timeout as e:

														
 
															+                log.error(f"Qwen3-ASR语音识别超时: {str(e)}")

														
 
															+                content.append("语音识别超时，请检查服务是否正常运行")

														
 
															+            except requests.exceptions.ConnectionError as e:

														
 
															+                log.error(f"Qwen3-ASR语音识别连接错误: {str(e)}")

														
 
															+                content.append("语音识别连接错误，请检查服务地址是否正确")

														
 
															+            except Exception as e:

														
 
															+                log.error(f"Qwen3-ASR语音识别失败: {str(e)}")

														
 
															+                import traceback

														
 
															+                log.error(f"异常堆栈: {traceback.format_exc()}")

														
 
															+                # 即使失败，也尝试返回一个基本结果

														
 
															+                content.append("语音识别失败，但文件已成功处理")

														
 
															+            

														
 
															+            # 清理临时文件

														
 
															+            if temp_wav_path and os.path.exists(temp_wav_path):

														
 
															+                os.remove(temp_wav_path)

														
 
															+                log.info(f"临时文件已清理: {temp_wav_path}")

														
 
															+            

														
 
															+            return ParseResult(

														
 
															+                content="\n".join(content),

														
 
															+                metadata={

														
 
															+                    "parser": "Qwen3-ASR",

														
 
															+                    "file_size": os.path.getsize(file_path),

														
 
															+                    "api_url": self.qwen_asr_api_url

														
 
															+                },

														
 
															+                file_type="audio"

														
 
															+            )

														
 
															+        except Exception as e:

														
 
															+            log.error(f"音频文件解析失败: {str(e)}")

														
 
															+            import traceback

														
 
															+            log.error(f"异常堆栈: {traceback.format_exc()}")

														
 
															+            # 清理临时文件

														
 
															+            if temp_wav_path and os.path.exists(temp_wav_path):

														
 
															+                try:

														
 
															+                    os.remove(temp_wav_path)

														
 
															+                    log.info(f"临时文件已清理: {temp_wav_path}")

														
 
															+                except:

														
 
															+                    pass

														
 
															+            return ParseResult(

														
 
															+                content="",

														
 
															+                metadata={"error": str(e)},

														
 
															+                file_type="audio"

														
 
															+            )

														
--- a/parser/parsers/native_parser.py
+++ b/parser/parsers/native_parser.py
@@ -0,0 +1,282 @@
 
															+from core.router import Parser

														
 
															+from models.result import ParseResult

														
 
															+from utils.logger import log

														
 
															+import fitz  # PyMuPDF

														
 
															+from docx import Document

														
 
															+import openpyxl

														
 
															+from pptx import Presentation

														
 
															+import os

														
 
															+

														
 
															+

														
 
															+class NativeDocParser(Parser):

														
 
															+    """原生文档解析器，处理Office文档和原生PDF"""

														
 
															+    

														
 
															+    async def parse(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        解析原生文档

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果

														
 
															+        """

														
 
															+        log.info(f"开始解析原生文档: {file_path}")

														
 
															+        try:

														
 
															+            # 根据文件扩展名判断文件类型

														
 
															+            ext = os.path.splitext(file_path)[1].lower()

														
 
															+            

														
 
															+            if ext == '.pdf':

														
 
															+                return await self._parse_pdf(file_path)

														
 
															+            elif ext == '.docx':

														
 
															+                return await self._parse_docx(file_path)

														
 
															+            elif ext == '.doc':

														
 
															+                return await self._parse_doc(file_path)

														
 
															+            elif ext == '.xlsx':

														
 
															+                return await self._parse_xlsx(file_path)

														
 
															+            elif ext == '.pptx':

														
 
															+                return await self._parse_pptx(file_path)

														
 
															+            else:

														
 
															+                raise Exception(f"不支持的文件扩展名: {ext}")

														
 
															+        except Exception as e:

														
 
															+            log.error(f"原生文档解析失败: {str(e)}")

														
 
															+            return ParseResult(

														
 
															+                content="",

														
 
															+                metadata={"error": str(e)},

														
 
															+                file_type="unknown"

														
 
															+            )

														
 
															+    

														
 
															+    async def _parse_pdf(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        解析PDF文件

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果

														
 
															+        """

														
 
															+        doc = fitz.open(file_path)

														
 
															+        content = []

														
 
															+        tables = []

														
 
															+        page_count = len(doc)

														
 
															+        

														
 
															+        # 遍历所有页面

														
 
															+        for page_num in range(page_count):

														
 
															+            page = doc[page_num]

														
 
															+            # 提取文本

														
 
															+            text = page.get_text()

														
 
															+            content.append(f"# 第{page_num + 1}页\n{text}")

														
 
															+            

														
 
															+            # 提取表格（PyMuPDF的表格提取功能有限）

														
 
															+            # 这里可以根据需要使用更高级的表格提取库

														
 
															+        

														
 
															+        doc.close()

														
 
															+        

														
 
															+        return ParseResult(

														
 
															+            content="\n\n".join(content),

														
 
															+            metadata={

														
 
															+                "page_count": page_count,

														
 
															+                "file_size": os.path.getsize(file_path)

														
 
															+            },

														
 
															+            file_type="pdf",

														
 
															+            tables=tables

														
 
															+        )

														
 
															+    

														
 
															+    async def _parse_docx(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        解析Word文档

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果

														
 
															+        """

														
 
															+        doc = Document(file_path)

														
 
															+        content = []

														
 
															+        tables = []

														
 
															+        

														
 
															+        # 提取标题和正文

														
 
															+        for para in doc.paragraphs:

														
 
															+            if para.style.name.startswith('Heading'):

														
 
															+                # 根据标题级别添加Markdown标题

														
 
															+                level = int(para.style.name.split(' ')[1])

														
 
															+                content.append(f"{'#' * level} {para.text}")

														
 
															+            else:

														
 
															+                content.append(para.text)

														
 
															+        

														
 
															+        # 提取表格

														
 
															+        for table_idx, table in enumerate(doc.tables):

														
 
															+            table_content = []

														
 
															+            table_data = []

														
 
															+            

														
 
															+            # 提取表头

														
 
															+            header_cells = table.rows[0].cells

														
 
															+            header = [cell.text.strip() for cell in header_cells]

														
 
															+            table_content.append('| ' + ' | '.join(header) + ' |')

														
 
															+            table_content.append('| ' + ' | '.join(['---'] * len(header)) + ' |')

														
 
															+            table_data.append(header)

														
 
															+            

														
 
															+            # 提取表格内容

														
 
															+            for row in table.rows[1:]:

														
 
															+                cells = row.cells

														
 
															+                row_data = [cell.text.strip() for cell in cells]

														
 
															+                table_content.append('| ' + ' | '.join(row_data) + ' |')

														
 
															+                table_data.append(row_data)

														
 
															+            

														
 
															+            content.append('\n'.join(table_content))

														
 
															+            tables.append({

														
 
															+                "table_id": table_idx,

														
 
															+                "data": table_data

														
 
															+            })

														
 
															+        

														
 
															+        return ParseResult(

														
 
															+            content="\n".join(content),

														
 
															+            metadata={

														
 
															+                "paragraph_count": len(doc.paragraphs),

														
 
															+                "table_count": len(doc.tables),

														
 
															+                "file_size": os.path.getsize(file_path)

														
 
															+            },

														
 
															+            file_type="docx",

														
 
															+            tables=tables

														
 
															+        )

														
 
															+    

														
 
															+    async def _parse_xlsx(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        解析Excel文档

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果

														
 
															+        """

														
 
															+        wb = openpyxl.load_workbook(file_path)

														
 
															+        content = []

														
 
															+        tables = []

														
 
															+        

														
 
															+        # 遍历所有工作表

														
 
															+        for sheet_idx, sheet_name in enumerate(wb.sheetnames):

														
 
															+            sheet = wb[sheet_name]

														
 
															+            content.append(f"# 工作表: {sheet_name}")

														
 
															+            

														
 
															+            # 提取表格数据

														
 
															+            table_data = []

														
 
															+            max_row = sheet.max_row

														
 
															+            max_col = sheet.max_column

														
 
															+            

														
 
															+            # 提取表头

														
 
															+            header = []

														
 
															+            for col in range(1, max_col + 1):

														
 
															+                cell_value = sheet.cell(row=1, column=col).value

														
 
															+                header.append(str(cell_value) if cell_value else '')

														
 
															+            table_data.append(header)

														
 
															+            

														
 
															+            # 提取表格内容

														
 
															+            for row in range(2, max_row + 1):

														
 
															+                row_data = []

														
 
															+                for col in range(1, max_col + 1):

														
 
															+                    cell_value = sheet.cell(row=row, column=col).value

														
 
															+                    row_data.append(str(cell_value) if cell_value else '')

														
 
															+                table_data.append(row_data)

														
 
															+            

														
 
															+            # 转换为Markdown表格

														
 
															+            if header:

														
 
															+                markdown_table = []

														
 
															+                markdown_table.append('| ' + ' | '.join(header) + ' |')

														
 
															+                markdown_table.append('| ' + ' | '.join(['---'] * len(header)) + ' |')

														
 
															+                for row_data in table_data[1:]:

														
 
															+                    markdown_table.append('| ' + ' | '.join(row_data) + ' |')

														
 
															+                content.append('\n'.join(markdown_table))

														
 
															+            

														
 
															+            tables.append({

														
 
															+                "sheet_name": sheet_name,

														
 
															+                "data": table_data

														
 
															+            })

														
 
															+        

														
 
															+        wb.close()

														
 
															+        

														
 
															+        return ParseResult(

														
 
															+            content="\n\n".join(content),

														
 
															+            metadata={

														
 
															+                "sheet_count": len(wb.sheetnames),

														
 
															+                "file_size": os.path.getsize(file_path)

														
 
															+            },

														
 
															+            file_type="xlsx",

														
 
															+            tables=tables

														
 
															+        )

														
 
															+    

														
 
															+    async def _parse_pptx(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        解析PPT文档

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果

														
 
															+        """

														
 
															+        prs = Presentation(file_path)

														
 
															+        content = []

														
 
															+        

														
 
															+        # 遍历所有幻灯片

														
 
															+        for slide_idx, slide in enumerate(prs.slides):

														
 
															+            content.append(f"# 幻灯片 {slide_idx + 1}")

														
 
															+            

														
 
															+            # 提取标题

														
 
															+            for shape in slide.shapes:

														
 
															+                if hasattr(shape, 'text_frame') and shape.text_frame.text:

														
 
															+                    if shape == slide.shapes[0]:  # 假设第一个形状是标题

														
 
															+                        content.append(f"## {shape.text_frame.text}")

														
 
															+                    else:

														
 
															+                        content.append(shape.text_frame.text)

														
 
															+            

														
 
															+            # 提取备注

														
 
															+            if slide.notes_slide:

														
 
															+                notes = slide.notes_slide.notes_text_frame.text

														
 
															+                if notes:

														
 
															+                    content.append(f"### 备注\n{notes}")

														
 
															+        

														
 
															+        return ParseResult(

														
 
															+            content="\n\n".join(content),

														
 
															+            metadata={

														
 
															+                "slide_count": len(prs.slides),

														
 
															+                "file_size": os.path.getsize(file_path)

														
 
															+            },

														
 
															+            file_type="pptx"

														
 
															+        )

														
 
															+    

														
 
															+    async def _parse_doc(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        解析.doc文件

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果

														
 
															+        """

														
 
															+        # 使用antiword提取.doc文件内容

														
 
															+        import subprocess

														
 
															+        try:

														
 
															+            result = subprocess.run(

														
 
															+                ['antiword', file_path],

														
 
															+                capture_output=True,

														
 
															+                text=True,

														
 
															+                check=True

														
 
															+            )

														
 
															+            text = result.stdout

														
 
															+        except Exception as e:

														
 
															+            log.error(f"antiword解析失败: {str(e)}")

														
 
															+            raise Exception(f"antiword解析失败: {str(e)}")

														
 
															+        

														
 
															+        content = [text]

														
 
															+        

														
 
															+        return ParseResult(

														
 
															+            content="\n".join(content),

														
 
															+            metadata={

														
 
															+                "file_size": os.path.getsize(file_path)

														
 
															+            },

														
 
															+            file_type="doc"

														
 
															+        )

														
--- a/parser/parsers/text_parser.py
+++ b/parser/parsers/text_parser.py
@@ -0,0 +1,43 @@
 
															+from core.router import Parser

														
 
															+from models.result import ParseResult

														
 
															+from utils.logger import log

														
 
															+

														
 
															+

														
 
															+class TextParser(Parser):

														
 
															+    """文本文件解析器"""

														
 
															+    

														
 
															+    async def parse(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        解析文本文件

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果

														
 
															+        """

														
 
															+        log.info(f"开始解析文本文件: {file_path}")

														
 
															+        try:

														
 
															+            # 读取文本文件内容

														
 
															+            with open(file_path, 'r', encoding='utf-8', errors='replace') as f:

														
 
															+                content = f.read()

														
 
															+            

														
 
															+            # 构建解析结果

														
 
															+            result = ParseResult(

														
 
															+                content=content,

														
 
															+                metadata={

														
 
															+                    "file_size": len(content),

														
 
															+                    "line_count": len(content.split('\n'))

														
 
															+                },

														
 
															+                file_type="text"

														
 
															+            )

														
 
															+            

														
 
															+            log.info(f"文本文件解析完成，大小: {len(content)} 字符")

														
 
															+            return result

														
 
															+        except Exception as e:

														
 
															+            log.error(f"文本文件解析失败: {str(e)}")

														
 
															+            return ParseResult(

														
 
															+                content="",

														
 
															+                metadata={"error": str(e)},

														
 
															+                file_type="text"

														
 
															+            )

														
--- a/parser/parsers/video_parser.py
+++ b/parser/parsers/video_parser.py
@@ -0,0 +1,151 @@
 
															+from core.router import Parser

														
 
															+from models.result import ParseResult

														
 
															+from utils.logger import log

														
 
															+from utils.ffmpeg_wrapper import FFmpegWrapper

														
 
															+import os

														
 
															+import tempfile

														
 
															+import base64

														
 
															+import requests

														
 
															+from parsers.audio_parser import AudioParser

														
 
															+

														
 
															+

														
 
															+class VideoParser(Parser):

														
 
															+    """视频文件解析器"""

														
 
															+    

														
 
															+    def __init__(self):

														
 
															+        self.ffmpeg = FFmpegWrapper()

														
 
															+        self.audio_parser = AudioParser()

														
 
															+        # Qwen3-VL模型配置

														
 
															+        self.qwen_api_url = "http://10.192.72.13:7280/v1/chat/completions"

														
 
															+    

														
 
															+    async def parse(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        解析视频文件

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果

														
 
															+        """

														
 
															+        log.info(f"开始解析视频文件: {file_path}")

														
 
															+        try:

														
 
															+            # 1. 提取音频轨道

														
 
															+            with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_file:

														
 
															+                temp_audio_path = temp_file.name

														
 
															+            

														
 
															+            self.ffmpeg.extract_audio(file_path, temp_audio_path)

														
 
															+            log.info(f"音频提取完成: {temp_audio_path}")

														
 
															+            

														
 
															+            # 2. 使用AudioParser解析音频

														
 
															+            audio_result = await self.audio_parser.parse(temp_audio_path)

														
 
															+            log.info("音频解析完成")

														
 
															+            

														
 
															+            # 3. 提取关键帧

														
 
															+            frame_results = []  # 移到外部定义

														
 
															+            with tempfile.TemporaryDirectory() as temp_dir:

														
 
															+                # 使用固定频率先提取帧，再通过帧差法筛选关键帧

														
 
															+                interval_seconds = 10

														
 
															+                diff_threshold = 15.0

														
 
															+                keyframes = self.ffmpeg.extract_keyframes(file_path, temp_dir, interval=interval_seconds, diff_threshold=diff_threshold)

														
 
															+                log.info(f"关键帧提取完成（帧差阈值={diff_threshold}），共{len(keyframes)}张")

														
 
															+

														
 
															+                # 4. 使用Qwen3-VL解析关键帧；根据帧文件名计算时间点

														
 
															+                for idx, frame_path in enumerate(keyframes):

														
 
															+                    try:

														
 
															+                        frame_content = self._parse_frame_with_qwen(frame_path)

														
 
															+                        log.info(f"解析关键帧 {idx+1} 结果长度: {len(frame_content) if frame_content else 0}")

														
 
															+                        if frame_content:

														
 
															+                            # 从文件名解析帧序号，filename like frame_000001.jpg

														
 
															+                            try:

														
 
															+                                base = os.path.basename(frame_path)

														
 
															+                                num_part = base.split('_')[1].split('.')[0]

														
 
															+                                frame_index = int(num_part)

														
 
															+                                time_second = (frame_index - 1) * interval_seconds

														
 
															+                            except Exception:

														
 
															+                                time_second = idx * interval_seconds

														
 
															+

														
 
															+                            frame_results.append((time_second, frame_content))

														
 
															+                            log.info(f"添加关键帧 到结果列表，时间：{time_second}s")

														
 
															+                        else:

														
 
															+                            log.warning(f"关键帧 {idx+1} 解析结果为空")

														
 
															+                    except Exception as e:

														
 
															+                        log.warning(f"解析关键帧 {idx+1} 失败: {str(e)}")

														
 
															+            

														
 
															+            log.info(f"关键帧解析完成，frame_results长度: {len(frame_results)}")

														
 
															+            

														
 
															+            # 5. 合并结果

														
 
															+            content = []

														
 
															+            content.append("# 音频内容")

														
 
															+            content.append(audio_result.content)

														
 
															+            

														
 
															+            if frame_results:

														
 
															+                log.info("开始添加画面内容到结果")

														
 
															+                content.append("\n# 画面内容")

														
 
															+                for time_second, frame_content in frame_results:

														
 
															+                    content.append(f"\n## 第{time_second}秒")

														
 
															+                    content.append(frame_content)

														
 
															+                    log.info(f"添加第{time_second}秒画面内容，长度: {len(frame_content)}")

														
 
															+            else:

														
 
															+                log.warning("没有画面内容可以添加")

														
 
															+            

														
 
															+            # 清理临时文件

														
 
															+            if os.path.exists(temp_audio_path):

														
 
															+                os.remove(temp_audio_path)

														
 
															+            

														
 
															+            return ParseResult(

														
 
															+                content="\n".join(content),

														
 
															+                metadata={

														
 
															+                    "parser": "VideoParser",

														
 
															+                    "file_size": os.path.getsize(file_path),

														
 
															+                    "audio_parser": "Qwen3-ASR",

														
 
															+                    "visual_parser": "Qwen3-VL",

														
 
															+                    "keyframe_count": len(keyframes)

														
 
															+                },

														
 
															+                file_type="video"

														
 
															+            )

														
 
															+        except Exception as e:

														
 
															+            log.error(f"视频文件解析失败: {str(e)}")

														
 
															+            # 清理临时文件

														
 
															+            if 'temp_audio_path' in locals() and os.path.exists(temp_audio_path):

														
 
															+                os.remove(temp_audio_path)

														
 
															+            return ParseResult(

														
 
															+                content="",

														
 
															+                metadata={"error": str(e)},

														
 
															+                file_type="video"

														
 
															+            )

														
 
															+    

														
 
															+    def _parse_frame_with_qwen(self, image_path: str) -> str:

														
 
															+        """

														
 
															+        使用Qwen3-VL模型解析图片

														
 
															+        

														
 
															+        Args:

														
 
															+            image_path: 图片路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            str: 解析结果

														
 
															+        """

														
 
															+        log.info(f"使用Qwen3-VL解析图片: {image_path}")

														
 
															+        

														
 
															+        # 编码图片

														
 
															+        with open(image_path, "rb") as f:

														
 
															+            base64_image = base64.b64encode(f.read()).decode("utf-8")

														
 
															+

														
 
															+        # 发送请求

														
 
															+        payload = {

														
 
															+            "model": "/model",

														
 
															+            "messages": [{

														
 
															+                "role": "user",

														
 
															+                "content": [

														
 
															+                    {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}},

														
 
															+                    {"type": "text", "text": "详细描述这张图片的内容，包括人物、物体、场景、文字等所有可见信息"}

														
 
															+                ]

														
 
															+            }],

														
 
															+            "max_tokens": 512

														
 
															+        }

														
 
															+

														
 
															+        response = requests.post(self.qwen_api_url, json=payload, timeout=120)

														
 
															+        response.raise_for_status()

														
 
															+        result = response.json()

														
 
															+        

														
 
															+        return result["choices"][0]["message"]["content"]

														
--- a/parser/parsers/visual_parser.py
+++ b/parser/parsers/visual_parser.py
@@ -0,0 +1,336 @@
 
															+from core.router import Parser

														
 
															+from models.result import ParseResult

														
 
															+from utils.logger import log

														
 
															+import os

														
 
															+import time

														
 
															+import httpx

														
 
															+import json

														
 
															+import io

														
 
															+import zipfile

														
 
															+from pathlib import Path

														
 
															+import asyncio

														
 
															+

														
 
															+# 延迟导入PaddleOCR，避免模块级初始化

														
 
															+

														
 
															+

														
 
															+class VisualDocParser(Parser):

														
 
															+    """视觉文档解析器，处理图片和扫描件PDF"""

														
 
															+    

														
 
															+    def __init__(self):

														
 
															+        # MinerU API配置 - 使用本地部署的服务

														
 
															+        self.mineru_api_key = ""

														
 
															+        self.base_url = "http://10.192.72.13:7284"

														
 
															+        self.model_version = "hybrid-auto-engine"

														
 
															+        self.poll_interval_sec = 3.0

														
 
															+        self.max_wait_sec = 300.0

														
 
															+        log.info("VisualDocParser初始化完成，使用本地部署的MinerU服务")

														
 
															+    

														
 
															+    async def parse(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        解析视觉文档

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果

														
 
															+        """

														
 
															+        log.info(f"开始解析视觉文档: {file_path}")

														
 
															+        try:

														
 
															+            # 只使用MinerU API，避免PaddleOCR的初始化问题

														
 
															+            result = await self._try_mineru(file_path)

														
 
															+            if result:

														
 
															+                return result

														
 
															+            

														
 
															+            # MinerU失败时，返回错误信息

														
 
															+            return ParseResult(

														
 
															+                content="",

														
 
															+                metadata={"error": "MinerU API解析失败"},

														
 
															+                file_type="visual"

														
 
															+            )

														
 
															+        except Exception as e:

														
 
															+            log.error(f"视觉文档解析失败: {str(e)}")

														
 
															+            return ParseResult(

														
 
															+                content="",

														
 
															+                metadata={"error": str(e)},

														
 
															+                file_type="visual"

														
 
															+            )

														
 
															+    

														
 
															+    async def _try_mineru(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        尝试使用本地MinerU API解析

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果，如果失败返回None

														
 
															+        """

														
 
															+        try:

														
 
															+            log.info("开始使用本地MinerU API解析文件")

														
 
															+

														
 
															+            file_path_obj = Path(file_path)

														
 
															+            if not file_path_obj.exists():

														
 
															+                raise FileNotFoundError(str(file_path))

														
 
															+

														
 
															+            log.info(f"Calling local MinerU for file: {file_path}")

														
 
															+

														
 
															+            # 直接使用本地API上传文件并获取结果

														
 
															+            result = await self._upload_and_parse(file_path_obj)

														
 
															+            

														
 
															+            # 提取文本内容

														
 
															+            text_content = self._extract_text_from_local_result(result)

														
 
															+            

														
 
															+            return ParseResult(

														
 
															+                content=text_content,

														
 
															+                metadata={

														
 
															+                    "parser": "Local MinerU API",

														
 
															+                    "file_size": file_path_obj.stat().st_size,

														
 
															+                    "backend": self.model_version

														
 
															+                },

														
 
															+                file_type="visual"

														
 
															+            )

														
 
															+            

														
 
															+        except Exception as e:

														
 
															+            log.warning(f"本地MinerU API解析失败: {str(e)}")

														
 
															+            return None

														
 
															+    

														
 
															+    async def _upload_and_parse(self, file_path: Path) -> dict:

														
 
															+        """

														
 
															+        上传文件并解析

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            dict: 解析结果

														
 
															+        """

														
 
															+        url = f"{self.base_url}/file_parse"

														
 
															+        

														
 
															+        # 准备表单数据

														
 
															+        files = {

														
 
															+            "files": (file_path.name, open(file_path, 'rb'))

														
 
															+        }

														
 
															+        

														
 
															+        # 准备参数

														
 
															+        data = {

														
 
															+            "backend": self.model_version,

														
 
															+            "lang_list": ["ch"],

														
 
															+            "return_md": True,

														
 
															+            "formula_enable": True,

														
 
															+            "table_enable": True

														
 
															+        }

														
 
															+

														
 
															+        async with httpx.AsyncClient(timeout=300) as client:

														
 
															+            resp = await client.post(url, files=files, data=data)

														
 
															+            resp.raise_for_status()

														
 
															+            result = resp.json()

														
 
															+

														
 
															+        return result

														
 
															+

														
 
															+    def _extract_text_from_local_result(self, result: dict) -> str:

														
 
															+        """

														
 
															+        从本地MinerU返回的结果中提取文本内容

														
 
															+        

														
 
															+        Args:

														
 
															+            result: 本地MinerU返回的结果

														
 
															+            

														
 
															+        Returns:

														
 
															+            str: 提取的文本内容

														
 
															+        """

														
 
															+        # 处理不同可能的返回结构

														
 
															+        text_parts = []

														
 
															+        

														
 
															+        if isinstance(result, dict):

														
 
															+            # 检查是否有results字段（新的返回结构）

														
 
															+            if "results" in result:

														
 
															+                results = result["results"]

														
 
															+                if isinstance(results, dict):

														
 
															+                    for key, value in results.items():

														
 
															+                        if isinstance(value, dict):

														
 
															+                            # 检查是否有md_content字段

														
 
															+                            if "md_content" in value:

														
 
															+                                text_parts.append(str(value["md_content"]))

														
 
															+                            # 检查是否有text字段

														
 
															+                            elif "text" in value:

														
 
															+                                text_parts.append(str(value["text"]))

														
 
															+            # 检查是否有markdown内容

														
 
															+            elif "markdown" in result:

														
 
															+                text_parts.append(str(result["markdown"]))

														
 
															+            # 检查是否有text字段

														
 
															+            elif "text" in result:

														
 
															+                text_parts.append(str(result["text"]))

														
 
															+            # 检查是否有content字段

														
 
															+            elif "content" in result:

														
 
															+                if isinstance(result["content"], str):

														
 
															+                    text_parts.append(result["content"])

														
 
															+                elif isinstance(result["content"], list):

														
 
															+                    for item in result["content"]:

														
 
															+                        if isinstance(item, dict) and "text" in item:

														
 
															+                            text_parts.append(str(item["text"]))

														
 
															+                        elif isinstance(item, str):

														
 
															+                            text_parts.append(item)

														
 
															+        

														
 
															+        return "\n\n".join(text_parts)

														
 
															+    

														
 
															+    def _safe_stem(self, stem: str) -> str:

														
 
															+        """

														
 
															+        创建安全的缓存键

														
 
															+        

														
 
															+        Args:

														
 
															+            stem: 文件stem

														
 
															+            

														
 
															+        Returns:

														
 
															+            str: 安全的缓存键

														
 
															+        """

														
 
															+        import re

														
 
															+        return re.sub(r'[^a-zA-Z0-9_-]', '_', stem)

														
 
															+    

														
 
															+    def _extract_text_from_payload(self, payload: dict) -> str:

														
 
															+        """

														
 
															+        从MinerU返回的payload中提取文本内容

														
 
															+        

														
 
															+        Args:

														
 
															+            payload: MinerU返回的payload

														
 
															+            

														
 
															+        Returns:

														
 
															+            str: 提取的文本内容

														
 
															+        """

														
 
															+        # 根据MinerU API返回的结构提取文本

														
 
															+        text_parts = []

														
 
															+        

														
 
															+        # 处理不同可能的返回结构

														
 
															+        if isinstance(payload, dict):

														
 
															+            # 检查是否有text字段

														
 
															+            if "text" in payload:

														
 
															+                text_parts.append(str(payload["text"]))

														
 
															+            # 检查是否有content字段

														
 
															+            elif "content" in payload:

														
 
															+                if isinstance(payload["content"], str):

														
 
															+                    text_parts.append(payload["content"])

														
 
															+                elif isinstance(payload["content"], list):

														
 
															+                    for item in payload["content"]:

														
 
															+                        if isinstance(item, dict) and "text" in item:

														
 
															+                            text_parts.append(str(item["text"]))

														
 
															+                        elif isinstance(item, str):

														
 
															+                            text_parts.append(item)

														
 
															+            # 检查是否有pages字段

														
 
															+            elif "pages" in payload:

														
 
															+                for page_num, page_content in enumerate(payload["pages"], 1):

														
 
															+                    text_parts.append(f"# 第{page_num}页")

														
 
															+                    if isinstance(page_content, str):

														
 
															+                        text_parts.append(page_content)

														
 
															+                    elif isinstance(page_content, dict) and "text" in page_content:

														
 
															+                        text_parts.append(str(page_content["text"]))

														
 
															+        elif isinstance(payload, list):

														
 
															+            for item in payload:

														
 
															+                if isinstance(item, dict) and "text" in item:

														
 
															+                    text_parts.append(str(item["text"]))

														
 
															+                elif isinstance(item, str):

														
 
															+                    text_parts.append(item)

														
 
															+        

														
 
															+        return "\n\n".join(text_parts)

														
 
															+    

														
 
															+    async def _use_paddleocr(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        使用PaddleOCR解析

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果

														
 
															+        """

														
 
															+        log.info("使用PaddleOCR解析视觉文档")

														
 
															+        

														
 
															+        # 检查PaddleOCR是否初始化成功

														
 
															+        if self.ocr is None:

														
 
															+            log.error("PaddleOCR未初始化，无法解析")

														
 
															+            return ParseResult(

														
 
															+                content="",

														
 
															+                metadata={"error": "PaddleOCR未初始化"},

														
 
															+                file_type="visual"

														
 
															+            )

														
 
															+        

														
 
															+        # 对于PDF文件，需要先转换为图片

														
 
															+        if file_path.endswith('.pdf'):

														
 
															+            return await self._ocr_pdf(file_path)

														
 
															+        else:

														
 
															+            return await self._ocr_image(file_path)

														
 
															+    

														
 
															+    async def _ocr_pdf(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        OCR处理PDF文件

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果

														
 
															+        """

														
 
															+        import fitz  # PyMuPDF

														
 
															+        

														
 
															+        doc = fitz.open(file_path)

														
 
															+        content = []

														
 
															+        page_count = len(doc)

														
 
															+        

														
 
															+        # 遍历所有页面

														
 
															+        for page_num in range(page_count):

														
 
															+            page = doc[page_num]

														
 
															+            # 将页面转换为图片

														
 
															+            pix = page.get_pixmap(dpi=300)

														
 
															+            img_path = f"temp_page_{page_num}.png"

														
 
															+            pix.save(img_path)

														
 
															+            

														
 
															+            # OCR处理图片

														
 
															+            ocr_result = self.ocr.ocr(img_path, cls=True)

														
 
															+            page_text = []

														
 
															+            

														
 
															+            for line in ocr_result:

														
 
															+                for word_info in line:

														
 
															+                    page_text.append(word_info[1][0])

														
 
															+            

														
 
															+            content.append(f"# 第{page_num + 1}页\n{' '.join(page_text)}")

														
 
															+            

														
 
															+            # 删除临时图片

														
 
															+            if os.path.exists(img_path):

														
 
															+                os.remove(img_path)

														
 
															+        

														
 
															+        doc.close()

														
 
															+        

														
 
															+        return ParseResult(

														
 
															+            content="\n\n".join(content),

														
 
															+            metadata={

														
 
															+                "parser": "PaddleOCR",

														
 
															+                "page_count": page_count,

														
 
															+                "file_size": os.path.getsize(file_path)

														
 
															+            },

														
 
															+            file_type="pdf_scanned"

														
 
															+        )

														
 
															+    

														
 
															+    async def _ocr_image(self, file_path: str) -> ParseResult:

														
 
															+        """

														
 
															+        OCR处理图片文件

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            ParseResult: 解析结果

														
 
															+        """

														
 
															+        # 使用PaddleOCR识别图片

														
 
															+        ocr_result = self.ocr.ocr(file_path, cls=True)

														
 
															+        content = []

														
 
															+        

														
 
															+        for line in ocr_result:

														
 
															+            for word_info in line:

														
 
															+                content.append(word_info[1][0])

														
 
															+        

														
 
															+        return ParseResult(

														
 
															+            content=' '.join(content),

														
 
															+            metadata={

														
 
															+                "parser": "PaddleOCR",

														
 
															+                "file_size": os.path.getsize(file_path)

														
 
															+            },

														
 
															+            file_type="image"

														
 
															+        )

														
--- a/parser/requirements.txt
+++ b/parser/requirements.txt
@@ -1,5 +1,28 @@
 
															 fastapi==0.104.1
														
 
															 uvicorn==0.24.0
														
 
															 pydantic==2.4.2
														
 
															-#psutil==5.9.6
														
 
															-python-multipart==0.0.6
														
 
															+python-multipart==0.0.6
														
 
															+
														
 
															+# 基础库
														
 
															+filetype==1.2.0
														
 
															+loguru==0.7.2
														
 
															+pandas>=2.2.0
														
 
															+
														
 
															+# 文档处理
														
 
															+PyMuPDF>=1.24.0
														
 
															+python-docx==0.8.11
														
 
															+openpyxl==3.1.2
														
 
															+python-pptx==0.6.21
														
 
															+
														
 
															+# OCR处理
														
 
															+paddleocr>=2.8.0
														
 
															+paddlepaddle>=3.0.0
														
 
															+
														
 
															+# 音频处理
														
 
															+funasr>=0.3.1
														
 
															+
														
 
															+# 视频处理（FFmpeg需要系统安装）
														
 
															+
														
 
															+# 开发工具
														
 
															+pytest==7.4.3
														
 
															+black==23.11.0
														
--- a/parser/utils/ffmpeg_wrapper.py
+++ b/parser/utils/ffmpeg_wrapper.py
@@ -0,0 +1,165 @@
 
															+import subprocess

														
 
															+import os

														
 
															+from typing import Optional

														
 
															+try:

														
 
															+    import cv2

														
 
															+    import numpy as np

														
 
															+except Exception:

														
 
															+    cv2 = None

														
 
															+    np = None

														
 
															+

														
 
															+

														
 
															+class FFmpegWrapper:

														
 
															+    """FFmpeg命令行包装工具"""

														
 
															+    

														
 
															+    def __init__(self):

														
 
															+        self.ffmpeg_path = "ffmpeg"  # 假设ffmpeg已在系统PATH中

														
 
															+    

														
 
															+    def extract_audio(self, video_path: str, output_audio_path: str) -> bool:

														
 
															+        """

														
 
															+        从视频中提取音频轨道

														
 
															+        

														
 
															+        Args:

														
 
															+            video_path: 视频文件路径

														
 
															+            output_audio_path: 输出音频文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            bool: 操作是否成功

														
 
															+        """

														
 
															+        try:

														
 
															+            cmd = [

														
 
															+                self.ffmpeg_path,

														
 
															+                "-i", video_path,

														
 
															+                "-vn",  # 禁用视频

														
 
															+                "-acodec", "pcm_s16le",  # 16位PCM

														
 
															+                "-ar", "16000",  # 16kHz采样率

														
 
															+                "-ac", "1",  # 单声道

														
 
															+                "-y",  # 覆盖输出文件

														
 
															+                output_audio_path

														
 
															+            ]

														
 
															+            

														
 
															+            subprocess.run(cmd, check=True, capture_output=True, text=True)

														
 
															+            return True

														
 
															+        except subprocess.CalledProcessError as e:

														
 
															+            raise Exception(f"音频提取失败: {e.stderr}")

														
 
															+    

														
 
															+    def convert_audio(self, input_audio_path: str, output_audio_path: str) -> bool:

														
 
															+        """

														
 
															+        转换音频格式为16k/16bit/mono wav

														
 
															+        

														
 
															+        Args:

														
 
															+            input_audio_path: 输入音频文件路径

														
 
															+            output_audio_path: 输出音频文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            bool: 操作是否成功

														
 
															+        """

														
 
															+        try:

														
 
															+            cmd = [

														
 
															+                self.ffmpeg_path,

														
 
															+                "-i", input_audio_path,

														
 
															+                "-acodec", "pcm_s16le",

														
 
															+                "-ar", "16000",

														
 
															+                "-ac", "1",

														
 
															+                "-y",

														
 
															+                output_audio_path

														
 
															+            ]

														
 
															+            

														
 
															+            subprocess.run(cmd, check=True, capture_output=True, text=True)

														
 
															+            return True

														
 
															+        except subprocess.CalledProcessError as e:

														
 
															+            raise Exception(f"音频转换失败: {e.stderr}")

														
 
															+    

														
 
															+    def extract_keyframes(self, video_path: str, output_dir: str, interval: int = 60, diff_threshold: Optional[float] = None) -> list:

														
 
															+        """

														
 
															+        从视频中提取关键帧

														
 
															+        

														
 
															+        Args:

														
 
															+            video_path: 视频文件路径

														
 
															+            output_dir: 输出目录

														
 
															+            interval: 提取间隔（秒）

														
 
															+            

														
 
															+        Returns:

														
 
															+            list: 提取的关键帧文件路径列表

														
 
															+        """

														
 
															+        try:

														
 
															+            # 确保输出目录存在

														
 
															+            os.makedirs(output_dir, exist_ok=True)

														
 
															+            

														
 
															+            # 提取关键帧（按固定频率导出帧）

														
 
															+            output_pattern = os.path.join(output_dir, "frame_%06d.jpg")

														
 
															+            cmd = [

														
 
															+                self.ffmpeg_path,

														
 
															+                "-i", video_path,

														
 
															+                "-vf", f"fps=1/{interval}",  # 每 interval 秒一张

														
 
															+                "-y",

														
 
															+                output_pattern

														
 
															+            ]

														
 
															+            

														
 
															+            subprocess.run(cmd, check=True, capture_output=True, text=True)

														
 
															+            

														
 
															+            # 收集提取的帧

														
 
															+            frames = []

														
 
															+            for file in os.listdir(output_dir):

														
 
															+                if file.startswith("frame_") and file.endswith(".jpg"):

														
 
															+                    frames.append(os.path.join(output_dir, file))

														
 
															+

														
 
															+            frames = sorted(frames)

														
 
															+

														
 
															+            # 如果未提供差异阈值，直接返回所有按固定频率提取的帧

														
 
															+            if diff_threshold is None:

														
 
															+                return frames

														
 
															+

														
 
															+            # 检查依赖

														
 
															+            if cv2 is None or np is None:

														
 
															+                raise Exception("OpenCV (opencv-python) 和 numpy 需要安装以启用帧差法（pip install opencv-python numpy）")

														
 
															+

														
 
															+            # 使用 OpenCV 的灰度图像计算帧差，比较当前帧与上一个边界帧（pre），当差异>=阈值时标记为关键帧

														
 
															+            # 首先读取所有帧（彩色），以便能使用 cvtColor 按要求比较

														
 
															+            imgs = []

														
 
															+            for frame_path in frames:

														
 
															+                try:

														
 
															+                    img = cv2.imread(frame_path)  # BGR

														
 
															+                    imgs.append(img)

														
 
															+                except Exception:

														
 
															+                    imgs.append(None)

														
 
															+

														
 
															+            filtered = []

														
 
															+            # 为了加速计算，统一缩放尺寸 (width, height)

														
 
															+            resize_to = (320, 240)

														
 
															+

														
 
															+            # 找到第一个有效帧作为初始关键帧

														
 
															+            pre = None

														
 
															+            for idx, img in enumerate(imgs):

														
 
															+                if img is not None:

														
 
															+                    filtered.append(frames[idx])

														
 
															+                    pre = idx

														
 
															+                    break

														
 
															+

														
 
															+            if pre is None:

														
 
															+                return []

														
 
															+

														
 
															+            # 从下一个帧开始，比较当前帧与 imgs[pre]

														
 
															+            for i in range(pre + 1, len(imgs)):

														
 
															+                curr = imgs[i]

														
 
															+                if curr is None:

														
 
															+                    continue

														
 
															+                prev = imgs[pre]

														
 
															+                try:

														
 
															+                    prev_gray = cv2.cvtColor(prev, cv2.COLOR_BGR2GRAY)

														
 
															+                    curr_gray = cv2.cvtColor(curr, cv2.COLOR_BGR2GRAY)

														
 
															+                    if resize_to is not None:

														
 
															+                        prev_gray = cv2.resize(prev_gray, resize_to, interpolation=cv2.INTER_AREA)

														
 
															+                        curr_gray = cv2.resize(curr_gray, resize_to, interpolation=cv2.INTER_AREA)

														
 
															+

														
 
															+                    diff_val = np.mean(np.abs(curr_gray.astype(int) - prev_gray.astype(int)))

														
 
															+                except Exception:

														
 
															+                    continue

														
 
															+

														
 
															+                if diff_val >= float(diff_threshold):

														
 
															+                    filtered.append(frames[i])

														
 
															+                    pre = i

														
 
															+

														
 
															+            return filtered

														
 
															+        except subprocess.CalledProcessError as e:

														
 
															+            raise Exception(f"关键帧提取失败: {e.stderr}")

														
--- a/parser/utils/logger.py
+++ b/parser/utils/logger.py
@@ -0,0 +1,47 @@
 
															+from loguru import logger

														
 
															+import os

														
 
															+

														
 
															+

														
 
															+class Logger:

														
 
															+    """日志管理工具"""

														
 
															+    

														
 
															+    def __init__(self, log_file: str = "parsing.log"):

														
 
															+        """

														
 
															+        初始化日志配置

														
 
															+        

														
 
															+        Args:

														
 
															+            log_file: 日志文件路径

														
 
															+        """

														
 
															+        # 移除默认的控制台输出

														
 
															+        logger.remove()

														
 
															+        

														
 
															+        # 添加控制台输出

														
 
															+        logger.add(

														
 
															+            sink=lambda msg: print(msg, end=""),

														
 
															+            level="INFO",

														
 
															+            format="<green>{time:YYYY-MM-DD HH:mm:ss}</green> | <level>{level: <8}</level> | <cyan>{name}</cyan>:<cyan>{function}</cyan>:<cyan>{line}</cyan> - <level>{message}</level>"

														
 
															+        )

														
 
															+        

														
 
															+        # 添加文件输出

														
 
															+        logger.add(

														
 
															+            sink=log_file,

														
 
															+            level="DEBUG",

														
 
															+            rotation="100 MB",

														
 
															+            compression="zip",

														
 
															+            format="{time:YYYY-MM-DD HH:mm:ss} | {level: <8} | {name}:{function}:{line} - {message}"

														
 
															+        )

														
 
															+    

														
 
															+    @property

														
 
															+    def log(self):

														
 
															+        """

														
 
															+        获取logger实例

														
 
															+        

														
 
															+        Returns:

														
 
															+            logger: loguru logger实例

														
 
															+        """

														
 
															+        return logger

														
 
															+

														
 
															+

														
 
															+# 创建全局日志实例

														
 
															+logger_instance = Logger()

														
 
															+log = logger_instance.log

														
--- a/parser/utils/mime_detector.py
+++ b/parser/utils/mime_detector.py
@@ -0,0 +1,51 @@
 
															+import filetype

														
 
															+import os

														
 
															+

														
 
															+

														
 
															+class MimeDetector:

														
 
															+    """文件MIME类型检测工具"""

														
 
															+    

														
 
															+    def __init__(self):

														
 
															+        pass

														
 
															+    

														
 
															+    def detect(self, file_path: str) -> str:

														
 
															+        """

														
 
															+        检测文件的MIME类型

														
 
															+        

														
 
															+        Args:

														
 
															+            file_path: 文件路径

														
 
															+            

														
 
															+        Returns:

														
 
															+            str: MIME类型字符串

														
 
															+        """

														
 
															+        try:

														
 
															+            # 使用filetype库检测文件类型

														
 
															+            kind = filetype.guess(file_path)

														
 
															+            if kind:

														
 
															+                return kind.mime

														
 
															+            else:

														
 
															+                # 如果filetype无法检测，根据文件扩展名猜测

														
 
															+                ext = os.path.splitext(file_path)[1].lower()

														
 
															+                ext_to_mime = {

														
 
															+                    '.txt': 'text/plain',

														
 
															+                    '.md': 'text/markdown',

														
 
															+                    '.pdf': 'application/pdf',

														
 
															+                    '.docx': 'application/vnd.openxmlformats-officedocument.wordprocessingml.document',

														
 
															+                    '.doc': 'application/msword',

														
 
															+                    '.xlsx': 'application/vnd.openxmlformats-officedocument.spreadsheetml.sheet',

														
 
															+                    '.xls': 'application/vnd.ms-excel',

														
 
															+                    '.pptx': 'application/vnd.openxmlformats-officedocument.presentationml.presentation',

														
 
															+                    '.ppt': 'application/vnd.ms-powerpoint',

														
 
															+                    '.jpg': 'image/jpeg',

														
 
															+                    '.jpeg': 'image/jpeg',

														
 
															+                    '.png': 'image/png',

														
 
															+                    '.gif': 'image/gif',

														
 
															+                    '.wav': 'audio/wav',

														
 
															+                    '.mp3': 'audio/mpeg',

														
 
															+                    '.mp4': 'video/mp4',

														
 
															+                    '.avi': 'video/x-msvideo',

														
 
															+                    '.mov': 'video/quicktime'

														
 
															+                }

														
 
															+                return ext_to_mime.get(ext, 'application/octet-stream')

														
 
															+        except Exception as e:

														
 
															+            raise Exception(f"文件类型检测失败: {str(e)}")

														
--- a/parser/utils/stability.py
+++ b/parser/utils/stability.py
@@ -0,0 +1,80 @@
 
															+import asyncio

														
 
															+import functools

														
 
															+from typing import Callable, Any, List, Coroutine

														
 
															+from utils.logger import log

														
 
															+

														
 
															+

														
 
															+def timeout(seconds: int):

														
 
															+    """

														
 
															+    超时装饰器，防止函数执行时间过长

														
 
															+    

														
 
															+    Args:

														
 
															+        seconds: 超时时间（秒）

														
 
															+        

														
 
															+    Returns:

														
 
															+        Callable: 装饰后的函数

														
 
															+    """

														
 
															+    def decorator(func: Callable) -> Callable:

														
 
															+        @functools.wraps(func)

														
 
															+        async def wrapper(*args, **kwargs) -> Any:

														
 
															+            try:

														
 
															+                return await asyncio.wait_for(func(*args, **kwargs), timeout=seconds)

														
 
															+            except asyncio.TimeoutError:

														
 
															+                log.error(f"函数 {func.__name__} 执行超时，已超过 {seconds} 秒")

														
 
															+                raise Exception(f"执行超时，已超过 {seconds} 秒")

														
 
															+        return wrapper

														
 
															+    return decorator

														
 
															+

														
 
															+

														
 
															+class AsyncDispatcher:

														
 
															+    """异步调度器，支持并发处理多个任务"""

														
 
															+    

														
 
															+    def __init__(self, max_concurrency: int = 5):

														
 
															+        """

														
 
															+        初始化异步调度器

														
 
															+        

														
 
															+        Args:

														
 
															+            max_concurrency: 最大并发数

														
 
															+        """

														
 
															+        self.max_concurrency = max_concurrency

														
 
															+    

														
 
															+    async def run(self, tasks: List[Coroutine]) -> List[Any]:

														
 
															+        """

														
 
															+        并发执行多个任务

														
 
															+        

														
 
															+        Args:

														
 
															+            tasks: 任务列表

														
 
															+            

														
 
															+        Returns:

														
 
															+            List[Any]: 任务执行结果列表

														
 
															+        """

														
 
															+        log.info(f"开始并发执行 {len(tasks)} 个任务，最大并发数: {self.max_concurrency}")

														
 
															+        

														
 
															+        # 创建信号量控制并发

														
 
															+        semaphore = asyncio.Semaphore(self.max_concurrency)

														
 
															+        

														
 
															+        async def bounded_task(task: Coroutine) -> Any:

														
 
															+            async with semaphore:

														
 
															+                try:

														
 
															+                    return await task

														
 
															+                except Exception as e:

														
 
															+                    log.error(f"任务执行失败: {str(e)}")

														
 
															+                    return None

														
 
															+        

														
 
															+        # 并发执行任务

														
 
															+        results = await asyncio.gather(

														
 
															+            *[bounded_task(task) for task in tasks],

														
 
															+            return_exceptions=True

														
 
															+        )

														
 
															+        

														
 
															+        # 处理异常结果

														
 
															+        processed_results = []

														
 
															+        for i, result in enumerate(results):

														
 
															+            if isinstance(result, Exception):

														
 
															+                log.error(f"第 {i+1} 个任务执行失败: {str(result)}")

														
 
															+                processed_results.append(None)

														
 
															+            else:

														
 
															+                processed_results.append(result)

														
 
															+        

														
 
															+        log.info(f"并发任务执行完成，成功 {sum(1 for r in processed_results if r is not None)} 个")

														
 
															+        return processed_results