ソースを参照

fix(更新环境名称): 将所有配置和文档中的`mineru2`环境名称更新为`mineru`,确保一致性和准确性。

zhch158_admin 2 日 前
コミット
6518b09bbd

+ 18 - 18
.github/copilot-instructions.md

@@ -11,11 +11,11 @@
 
 ## Python 环境要求
 
-**重要:本项目必须在 `mineru2` conda 环境下运行所有代码。**
+**重要:本项目必须在 `mineru` conda 环境下运行所有代码。**
 
 ### 环境配置
-- **Python 解释器**: `/opt/miniconda3/envs/mineru2/bin/python`
-- **Conda 环境**: `mineru2`
+- **Python 解释器**: `/opt/miniconda3/envs/mineru/bin/python`
+- **Conda 环境**: `mineru`
 - **Python 版本**: 3.12+
 - **平台**: macOS (Darwin)
 
@@ -23,17 +23,17 @@
 
 1. **所有 Python 脚本执行前必须激活环境**:
    ```bash
-   conda activate mineru2
+   conda activate mineru
    ```
 
 2. **直接使用完整路径**:
    ```bash
-   /opt/miniconda3/envs/mineru2/bin/python script.py
+   /opt/miniconda3/envs/mineru/bin/python script.py
    ```
 
 3. **使用 run_in_terminal 工具时**,命令格式:
    ```bash
-   conda activate mineru2 && python script.py
+   conda activate mineru && python script.py
    ```
 
 ### 项目模块路径
@@ -48,22 +48,22 @@
 
 #### 运行 Streamlit 应用
 ```bash
-cd ocr_validator && conda activate mineru2 && streamlit run streamlit_ocr_validator.py --server.runOnSave=true
+cd ocr_validator && conda activate mineru && streamlit run streamlit_ocr_validator.py --server.runOnSave=true
 ```
 
 #### 运行 Python 脚本
 ```bash
-conda activate mineru2 && python script.py
+conda activate mineru && python script.py
 ```
 
 #### 安装依赖
 ```bash
-conda activate mineru2 && pip install package-name
+conda activate mineru && pip install package-name
 ```
 
 #### 运行测试
 ```bash
-conda activate mineru2 && pytest tests/
+conda activate mineru && pytest tests/
 ```
 
 ### 禁止的操作
@@ -90,7 +90,7 @@ source venv/bin/activate
 
 ### 依赖包说明
 
-主要依赖(已安装在 mineru2 环境):
+主要依赖(已安装在 mineru 环境):
 - streamlit >= 1.30.0
 - plotly >= 5.18.0
 - pandas >= 2.1.0
@@ -102,29 +102,29 @@ source venv/bin/activate
 ### 文件操作规则
 
 1. 创建新文件时,确保使用项目的模块导入路径
-2. 修改配置文件时,保持与 mineru2 环境的一致性
+2. 修改配置文件时,保持与 mineru 环境的一致性
 3. 添加新的脚本时,在文件头部添加 shebang:
    ```python
-   #!/opt/miniconda3/envs/mineru2/bin/python
+   #!/opt/miniconda3/envs/mineru/bin/python
    ```
 
 ### 调试和测试
 
 执行测试或调试时,始终使用:
 ```bash
-conda activate mineru2 && python -m pytest
-conda activate mineru2 && python -m pdb script.py
+conda activate mineru && python -m pytest
+conda activate mineru && python -m pdb script.py
 ```
 
 ### 环境验证
 
 在执行任何 Python 代码前,验证环境:
 ```bash
-conda activate mineru2
+conda activate mineru
 python -c "import sys; print(sys.executable)"
-# 应输出: /opt/miniconda3/envs/mineru2/bin/python
+# 应输出: /opt/miniconda3/envs/mineru/bin/python
 ```
 
 ---
 
-**记住:任何涉及 Python 代码执行、包安装、测试运行的操作,都必须在 mineru2 环境下进行!**
+**记住:任何涉及 Python 代码执行、包安装、测试运行的操作,都必须在 mineru 环境下进行!**

+ 1 - 1
README.md

@@ -161,7 +161,7 @@ git config --local user.email "zhch158@sina.com"
 项目支持多个 Python 环境,根据使用的工具选择:
 
 - **PaddleX 工具**:需要 `paddle_env` 环境(Python 3.11+)
-- **MinerU 工具**:需要 `mineru2` 环境(Python 3.12+)
+- **MinerU 工具**:需要 `mineru` 环境(Python 3.12+)
 - **DotsOCR 工具**:需要 `py312` 环境(Python 3.12+)
 
 详细环境配置请查看:

+ 3 - 3
docs/mineru/README.md

@@ -15,8 +15,8 @@ git config --local user.email "zhch158@sina.com"
 ### 1.2 Python 环境安装
 ```bash
 # 创建 conda 环境
-conda create -n mineru2 python=3.12
-conda activate mineru2
+conda create -n mineru python=3.12
+conda activate mineru
 
 # 安装 MinerU 核心
 pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple
@@ -37,7 +37,7 @@ python -c "import torch; print(f'PyTorch: {torch.__version__}, CUDA: {torch.cuda
 python -m mineru.cli.models_download
 
 # 模型会保存到 $MODELSCOPE_CACHE 目录
-# 默认路径: /home/ubuntu/models/modelscope_cache/models/OpenDataLab/MinerU2___5-2509-1___2B
+# 默认路径: /home/ubuntu/models/modelscope_cache/models/OpenDataLab/mineru___5-2509-1___2B
 ```
 
 ### 1.4 环境变量配置

+ 1 - 1
docs/ocr_tools/universal_doc_parser/llama.cpp配置说明.md

@@ -182,7 +182,7 @@ max_tokens <= CONTEXT_SIZE
 
 2. **确认 conda 环境:**
    ```bash
-   conda activate mineru2
+   conda activate mineru
    ```
 
 3. **验证模型文件:**

+ 7 - 7
ocr_tools/daemons/README.md

@@ -83,7 +83,7 @@ cd ocr_tools/daemons
 **服务类型**:MinerU vLLM 服务
 
 **配置参数**:
-- `CONDA_ENV`: conda 环境名称(默认: `mineru2`)
+- `CONDA_ENV`: conda 环境名称(默认: `mineru`)
 - `PORT`: 服务端口(默认: `8121`)
 - `HOST`: 服务主机(默认: `0.0.0.0`)
 - `MODEL_PATH`: 模型路径
@@ -101,7 +101,7 @@ cd ocr_tools/daemons
 - API 文档: `http://localhost:8121/docs`
 
 **依赖环境**:
-- conda 环境: `mineru2`
+- conda 环境: `mineru`
 - 需要安装: `mineru-vllm-server`
 
 **客户端使用**:
@@ -224,7 +224,7 @@ python main.py --input document.pdf --output_dir ./output --ip localhost --port
 **服务类型**:GLM-OCR 本地 GGUF 模型服务(macOS/Metal)
 
 **配置参数**:
-- `CONDA_ENV`: conda 环境名称(默认: `mineru2`)
+- `CONDA_ENV`: conda 环境名称(默认: `mineru`)
 - `PORT`: 服务端口(默认: `8080`)
 - `HOST`: 服务主机(默认: `0.0.0.0`)
 - `MODEL_PATH`: GGUF 模型路径(默认: `~/Library/Caches/llama.cpp/ggml-org_GLM-OCR-GGUF_GLM-OCR-Q8_0.gguf`)
@@ -246,7 +246,7 @@ python main.py --input document.pdf --output_dir ./output --ip localhost --port
 **依赖环境**:
 - macOS (M4 Pro 推荐)
 - Homebrew 安装 llama.cpp: `brew install llama.cpp`
-- conda 环境: `mineru2`
+- conda 环境: `mineru`
 - 模型文件位于: `~/Library/Caches/llama.cpp/`
 
 **模型大小**:
@@ -288,7 +288,7 @@ curl -X POST http://localhost:8080/v1/chat/completions \
 **服务类型**:PaddleOCR-VL-1.5 本地 GGUF 模型服务(macOS/Metal)
 
 **配置参数**:
-- `CONDA_ENV`: conda 环境名称(默认: `mineru2`)
+- `CONDA_ENV`: conda 环境名称(默认: `mineru`)
 - `PORT`: 服务端口(默认: `8081`)
 - `HOST`: 服务主机(默认: `0.0.0.0`)
 - `MODEL_PATH`: GGUF 模型路径(默认: `~/Library/Caches/llama.cpp/PaddlePaddle_PaddleOCR-VL-1.5-GGUF_PaddleOCR-VL-1.5.gguf`)
@@ -310,7 +310,7 @@ curl -X POST http://localhost:8080/v1/chat/completions \
 **依赖环境**:
 - macOS (M4 Pro 推荐)
 - Homebrew 安装 llama.cpp: `brew install llama.cpp`
-- conda 环境: `mineru2`
+- conda 环境: `mineru`
 - 模型文件位于: `~/Library/Caches/llama.cpp/`
 
 **模型大小**:
@@ -369,7 +369,7 @@ curl -X POST http://localhost:8081/v1/chat/completions \
 
 #### macOS/Metal 环境(本地 GGUF 服务)
 - 安装 llama.cpp: `brew install llama.cpp`
-- 确保 conda 环境 `mineru2` 已创建
+- 确保 conda 环境 `mineru` 已创建
 - 模型文件自动下载到 `~/Library/Caches/llama.cpp/` 或手动下载:
   - GLM-OCR: https://huggingface.co/ggml-org/GLM-OCR-GGUF
   - PaddleOCR-VL: https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5-GGUF

+ 3 - 3
ocr_tools/daemons/glmocr_local_daemon.sh

@@ -18,7 +18,7 @@ PIDFILE="$LOGDIR/glmocr_llamaserver.pid"
 LOGFILE="$LOGDIR/glmocr_llamaserver.log"
 
 # 配置参数
-CONDA_ENV="mineru2"
+CONDA_ENV="mineru"
 PORT="8101"
 HOST="0.0.0.0"
 
@@ -297,7 +297,7 @@ test_client() {
     echo ""
     echo "测试命令示例:"
     echo "  cd /Users/zhch158/workspace/repository.git/ocr_platform/ocr_tools/universal_doc_parser"
-    echo "  conda activate mineru2"
+    echo "  conda activate mineru"
     echo "  python parse.py --input /path/to/test/image.png --config $CONFIG_FILE --debug"
     echo ""
     echo "或者使用 curl 直接测试 API:"
@@ -350,7 +350,7 @@ usage() {
     echo "前置要求:"
     echo "  1. 安装 llama.cpp: brew install llama.cpp"
     echo "  2. 模型文件位于: ~/Library/Caches/llama.cpp/"
-    echo "  3. conda 环境 mineru2 已配置"
+    echo "  3. conda 环境 mineru 已配置"
 }
 
 case "$1" in

+ 3 - 3
ocr_tools/daemons/mineru_local_daemon.sh

@@ -18,7 +18,7 @@ PIDFILE="$LOGDIR/mineru_llamaserver.pid"
 LOGFILE="$LOGDIR/mineru_llamaserver.log"
 
 # 配置参数
-CONDA_ENV="mineru2"
+CONDA_ENV="mineru"
 PORT="8103"
 HOST="0.0.0.0"
 
@@ -306,7 +306,7 @@ test_client() {
     echo ""
     echo "测试命令示例:"
     echo "  cd /Users/zhch158/workspace/repository.git/ocr_platform/ocr_tools/universal_doc_parser"
-    echo "  conda activate mineru2"
+    echo "  conda activate mineru"
     echo "  python main_v2.py -i /path/to/test.pdf -c $CONFIG_FILE -o /tmp/test_output -s bank_statement --pages 1 --streaming"
     echo ""
     echo "或者使用 curl 直接测试 API:"
@@ -359,7 +359,7 @@ usage() {
     echo "前置要求:"
     echo "  1. 安装 llama.cpp: brew install llama.cpp"
     echo "  2. 首次下载模型: llama-server -hf mradermacher/MinerU2.5-Pro-2604-1.2B-GGUF:Q8_0"
-    echo "  3. conda 环境 mineru2 已配置"
+    echo "  3. conda 环境 mineru 已配置"
 }
 
 case "$1" in

+ 1 - 1
ocr_tools/daemons/mineru_vllm_daemon.sh

@@ -10,7 +10,7 @@ PIDFILE="$LOGDIR/mineru_vllm.pid"
 LOGFILE="$LOGDIR/mineru_vllm.log"
 
 # 配置参数
-CONDA_ENV="mineru2"
+CONDA_ENV="mineru"
 PORT="8121"
 HOST="0.0.0.0"
 MODEL_PATH="/home/ubuntu/models/modelscope_cache/models/OpenDataLab/MinerU2___5-2509-1___2B"

+ 3 - 3
ocr_tools/daemons/paddle_local_daemon.sh

@@ -17,7 +17,7 @@ PIDFILE="$LOGDIR/paddleocr_llamaserver.pid"
 LOGFILE="$LOGDIR/paddleocr_llamaserver.log"
 
 # 配置参数
-CONDA_ENV="mineru2"
+CONDA_ENV="mineru"
 PORT="8102"
 HOST="0.0.0.0"
 
@@ -300,7 +300,7 @@ test_client() {
     echo ""
     echo "测试命令示例:"
     echo "  cd /Users/zhch158/workspace/repository.git/ocr_platform/ocr_tools/universal_doc_parser"
-    echo "  conda activate mineru2"
+    echo "  conda activate mineru"
     echo "  python parse.py --input /path/to/test/image.png --config $CONFIG_FILE --debug"
     echo ""
     echo "或者使用 curl 直接测试 API:"
@@ -353,7 +353,7 @@ usage() {
     echo "前置要求:"
     echo "  1. 安装 llama.cpp: brew install llama.cpp"
     echo "  2. 模型文件位于: ~/Library/Caches/llama.cpp/"
-    echo "  3. conda 环境 mineru2 已配置"
+    echo "  3. conda 环境 mineru 已配置"
 }
 
 case "$1" in

+ 2 - 2
ocr_tools/ocr_batch/README.md

@@ -15,7 +15,7 @@
 # 1. 使用 DotsOCR(自动切换到 py312 环境)
 python batch_process_pdf.py -p dotsocr_vllm -f pdf_list.txt
 
-# 2. 使用 MinerU(自动切换到 mineru2 环境)
+# 2. 使用 MinerU(自动切换到 mineru 环境)
 python batch_process_pdf.py -p mineru_vllm -f pdf_list.txt
 
 # 3. 使用 PaddleOCR(自动切换到 paddle_env)
@@ -53,7 +53,7 @@ conda activate py312 && python /path/to/dotsocr_vllm_multthreads.py \
 
 ### MinerU:
 ```bash
-conda activate mineru2 && python /path/to/mineru2_vllm_multthreads.py \
+conda activate mineru && python /path/to/mineru2_vllm_multthreads.py \
     --input /path/to/file.pdf \
     --output_dir /path/to/output \
     --server_url=http://10.192.72.11:8121

+ 2 - 2
ocr_tools/ocr_batch/batch_process_pdf.py

@@ -113,7 +113,7 @@ class ConfigManager:
                     '--batch_size=1'
                 ],
                 'output_subdir': 'mineru_vllm_results',
-                'venv': 'conda activate mineru2',
+                'venv': 'conda activate mineru',
                 'description': 'MinerU vLLM 处理器',
                 'log_subdir': 'logs/mineru_vllm'  # 🎯 新增
             },
@@ -669,7 +669,7 @@ def create_parser() -> argparse.ArgumentParser:
   2. 使用 DotsOCR 处理器 (自动切换到 py312 环境):
      python batch_process_pdf.py -p dotsocr_vllm -f pdf_list.txt
 
-  3. 使用 MinerU 处理器 (自动切换到 mineru2 环境):
+  3. 使用 MinerU 处理器 (自动切换到 mineru 环境):
      python batch_process_pdf.py -p mineru_vllm -f pdf_list.txt
 
   4. 处理指定目录下所有 PDF:

+ 3 - 1
ocr_tools/ocr_batch/pdf_list.txt

@@ -17,4 +17,6 @@ B用户_扫描流水.pdf,bank_statement
 朱_中信银行图.pdf,bank_statement
 韩_中国银行图.pdf,bank_statemen
 严_农业银行.pdf,bank_statement
-
+陈3_微信图.pdf,bank_statement
+彭_广东兴宁农村商业银行.pdf,bank_statement
+钟_广东陆丰农村商业银行.pdf,bank_statement

+ 3 - 7
ocr_tools/ocr_batch/pdf_list_local.txt

@@ -1,8 +1,4 @@
 # 文件名<TAB>","场景(bank_statement / financial_report)
-对公_招商银行图.pdf,bank_statement
-B用户_扫描流水.pdf,bank_statement
-康强_北京农村商业银行.pdf,bank_statement
-施博深.pdf,bank_statement
-山西云集科技有限公司.pdf,bank_statement
-许_民生银行图.pdf,bank_statement
-严_农业银行.pdf,bank_statement
+陈3_微信图.pdf,bank_statement
+彭_广东兴宁农村商业银行.pdf,bank_statement
+钟_广东陆丰农村商业银行.pdf,bank_statement

+ 22 - 6
ocr_tools/ocr_batch/processor_configs.yaml

@@ -21,7 +21,7 @@ processors:
       - "--log_level=DEBUG"
     output_subdir: "bank_statement_yusys_v4"
     log_subdir: "logs/bank_statement_yusys_v4"
-    venv: "conda activate mineru2"
+    venv: "conda activate mineru"
     description: "YUSYS Wired UNET OCR 框架 GLM-OCR"
 
   yusys_ocr_v3:
@@ -40,7 +40,7 @@ processors:
     log_subdir: "logs/bank_statement_yusys_v3"
     # output_subdir: "bank_statement_yusys_v2"
     # log_subdir: "logs/bank_statement_yusys_v2"
-    venv: "conda activate mineru2"
+    venv: "conda activate mineru"
     description: "YUSYS Wired UNET OCR 框架"
 
   yusys_mineru:
@@ -59,7 +59,7 @@ processors:
     log_subdir: "logs/bank_statement_mineru_vl"
     # output_subdir: "bank_statement_yusys_v2"
     # log_subdir: "logs/bank_statement_yusys_v2"
-    venv: "conda activate mineru2"
+    venv: "conda activate mineru"
     description: "YUSYS MinerU OCR 框架"
 
   yusys_ocr_local:
@@ -75,9 +75,25 @@ processors:
       - "--log_level=DEBUG"
     output_subdir: "bank_statement_yusys_local"
     log_subdir: "logs/bank_statement_yusys_local"
-    venv: "conda activate mineru2"
+    venv: "conda activate mineru"
     description: "YUSYS(local) Wired UNET OCR GLM-OCR"
 
+  yusys_glmocr_local:
+    script: "/Users/zhch158/workspace/repository.git/ocr_platform/ocr_tools/universal_doc_parser/main_v2.py"
+    input_arg: "--input"
+    output_arg: "--output_dir"
+    scene_arg: "--scene"
+    extra_args:
+      - "--config=/Users/zhch158/workspace/repository.git/ocr_platform/ocr_tools/universal_doc_parser/config/bank_statement_glm_vl_local.yaml"
+      - "--pages=1-35"
+      - "--streaming"
+      - "--debug"
+      - "--log_level=DEBUG"
+    output_subdir: "bank_statement_yusys_glmocr_local"
+    log_subdir: "logs/bank_statement_yusys_glmocr_local"
+    venv: "conda activate mineru"
+    description: "YUSYS(local) OCR GLM-OCR VLM"
+
   yusys_paddleocr_local:
     script: "/Users/zhch158/workspace/repository.git/ocr_platform/ocr_tools/universal_doc_parser/main_v2.py"
     input_arg: "--input"
@@ -91,7 +107,7 @@ processors:
       - "--log_level=DEBUG"
     output_subdir: "bank_statement_yusys_paddleocr_local"
     log_subdir: "logs/bank_statement_yusys_paddleocr_local"
-    venv: "conda activate mineru2"
+    venv: "conda activate mineru"
     description: "YUSYS(local) Wired UNET OCR PaddleOCR-VL"
 
   # -------------------------------------------------------------------------
@@ -182,7 +198,7 @@ processors:
       - "--batch_size=1"
     output_subdir: "mineru_vllm_results"
     log_subdir: "logs/mineru_vllm"
-    venv: "conda activate mineru2"
+    venv: "conda activate mineru"
     description: "MinerU vLLM 处理器 - 支持PDF和图片"
 
   # -------------------------------------------------------------------------

+ 1 - 1
pyrightconfig.json

@@ -8,7 +8,7 @@
   "pythonPlatform": "Darwin",
   "typeCheckingMode": "basic",
   "venvPath": "/opt/miniconda3/envs",
-  "venv": "mineru2",
+  "venv": "mineru",
   "reportMissingImports": true,
   "reportMissingTypeStubs": false,
   "useLibraryCodeForTypes": true