3 weeks ago · 0c3a4ecf56
--- a/paddlex/.version
+++ b/paddlex/.version
@@ -1 +1 @@
 
															-3.3.4
														
 
															+3.3.5
														
--- a/paddlex/inference/models/common/vlm/transformers/configuration_utils.py
+++ b/paddlex/inference/models/common/vlm/transformers/configuration_utils.py
@@ -823,11 +823,6 @@ class PretrainedConfig:
 
															                 )
														
 
															         to_remove = []
														
 
															         for key, value in kwargs.items():
														
 
															-            if key == "quantization_config" and isinstance(value, Dict):
														
 
															-                for q_key in value:
														
 
															-                    setattr(config.quantization_config, q_key, value[q_key])
														
 
															-                to_remove.append(key)
														
 
															-                continue
														
 
															             if hasattr(config, key):
														
 
															                 setattr(config, key, value)
														
 
															                 if key != "dtype":
														
@@ -889,11 +884,6 @@ class PretrainedConfig:
 
															         # only serialize values that differ from the default config
														
 
															         for key, value in config_dict.items():
														
 
															-            if key == "quantization_config":
														
 
															-                quantization_diff_dict = self.quantization_config.to_diff_dict()
														
 
															-                if len(quantization_diff_dict) > 0:
														
 
															-                    serializable_config_dict[key] = quantization_diff_dict
														
 
															-                continue
														
 
															             if (
														
 
															                 key not in default_config_dict
														
 
															                 or key == "paddlenlp_version"
														
@@ -942,16 +932,6 @@ class PretrainedConfig:
 
															                 if key in self._unsavable_keys:
														
 
															                     output.pop(key)
														
 
															-        if hasattr(self, "quantization_config"):
														
 
															-            output["quantization_config"] = (
														
 
															-                self.quantization_config.to_dict()
														
 
															-                if not isinstance(self.quantization_config, dict)
														
 
															-                else self.quantization_config
														
 
															-            )
														
 
															-
														
 
															-            # pop the `_pre_quantization_dtype` as torch.dtypes are not serializable.
														
 
															-            _ = output.pop("_pre_quantization_dtype", None)
														
 
															-
														
 
															         return output
														
 
															     def update(self, config_dict: Dict[str, Any]):
														
--- a/paddlex/inference/models/common/vlm/transformers/model_utils.py
+++ b/paddlex/inference/models/common/vlm/transformers/model_utils.py
@@ -258,8 +258,6 @@ def load_state_dict(
 
															                 tensor_parallel_split_mapping,
														
 
															                 fliter_dict_keys,
														
 
															                 "expected",
														
 
															-                quantization_linear_list=None,
														
 
															-                quantization_config=None,
														
 
															                 dtype=None,
														
 
															                 return_numpy=False,
														
 
															                 convert_from_hf=convert_from_hf,
														
@@ -277,7 +275,7 @@ def _load_state_dict_into_model(
 
															     model_to_load, state_dict, start_prefix, convert_from_hf
														
 
															 ):
														
 
															     # torch will cast dtype in load_state_dict, but paddle strictly check dtype
														
 
															-    _convert_state_dict_dtype_and_shape(state_dict, model_to_load)
														
 
															+    _convert_state_dict_dtype_and_shape(state_dict, model_to_load, convert_from_hf)
														
 
															     error_msgs = []
														
@@ -307,12 +305,16 @@ def _load_state_dict_into_model(
 
															     return error_msgs
														
 
															-def _convert_state_dict_dtype_and_shape(state_dict, model_to_load):
														
 
															+def _convert_state_dict_dtype_and_shape(state_dict, model_to_load, convert_from_hf):
														
 
															     # convert the dtype of state dict
														
 
															     def is_0d_or_1d(tensor):
														
 
															         return len(tensor.shape) == 0 or list(tensor.shape) == [1]
														
 
															-    for key, value in model_to_load.state_dict().items():
														
 
															+    if convert_from_hf:
														
 
															+        model_state_dict = model_to_load.get_hf_state_dict()
														
 
															+    else:
														
 
															+        model_state_dict = model_to_load.state_dict()
														
 
															+    for key, value in model_state_dict.items():
														
 
															         if key in list(state_dict.keys()):
														
 
															             if isinstance(state_dict[key], np.ndarray):
														
 
															                 raise ValueError(
														
@@ -631,34 +633,6 @@ class PretrainedModel(
 
															         config.weightonly_group_size = predictor_args.weightonly_group_size
														
 
															         config.weight_block_size = predictor_args.weight_block_size
														
 
															         config.moe_quant_type = predictor_args.moe_quant_type
														
 
															-        if config.quantization_config.quant_method is not None:
														
 
															-            predictor_args.weight_block_size = (
														
 
															-                config.quantization_config.weight_block_size
														
 
															-            )
														
 
															-            config.weight_block_size = predictor_args.weight_block_size
														
 
															-
														
 
															-        if config.quantization_config.quant_type is not None:
														
 
															-            if predictor_args.mode == "dynamic":
														
 
															-                predictor_args.quant_type = config.quantization_config.quant_type
														
 
															-                config.quant_type = config.quantization_config.quant_type
														
 
															-            if "c8" in config.quant_type:
														
 
															-                predictor_args.cachekv_int8_type = "static"
														
 
															-                if predictor_args.mode == "dynamic":
														
 
															-                    config.cachekv_int8_type = "static"
														
 
															-
														
 
															-            if predictor_args.mode == "dynamic":
														
 
															-                ptq_multicards_num = 0
														
 
															-                if os.path.exists(config.model_name_or_path):
														
 
															-                    prefix = "act_scales_"
														
 
															-                    for filename in os.listdir(config.model_name_or_path):
														
 
															-                        if filename.startswith(prefix):
														
 
															-                            ptq_multicards_num += 1
														
 
															-
														
 
															-                logging.info(
														
 
															-                    f"PTQ from {ptq_multicards_num} cards, so we will not split"
														
 
															-                )
														
 
															-                if ptq_multicards_num > 1:
														
 
															-                    config.single_card_ptq = False
														
 
															         if predictor_args.block_attn:
														
 
															             config.block_size = predictor_args.block_size
														
@@ -1323,45 +1297,6 @@ class PretrainedModel(
 
															                     ".".join([prefix, s]) for s in quantization_linear_list
														
 
															                 ]
														
 
															-        # Weight quantization if not yet quantized & update loaded_keys
														
 
															-        if (
														
 
															-            hasattr(config, "quantization_config")
														
 
															-            and config.quantization_config.is_weight_quantize()
														
 
															-        ):
														
 
															-            try:
														
 
															-                from ..quantization.quantization_utils import (
														
 
															-                    convert_to_quantize_state_dict,
														
 
															-                    update_loaded_state_dict_keys,
														
 
															-                )
														
 
															-            except ImportError:
														
 
															-                raise ImportError(
														
 
															-                    "Quantization features require `paddlepaddle >= 2.5.2`"
														
 
															-                )
														
 
															-            if state_dict is not None:
														
 
															-                state_dict = convert_to_quantize_state_dict(
														
 
															-                    state_dict,
														
 
															-                    quantization_linear_list,
														
 
															-                    config.quantization_config,
														
 
															-                    dtype,
														
 
															-                )
														
 
															-                loaded_keys = [k for k in state_dict.keys()]
														
 
															-            else:
														
 
															-                loaded_keys = update_loaded_state_dict_keys(
														
 
															-                    loaded_keys, quantization_linear_list, config.quantization_config
														
 
															-                )
														
 
															-            if keep_in_fp32_modules is None:
														
 
															-                keep_in_fp32_modules = (
														
 
															-                    ["quant_scale"]
														
 
															-                    if config.quantization_config.weight_quantize_algo in ["nf4", "fp4"]
														
 
															-                    else None
														
 
															-                )
														
 
															-            else:
														
 
															-                keep_in_fp32_modules = (
														
 
															-                    keep_in_fp32_modules + ["quant_scale"]
														
 
															-                    if config.quantization_config.weight_quantize_algo in ["nf4", "fp4"]
														
 
															-                    else keep_in_fp32_modules
														
 
															-                )
														
 
															-
														
 
															         missing_keys = list(set(expected_keys) - set(loaded_keys))
														
 
															         unexpected_keys = list(set(loaded_keys) - set(expected_keys))
														
@@ -1525,27 +1460,12 @@ class PretrainedModel(
 
															                 ignore_mismatched_sizes,
														
 
															             )
														
 
															-            if (
														
 
															-                hasattr(config, "quantization_config")
														
 
															-                and config.quantization_config.is_weight_quantize()
														
 
															-            ):
														
 
															-                error_msgs = _load_state_dict_into_meta_model(
														
 
															-                    model_to_load,
														
 
															-                    state_dict,
														
 
															-                    loaded_keys,
														
 
															-                    start_prefix,
														
 
															-                    expected_keys,
														
 
															-                    dtype=dtype,
														
 
															-                    is_safetensors=is_safetensors,
														
 
															-                    keep_in_fp32_modules=keep_in_fp32_modules,
														
 
															-                )
														
 
															-            else:
														
 
															-                error_msgs = _load_state_dict_into_model(
														
 
															-                    model_to_load,
														
 
															-                    state_dict,
														
 
															-                    start_prefix,
														
 
															-                    convert_from_hf=convert_from_hf,
														
 
															-                )
														
 
															+            error_msgs = _load_state_dict_into_model(
														
 
															+                model_to_load,
														
 
															+                state_dict,
														
 
															+                start_prefix,
														
 
															+                convert_from_hf=convert_from_hf,
														
 
															+            )
														
 
															         else:
														
 
															             # Sharded checkpoint or whole but low_cpu_mem_usage==True
														
@@ -1600,8 +1520,6 @@ class PretrainedModel(
 
															                         if k[-1] in tp_actions:
														
 
															                             fuse_actions.pop(k[-1], None)
														
 
															-                if config.quantization_config.is_weight_quantize():
														
 
															-                    filter_dict_keys = None
														
 
															                 try:
														
 
															                     transpose_weight_keys = model.get_transpose_weight_keys()
														
 
															                 except NotImplementedError:
														
@@ -1630,14 +1548,6 @@ class PretrainedModel(
 
															                 missing_keys = list(set(missing_keys) - set(new_keys))
														
 
															                 unexpected_keys = list(set(unexpected_keys) - set(fused_keys))
														
 
															-                if config.quantization_config.is_weight_quantize():
														
 
															-                    state_dict = convert_to_quantize_state_dict(
														
 
															-                        state_dict,
														
 
															-                        quantization_linear_list,
														
 
															-                        config.quantization_config,
														
 
															-                        dtype,
														
 
															-                    )
														
 
															-
														
 
															                 # Mismatched keys contains tuples key/shape1/shape2 of weights in the checkpoint that have a shape not
														
 
															                 # matching the weights in the model.
														
 
															                 mismatched_keys += _find_mismatched_keys(
														
@@ -1664,7 +1574,7 @@ class PretrainedModel(
 
															                     )
														
 
															                     logging.info("Converted state_dict to Tensor Parallel Format")
														
 
															-                if low_cpu_mem_usage or config.quantization_config.is_weight_quantize():
														
 
															+                if low_cpu_mem_usage:
														
 
															                     new_error_msgs = _load_state_dict_into_meta_model(
														
 
															                         model_to_load,
														
 
															                         state_dict,
														
--- a/paddlex/inference/models/doc_vlm/predictor.py
+++ b/paddlex/inference/models/doc_vlm/predictor.py
@@ -28,8 +28,8 @@ from ....modules.doc_vlm.model_list import MODELS
 
															 from ....utils import logging
														
 
															 from ....utils.deps import require_genai_client_plugin
														
 
															 from ....utils.device import TemporaryDeviceChanger
														
 
															-from ....utils.env import get_device_type
														
 
															 from ...common.batch_sampler import DocVLMBatchSampler
														
 
															+from ...utils.misc import is_bfloat16_available
														
 
															 from ..base import BasePredictor
														
 
															 from .result import DocVLMResult
														
@@ -53,15 +53,8 @@ class DocVLMPredictor(BasePredictor):
 
															         super().__init__(*args, **kwargs)
														
 
															         if self._use_local_model:
														
 
															-            import paddle
														
 
															-
														
 
															             self.device = kwargs.get("device", None)
														
 
															-            self.dtype = (
														
 
															-                "bfloat16"
														
 
															-                if ("npu" in get_device_type() or paddle.amp.is_bfloat16_supported())
														
 
															-                and (self.device is None or "cpu" not in self.device)
														
 
															-                else "float32"
														
 
															-            )
														
 
															+            self.dtype = "bfloat16" if is_bfloat16_available(self.device) else "float32"
														
 
															             self.infer, self.processor = self._build(**kwargs)
														
--- a/paddlex/inference/pipelines/paddleocr_vl/pipeline.py
+++ b/paddlex/inference/pipelines/paddleocr_vl/pipeline.py
@@ -249,10 +249,14 @@ class _PaddleOCRVLPipeline(BasePipeline):
 
															                     vlm_block_ids.append((i, j))
														
 
															                     drop_figures_set.update(drop_figures)
														
 
															+        if vlm_kwargs is None:
														
 
															+            vlm_kwargs = {}
														
 
															+        elif vlm_kwargs.get("max_new_tokens", None) is None:
														
 
															+            vlm_kwargs["max_new_tokens"] = 4096
														
 
															+
														
 
															         kwargs = {
														
 
															             "use_cache": True,
														
 
															-            "max_new_tokens": 4096,
														
 
															-            **(vlm_kwargs or {}),
														
 
															+            **vlm_kwargs,
														
 
															         }
														
 
															         vl_rec_results = list(
														
 
															             self.vl_rec_model.predict(
														
@@ -358,6 +362,7 @@ class _PaddleOCRVLPipeline(BasePipeline):
 
															         top_p: Optional[float] = None,
														
 
															         min_pixels: Optional[int] = None,
														
 
															         max_pixels: Optional[int] = None,
														
 
															+        max_new_tokens: Optional[int] = None,
														
 
															         **kwargs,
														
 
															     ) -> PaddleOCRVLResult:
														
 
															         """
														
@@ -376,6 +381,15 @@ class _PaddleOCRVLPipeline(BasePipeline):
 
															                 If it's a tuple of two numbers, then they are used separately for width and height respectively.
														
 
															                 If it's None, then no unclipping will be performed.
														
 
															             layout_merge_bboxes_mode (Optional[str], optional): The mode for merging bounding boxes. Defaults to None.
														
 
															+            use_queues (Optional[bool], optional): Whether to use queues. Defaults to None.
														
 
															+            prompt_label (Optional[Union[str, None]], optional): The label of the prompt in ['ocr', 'formula', 'table', 'chart']. Defaults to None.
														
 
															+            format_block_content (Optional[bool]): Whether to format the block content. Default is None.
														
 
															+            repetition_penalty (Optional[float]): The repetition penalty parameter used for VL model sampling. Default is None.
														
 
															+            temperature (Optional[float]): Temperature parameter used for VL model sampling. Default is None.
														
 
															+            top_p (Optional[float]): Top-p parameter used for VL model sampling. Default is None.
														
 
															+            min_pixels (Optional[int]): The minimum number of pixels allowed when the VL model preprocesses images. Default is None.
														
 
															+            max_pixels (Optional[int]): The maximum number of pixels allowed when the VL model preprocesses images. Default is None.
														
 
															+            max_new_tokens (Optional[int]): The maximum number of new tokens. Default is None.
														
 
															             **kwargs (Any): Additional settings to extend functionality.
														
 
															         Returns:
														
@@ -499,6 +513,7 @@ class _PaddleOCRVLPipeline(BasePipeline):
 
															                         "top_p": top_p,
														
 
															                         "min_pixels": min_pixels,
														
 
															                         "max_pixels": max_pixels,
														
 
															+                        "max_new_tokens": max_new_tokens,
														
 
															                     },
														
 
															                 )
														
 
															             )
														
--- a/paddlex/inference/utils/io/readers.py
+++ b/paddlex/inference/utils/io/readers.py
@@ -267,7 +267,9 @@ class OpenCVImageReaderBackend(_ImageReaderBackend):
 
															     def read_file(self, in_path):
														
 
															         """read image file from path by OpenCV"""
														
 
															-        return cv2.imread(in_path, flags=self.flags)
														
 
															+        with open(in_path, "rb") as f:
														
 
															+            img_array = np.frombuffer(f.read(), np.uint8)
														
 
															+        return cv2.imdecode(img_array, flags=self.flags)
														
 
															 class PILImageReaderBackend(_ImageReaderBackend):
														
--- a/paddlex/inference/utils/misc.py
+++ b/paddlex/inference/utils/misc.py
@@ -12,9 +12,23 @@
 
															 # See the License for the specific language governing permissions and
														
 
															 # limitations under the License.
														
 
															+from ...utils.device import get_default_device, parse_device
														
 
															+from ...utils.env import get_device_type
														
 
															+
														
 
															 def is_mkldnn_available():
														
 
															     # XXX: Not sure if this is the best way to check if MKL-DNN is available
														
 
															     from paddle.inference import Config
														
 
															     return hasattr(Config, "set_mkldnn_cache_capacity")
														
 
															+
														
 
															+
														
 
															+def is_bfloat16_available(device):
														
 
															+    import paddle.amp
														
 
															+
														
 
															+    if device is None:
														
 
															+        device = get_default_device()
														
 
															+    device_type, _ = parse_device(device)
														
 
															+    return (
														
 
															+        "npu" in get_device_type() or paddle.amp.is_bfloat16_supported()
														
 
															+    ) and device_type in ("gpu", "npu", "xpu", "mlu", "dcu")
														
--- a/paddlex/inference/utils/official_models.py
+++ b/paddlex/inference/utils/official_models.py
@@ -432,6 +432,9 @@ class _BaseModelHoster(ABC):
 
															                 f"Using official model ({model_name}), the model files will be automatically downloaded and saved in `{model_dir}`."
														
 
															             )
														
 
															             self._download(model_name, model_dir)
														
 
															+            logging.debug(
														
 
															+                f"`{model_name}` model files has been download from model source: `{self.alias}`!"
														
 
															+            )
														
 
															         if model_name == "PaddleOCR-VL":
														
 
															             vl_model_dir = model_dir / "PaddleOCR-VL-0.9B"
														
@@ -531,7 +534,12 @@ class _AIStudioModelHoster(_BaseModelHoster):
 
															     def _download(self, model_name, save_dir):
														
 
															         def _clone(local_dir):
														
 
															-            aistudio_download(repo_id=f"PaddleX/{model_name}", local_dir=local_dir)
														
 
															+            if model_name == "PaddleOCR-VL":
														
 
															+                aistudio_download(
														
 
															+                    repo_id=f"PaddlePaddle/{model_name}", local_dir=local_dir
														
 
															+                )
														
 
															+            else:
														
 
															+                aistudio_download(repo_id=f"PaddleX/{model_name}", local_dir=local_dir)
														
 
															         if os.path.exists(save_dir):
														
 
															             _clone(save_dir)
														
@@ -586,9 +594,6 @@ Otherwise, only local models can be used."""
 
															             if model_name in hoster.model_list:
														
 
															                 try:
														
 
															                     model_path = hoster.get_model(model_name)
														
 
															-                    logging.debug(
														
 
															-                        f"`{model_name}` model files has been download from model source: `{hoster.alias}`!"
														
 
															-                    )
														
 
															                     return model_path
														
 
															                 except Exception as e:
														
@@ -597,7 +602,7 @@ Otherwise, only local models can be used."""
 
															                             f"Encounter exception when download model from {hoster.alias}. No model source is available! Please check network or use local model files!"
														
 
															                         )
														
 
															                     logging.warning(
														
 
															-                        f"Encountering exception when download model from {hoster.alias}: \n{e}, will try to download from other model sources: `hosters[idx + 1].alias`."
														
 
															+                        f"Encountering exception when download model from {hoster.alias}: \n{e}, will try to download from other model sources: `{hosters[idx + 1].alias}`."
														
 
															                     )
														
 
															                     return self._download_from_hoster(hosters[idx + 1 :], model_name)