3 月之前 · 419448b3b5
--- a/weights/DotsOCR_float16/config.json
+++ b/weights/DotsOCR_float16/config.json
@@ -0,0 +1,54 @@
 
				+{
			
 
				+  "architectures": [
			
 
				+    "DotsOCRForCausalLM"
			
 
				+  ],
			
 
				+  "attention_bias": true,
			
 
				+  "attention_dropout": 0.0,
			
 
				+  "auto_map": {
			
 
				+    "AutoConfig": "configuration_dots.DotsOCRConfig",
			
 
				+    "AutoModelForCausalLM": "modeling_dots_ocr.DotsOCRForCausalLM"
			
 
				+  },
			
 
				+  "hidden_act": "silu",
			
 
				+  "hidden_size": 1536,
			
 
				+  "image_token_id": 151665,
			
 
				+  "initializer_range": 0.02,
			
 
				+  "intermediate_size": 8960,
			
 
				+  "max_position_embeddings": 131072,
			
 
				+  "max_window_layers": 28,
			
 
				+  "model_type": "dots_ocr",
			
 
				+  "num_attention_heads": 12,
			
 
				+  "num_hidden_layers": 28,
			
 
				+  "num_key_value_heads": 2,
			
 
				+  "rms_norm_eps": 1e-06,
			
 
				+  "rope_scaling": null,
			
 
				+  "rope_theta": 1000000,
			
 
				+  "sliding_window": 131072,
			
 
				+  "tie_word_embeddings": false,
			
 
				+  "torch_dtype": "float16",
			
 
				+  "transformers_version": "4.51.3",
			
 
				+  "use_cache": true,
			
 
				+  "use_sliding_window": false,
			
 
				+  "video_token_id": 151656,
			
 
				+  "vision_config": {
			
 
				+    "_attn_implementation_autoset": true,
			
 
				+    "attn_implementation": "flash_attention_2",
			
 
				+    "embed_dim": 1536,
			
 
				+    "gradient_checkpointing": false,
			
 
				+    "hidden_size": 1536,
			
 
				+    "init_merger_std": 0.02,
			
 
				+    "initializer_range": 0.02,
			
 
				+    "intermediate_size": 4224,
			
 
				+    "is_causal": false,
			
 
				+    "model_type": "dots_vit",
			
 
				+    "num_attention_heads": 12,
			
 
				+    "num_channels": 3,
			
 
				+    "num_hidden_layers": 42,
			
 
				+    "patch_size": 14,
			
 
				+    "post_norm": true,
			
 
				+    "rms_norm_eps": 1e-05,
			
 
				+    "spatial_merge_size": 2,
			
 
				+    "temporal_patch_size": 1,
			
 
				+    "use_bias": false
			
 
				+  },
			
 
				+  "vocab_size": 151936
			
 
				+}
			
--- a/weights/DotsOCR_float16/configuration_dots.py
+++ b/weights/DotsOCR_float16/configuration_dots.py
@@ -0,0 +1,76 @@
 
				+from typing import Any, Optional
			
 
				+from transformers.configuration_utils import PretrainedConfig
			
 
				+from transformers.models.qwen2 import Qwen2Config
			
 
				+from transformers import Qwen2_5_VLProcessor, AutoProcessor
			
 
				+from transformers.models.auto.configuration_auto import CONFIG_MAPPING
			
 
				+
			
 
				+
			
 
				+class DotsVisionConfig(PretrainedConfig):
			
 
				+    model_type: str = "dots_vit"
			
 
				+
			
 
				+    def __init__(
			
 
				+        self,
			
 
				+        embed_dim: int = 1536,  # vision encoder embed size
			
 
				+        hidden_size: int = 1536,  # after merger hidden size
			
 
				+        intermediate_size: int = 4224,
			
 
				+        num_hidden_layers: int = 42,
			
 
				+        num_attention_heads: int = 12,
			
 
				+        num_channels: int = 3,
			
 
				+        patch_size: int = 14,
			
 
				+        spatial_merge_size: int = 2,
			
 
				+        temporal_patch_size: int = 1,
			
 
				+        rms_norm_eps: float = 1e-5,
			
 
				+        use_bias: bool = False,
			
 
				+        attn_implementation="flash_attention_2",  # "eager","sdpa","flash_attention_2"
			
 
				+        initializer_range=0.02,
			
 
				+        init_merger_std=0.02,
			
 
				+        is_causal=False,  # ve causal forward
			
 
				+        post_norm=True,
			
 
				+        gradient_checkpointing=False,
			
 
				+        **kwargs: Any,
			
 
				+    ):
			
 
				+        super().__init__(**kwargs)
			
 
				+        self.embed_dim = embed_dim
			
 
				+        self.hidden_size = hidden_size
			
 
				+        self.intermediate_size = intermediate_size
			
 
				+        self.num_hidden_layers = num_hidden_layers
			
 
				+        self.num_attention_heads = num_attention_heads
			
 
				+        self.num_channels = num_channels
			
 
				+        self.patch_size = patch_size
			
 
				+        self.spatial_merge_size = spatial_merge_size
			
 
				+        self.temporal_patch_size = temporal_patch_size
			
 
				+        self.rms_norm_eps = rms_norm_eps
			
 
				+        self.use_bias = use_bias
			
 
				+        self.attn_implementation = attn_implementation
			
 
				+        self.initializer_range = initializer_range
			
 
				+        self.init_merger_std = init_merger_std
			
 
				+        self.is_causal = is_causal
			
 
				+        self.post_norm = post_norm
			
 
				+        self.gradient_checkpointing = gradient_checkpointing
			
 
				+
			
 
				+
			
 
				+
			
 
				+class DotsOCRConfig(Qwen2Config):
			
 
				+    model_type = "dots_ocr"
			
 
				+    def __init__(self, 
			
 
				+        image_token_id = 151665, 
			
 
				+        video_token_id = 151656,
			
 
				+        vision_config: Optional[dict] = None, *args, **kwargs):
			
 
				+        super().__init__(*args, **kwargs)
			
 
				+        self.image_token_id = image_token_id
			
 
				+        self.video_token_id = video_token_id
			
 
				+        self.vision_config = DotsVisionConfig(**(vision_config or {}))
			
 
				+
			
 
				+    def save_pretrained(self, save_directory, **kwargs):
			
 
				+        self._auto_class = None
			
 
				+        super().save_pretrained(save_directory, **kwargs)
			
 
				+
			
 
				+
			
 
				+class DotsVLProcessor(Qwen2_5_VLProcessor):
			
 
				+    def __init__(self, image_processor=None, tokenizer=None, chat_template=None, **kwargs):
			
 
				+        super().__init__(image_processor, tokenizer, chat_template=chat_template)
			
 
				+        self.image_token = "<|imgpad|>" if not hasattr(tokenizer, "image_token") else tokenizer.image_token
			
 
				+
			
 
				+
			
 
				+AutoProcessor.register("dots_ocr", DotsVLProcessor)
			
 
				+CONFIG_MAPPING.register("dots_ocr", DotsOCRConfig)
			
--- a/weights/DotsOCR_float16/modeling_dots_ocr.py
+++ b/weights/DotsOCR_float16/modeling_dots_ocr.py
@@ -0,0 +1,131 @@
 
				+from typing import List, Optional, Tuple, Union
			
 
				+
			
 
				+import torch
			
 
				+from transformers.modeling_outputs import CausalLMOutputWithPast
			
 
				+from transformers.models.qwen2 import Qwen2ForCausalLM
			
 
				+
			
 
				+from .configuration_dots import DotsVisionConfig, DotsOCRConfig
			
 
				+from .modeling_dots_vision import DotsVisionTransformer
			
 
				+
			
 
				+
			
 
				+DOTS_VLM_MAX_IMAGES = 200
			
 
				+
			
 
				+
			
 
				+class DotsOCRForCausalLM(Qwen2ForCausalLM):
			
 
				+    config_class = DotsOCRConfig
			
 
				+
			
 
				+    def __init__(self, config: DotsOCRConfig):
			
 
				+        super().__init__(config)
			
 
				+
			
 
				+        if isinstance(self.config.vision_config, dict):
			
 
				+            vision_config = DotsVisionConfig(**self.config.vision_config)
			
 
				+            self.config.vision_config = vision_config
			
 
				+        else:
			
 
				+            vision_config = self.config.vision_config
			
 
				+
			
 
				+        self.vision_tower = DotsVisionTransformer(vision_config)
			
 
				+
			
 
				+    def prepare_inputs_embeds(
			
 
				+        self,
			
 
				+        input_ids: torch.LongTensor,
			
 
				+        pixel_values: Optional[torch.FloatTensor] = None,
			
 
				+        grid_thw: Optional[torch.FloatTensor] = None,
			
 
				+        img_mask: Optional[torch.BoolTensor] = None,
			
 
				+    ) -> torch.Tensor:
			
 
				+        inputs_embeds = self.get_input_embeddings()(input_ids)
			
 
				+
			
 
				+        if pixel_values is not None:
			
 
				+            assert img_mask is not None
			
 
				+            if grid_thw.shape[0] > DOTS_VLM_MAX_IMAGES:
			
 
				+                print(
			
 
				+                    f"Num image exceeded: {grid_thw.shape[0]} > {DOTS_VLM_MAX_IMAGES}, which may cause FSDP hang"
			
 
				+                )
			
 
				+
			
 
				+            vision_embeddings = self.vision_tower(pixel_values, grid_thw)
			
 
				+
			
 
				+            true_indices = torch.nonzero(img_mask).squeeze()
			
 
				+            if len(true_indices) > vision_embeddings.size(0):
			
 
				+                print(
			
 
				+                    f"img_mask sum > VE and will be truncated, mask.sum()={len(true_indices)} {vision_embeddings.size(0)=}"
			
 
				+                )
			
 
				+                true_indices = true_indices[: vision_embeddings.size(0)]
			
 
				+                new_img_mask = torch.zeros_like(img_mask, device=img_mask.device)
			
 
				+                new_img_mask[true_indices[:, 0], true_indices[:, 1]] = True
			
 
				+            else:
			
 
				+                new_img_mask = img_mask
			
 
				+
			
 
				+            assert (
			
 
				+                vision_embeddings.size(0) == new_img_mask.sum()
			
 
				+            ), f"{vision_embeddings.size(0)=}, {new_img_mask.sum()=}"
			
 
				+
			
 
				+            inputs_embeds = inputs_embeds.masked_scatter(
			
 
				+                new_img_mask.to(inputs_embeds.device).unsqueeze(-1).expand_as(inputs_embeds),
			
 
				+                vision_embeddings.to(inputs_embeds.device).type(inputs_embeds.dtype),
			
 
				+            )
			
 
				+
			
 
				+        return inputs_embeds
			
 
				+
			
 
				+    def forward(
			
 
				+        self,
			
 
				+        input_ids: torch.LongTensor,
			
 
				+        pixel_values: Optional[torch.FloatTensor] = None,
			
 
				+        image_grid_thw: Optional[torch.FloatTensor] = None,
			
 
				+        inputs_embeds: Optional[torch.Tensor] = None,
			
 
				+        attention_mask: Optional[torch.Tensor] = None,
			
 
				+        position_ids: Optional[torch.LongTensor] = None,
			
 
				+        past_key_values: Optional[List[torch.FloatTensor]] = None,
			
 
				+        labels: Optional[torch.LongTensor] = None,
			
 
				+        output_attentions: Optional[bool] = None,
			
 
				+        output_hidden_states: Optional[bool] = None,
			
 
				+        return_dict: Optional[bool] = None,
			
 
				+        use_cache: Optional[bool] = None,
			
 
				+        logits_to_keep: int = 0,
			
 
				+        **loss_kwargs,
			
 
				+    ) -> Union[Tuple, CausalLMOutputWithPast]:
			
 
				+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
			
 
				+        assert len(input_ids) >= 1, f"empty input_ids {input_ids.shape=} will cause gradnorm nan"
			
 
				+        if inputs_embeds is None:
			
 
				+            img_mask = input_ids == self.config.image_token_id
			
 
				+            inputs_embeds = self.prepare_inputs_embeds(input_ids, pixel_values, image_grid_thw, img_mask)
			
 
				+
			
 
				+        outputs = super().forward(
			
 
				+            inputs_embeds=inputs_embeds,
			
 
				+            attention_mask=attention_mask,
			
 
				+            position_ids=position_ids,
			
 
				+            past_key_values=past_key_values,
			
 
				+            labels=labels,
			
 
				+            use_cache=use_cache if use_cache is not None else self.config.use_cache,
			
 
				+            output_attentions=output_attentions,
			
 
				+            output_hidden_states=output_hidden_states,
			
 
				+            # return_dict=return_dict,
			
 
				+            logits_to_keep=logits_to_keep,
			
 
				+            **loss_kwargs,
			
 
				+        )
			
 
				+
			
 
				+        return outputs
			
 
				+
			
 
				+    def prepare_inputs_for_generation(
			
 
				+        self,
			
 
				+        input_ids,
			
 
				+        past_key_values=None,
			
 
				+        inputs_embeds=None,
			
 
				+        pixel_values=None,
			
 
				+        attention_mask=None,
			
 
				+        cache_position=None,
			
 
				+        num_logits_to_keep=None,
			
 
				+        **kwargs,
			
 
				+    ):
			
 
				+        model_inputs = super().prepare_inputs_for_generation(
			
 
				+            input_ids,
			
 
				+            past_key_values=past_key_values,
			
 
				+            inputs_embeds=inputs_embeds,
			
 
				+            attention_mask=attention_mask,
			
 
				+            cache_position=cache_position,
			
 
				+            num_logits_to_keep=num_logits_to_keep,
			
 
				+            **kwargs,
			
 
				+        )
			
 
				+
			
 
				+        if cache_position[0] == 0:
			
 
				+            model_inputs["pixel_values"] = pixel_values
			
 
				+
			
 
				+        return model_inputs
			
--- a/weights/DotsOCR_float16/modeling_dots_ocr_vllm.py
+++ b/weights/DotsOCR_float16/modeling_dots_ocr_vllm.py
@@ -0,0 +1,429 @@
 
				+from functools import cached_property
			
 
				+from typing import Iterable, Literal, Mapping, Optional, Set, Tuple, TypedDict, Union
			
 
				+
			
 
				+import torch
			
 
				+import torch.nn as nn
			
 
				+from transformers.models.qwen2_vl import Qwen2VLImageProcessor, Qwen2VLProcessor
			
 
				+from transformers.models.qwen2_vl.image_processing_qwen2_vl import smart_resize
			
 
				+from vllm import ModelRegistry
			
 
				+from vllm.config import VllmConfig
			
 
				+from vllm.model_executor.layers.sampler import SamplerOutput, get_sampler
			
 
				+from vllm.model_executor.models.interfaces import MultiModalEmbeddings, SupportsMultiModal
			
 
				+from vllm.model_executor.models.qwen2 import Qwen2ForCausalLM
			
 
				+from vllm.model_executor.models.qwen2_5_vl import (
			
 
				+    Qwen2_5_VLMultiModalProcessor,
			
 
				+    Qwen2_5_VLProcessingInfo,
			
 
				+)
			
 
				+from vllm.model_executor.models.qwen2_vl import Qwen2VLDummyInputsBuilder
			
 
				+from vllm.model_executor.models.utils import (
			
 
				+    AutoWeightsLoader,
			
 
				+    WeightsMapper,
			
 
				+    init_vllm_registered_model,
			
 
				+    maybe_prefix,
			
 
				+    merge_multimodal_embeddings,
			
 
				+)
			
 
				+from vllm.model_executor.sampling_metadata import SamplingMetadata
			
 
				+from vllm.multimodal import MULTIMODAL_REGISTRY
			
 
				+from vllm.multimodal.inputs import MultiModalDataDict
			
 
				+from vllm.multimodal.parse import ImageSize
			
 
				+from vllm.sequence import IntermediateTensors
			
 
				+
			
 
				+from .configuration_dots import DotsVisionConfig
			
 
				+from .configuration_dots import DotsOCRConfig
			
 
				+from .modeling_dots_vision import DotsVisionTransformer
			
 
				+
			
 
				+
			
 
				+class DotsOCRImagePixelInputs(TypedDict):
			
 
				+    type: Literal["pixel_values", "image_grid_thw"]
			
 
				+
			
 
				+    pixel_values: torch.Tensor
			
 
				+    image_grid_thw: torch.Tensor
			
 
				+
			
 
				+
			
 
				+class DotsOCRImageEmbeddingInputs(TypedDict):
			
 
				+    type: Literal["image_embeds", "image_grid_thw"]
			
 
				+    image_embeds: torch.Tensor
			
 
				+    """Supported types:
			
 
				+    - List[`torch.Tensor`]: A list of tensors holding all images' features.
			
 
				+        Each tensor holds an image's features.
			
 
				+    - `torch.Tensor`: A tensor holding all images' features
			
 
				+        (concatenation of all images' feature tensors).
			
 
				+
			
 
				+    Tensor shape: `(num_image_features, hidden_size)`
			
 
				+    - `num_image_features` varies based on
			
 
				+        the number and resolution of the images.
			
 
				+    - `hidden_size` must match the hidden size of language model backbone.
			
 
				+    """
			
 
				+
			
 
				+    image_grid_thw: torch.Tensor
			
 
				+
			
 
				+
			
 
				+DotsOCRImageInputs = Union[DotsOCRImagePixelInputs, DotsOCRImageEmbeddingInputs]
			
 
				+
			
 
				+
			
 
				+class DotsOCRMultiModalProcessor(Qwen2_5_VLMultiModalProcessor):
			
 
				+    pass
			
 
				+
			
 
				+
			
 
				+class DotsOCRDummyInputsBuilder(Qwen2VLDummyInputsBuilder):
			
 
				+    def get_dummy_mm_data(
			
 
				+        self,
			
 
				+        seq_len: int,
			
 
				+        mm_counts: Mapping[str, int],
			
 
				+    ) -> MultiModalDataDict:
			
 
				+        num_images = mm_counts.get("image", 0)
			
 
				+
			
 
				+        target_width, target_height = self.info.get_image_size_with_most_features()
			
 
				+
			
 
				+        return {
			
 
				+            "image": self._get_dummy_images(width=target_width, height=target_height, num_images=num_images),
			
 
				+        }
			
 
				+
			
 
				+
			
 
				+class DotsOCRProcessingInfo(Qwen2_5_VLProcessingInfo):
			
 
				+    def get_hf_config(self) -> DotsOCRConfig:
			
 
				+        config = self.ctx.get_hf_config()
			
 
				+        if not config.__class__.__name__ == 'DotsOCRConfig':
			
 
				+            raise TypeError(f"Expected DotsOCRConfig, got {type(config)}")
			
 
				+
			
 
				+        if hasattr(config, "vision_config") and isinstance(config.vision_config, dict):
			
 
				+            config.vision_config = DotsVisionConfig(**config.vision_config)
			
 
				+            
			
 
				+        return config
			
 
				+
			
 
				+    def get_hf_processor(
			
 
				+        self,
			
 
				+        *,
			
 
				+        min_pixels: Optional[int] = None,
			
 
				+        max_pixels: Optional[int] = None,
			
 
				+        size: Optional[dict[str, int]] = None,
			
 
				+        **kwargs: object,
			
 
				+    ) -> Qwen2VLProcessor:
			
 
				+        processor = self.ctx.get_hf_processor(
			
 
				+            Qwen2VLProcessor,
			
 
				+            image_processor=self.get_image_processor(min_pixels=min_pixels, max_pixels=max_pixels, size=size),
			
 
				+            **kwargs,
			
 
				+        )
			
 
				+        processor.image_token = "<|imgpad|>"
			
 
				+        processor.video_token = "<|video_pad|>"
			
 
				+        return processor
			
 
				+
			
 
				+    def _get_vision_info(
			
 
				+        self,
			
 
				+        *,
			
 
				+        image_width: int,
			
 
				+        image_height: int,
			
 
				+        num_frames: int = 1,
			
 
				+        do_resize: bool = True,
			
 
				+        image_processor: Optional[Qwen2VLImageProcessor],
			
 
				+    ) -> tuple[ImageSize, int]:
			
 
				+        if image_processor is None:
			
 
				+            image_processor = self.get_image_processor()
			
 
				+
			
 
				+        hf_config: DotsOCRConfig = self.get_hf_config()
			
 
				+        vision_config = hf_config.vision_config
			
 
				+        patch_size = vision_config.patch_size
			
 
				+        merge_size = vision_config.spatial_merge_size
			
 
				+        temporal_patch_size = vision_config.temporal_patch_size
			
 
				+
			
 
				+        if do_resize:
			
 
				+            resized_height, resized_width = smart_resize(
			
 
				+                height=image_height,
			
 
				+                width=image_width,
			
 
				+                factor=patch_size * merge_size,
			
 
				+                min_pixels=image_processor.min_pixels,
			
 
				+                max_pixels=image_processor.max_pixels,
			
 
				+            )
			
 
				+            preprocessed_size = ImageSize(width=resized_width, height=resized_height)
			
 
				+        else:
			
 
				+            preprocessed_size = ImageSize(width=image_width, height=image_height)
			
 
				+
			
 
				+        # NOTE: Frames are padded to be divisible by `temporal_patch_size`
			
 
				+        # https://github.com/huggingface/transformers/blob/v4.48.3/src/transformers/models/qwen2_vl/image_processing_qwen2_vl.py#L294
			
 
				+        padded_num_frames = num_frames + num_frames % temporal_patch_size
			
 
				+
			
 
				+        grid_t = max(padded_num_frames // temporal_patch_size, 1)
			
 
				+        grid_h = preprocessed_size.height // patch_size
			
 
				+        grid_w = preprocessed_size.width // patch_size
			
 
				+
			
 
				+        num_patches = grid_t * grid_h * grid_w
			
 
				+        num_vision_tokens = num_patches // (merge_size**2)
			
 
				+
			
 
				+        return preprocessed_size, num_vision_tokens
			
 
				+
			
 
				+
			
 
				+@MULTIMODAL_REGISTRY.register_processor(
			
 
				+    Qwen2_5_VLMultiModalProcessor,
			
 
				+    info=DotsOCRProcessingInfo,
			
 
				+    dummy_inputs=DotsOCRDummyInputsBuilder,
			
 
				+)
			
 
				+class DotsOCRForCausalLM(nn.Module, SupportsMultiModal):
			
 
				+    hf_to_vllm_mapper = WeightsMapper(
			
 
				+        orig_to_new_prefix={
			
 
				+            "lm_head.": "language_model.lm_head.",
			
 
				+            "model.": "language_model.model.",
			
 
				+        }
			
 
				+    )
			
 
				+    _tp_plan = {}
			
 
				+
			
 
				+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
			
 
				+        super().__init__()
			
 
				+
			
 
				+        self.config: DotsOCRConfig = vllm_config.model_config.hf_config
			
 
				+        self.quant_config = vllm_config.quant_config
			
 
				+        self.multimodal_config = vllm_config.model_config.multimodal_config
			
 
				+
			
 
				+        if isinstance(self.config.vision_config, dict):
			
 
				+            vision_config = DotsVisionConfig(**self.config.vision_config)
			
 
				+            self.config.vision_config = vision_config
			
 
				+        else:
			
 
				+            vision_config = self.config.vision_config
			
 
				+
			
 
				+        self.vision_tower = DotsVisionTransformer(vision_config)
			
 
				+        self.language_model: Qwen2ForCausalLM = init_vllm_registered_model(
			
 
				+            vllm_config=vllm_config,
			
 
				+            hf_config=self.config,
			
 
				+            prefix=maybe_prefix(prefix, "language_model"),
			
 
				+            architectures=["Qwen2ForCausalLM"],
			
 
				+        )
			
 
				+
			
 
				+    @cached_property
			
 
				+    def sampler(self):
			
 
				+        if hasattr(self.language_model, "sampler"):
			
 
				+            return self.language_model.sampler
			
 
				+
			
 
				+        return get_sampler()
			
 
				+
			
 
				+    def _validate_and_reshape_mm_tensor(self, mm_input: object, name: str) -> torch.Tensor:
			
 
				+        if not isinstance(mm_input, (torch.Tensor, list)):
			
 
				+            raise ValueError(f"Incorrect type of {name}. " f"Got type: {type(mm_input)}")
			
 
				+        if isinstance(mm_input, torch.Tensor):
			
 
				+            if mm_input.ndim == 2:
			
 
				+                return mm_input
			
 
				+            if mm_input.ndim != 3:
			
 
				+                raise ValueError(
			
 
				+                    f"{name} should be 2D or batched 3D tensor. "
			
 
				+                    f"Got ndim: {mm_input.ndim} "
			
 
				+                    f"(shape={mm_input.shape})"
			
 
				+                )
			
 
				+            return torch.concat(list(mm_input))
			
 
				+        else:
			
 
				+            return torch.concat(mm_input)
			
 
				+
			
 
				+    def _parse_and_validate_image_input(self, **kwargs: object) -> Optional[DotsOCRImageInputs]:
			
 
				+        pixel_values = kwargs.pop("pixel_values", None)
			
 
				+        image_embeds = kwargs.pop("image_embeds", None)
			
 
				+        image_grid_thw = kwargs.pop("image_grid_thw", None)
			
 
				+
			
 
				+        if pixel_values is None and image_embeds is None:
			
 
				+            return None
			
 
				+
			
 
				+        if pixel_values is not None:
			
 
				+            pixel_values = self._validate_and_reshape_mm_tensor(pixel_values, "image pixel values")
			
 
				+            image_grid_thw = self._validate_and_reshape_mm_tensor(image_grid_thw, "image grid_thw")
			
 
				+
			
 
				+            if not isinstance(pixel_values, (torch.Tensor, list)):
			
 
				+                raise ValueError("Incorrect type of image pixel values. " f"Got type: {type(pixel_values)}")
			
 
				+
			
 
				+            return DotsOCRImagePixelInputs(
			
 
				+                type="pixel_values", pixel_values=pixel_values, image_grid_thw=image_grid_thw
			
 
				+            )
			
 
				+
			
 
				+        if image_embeds is not None:
			
 
				+            image_embeds = self._validate_and_reshape_mm_tensor(image_embeds, "image embeds")
			
 
				+            image_grid_thw = self._validate_and_reshape_mm_tensor(image_grid_thw, "image grid_thw")
			
 
				+
			
 
				+            if not isinstance(image_embeds, torch.Tensor):
			
 
				+                raise ValueError("Incorrect type of image embeddings. " f"Got type: {type(image_embeds)}")
			
 
				+            return DotsOCRImageEmbeddingInputs(
			
 
				+                type="image_embeds", image_embeds=image_embeds, image_grid_thw=image_grid_thw
			
 
				+            )
			
 
				+
			
 
				+    def vision_forward(self, pixel_values: torch.Tensor, image_grid_thw: torch.Tensor):
			
 
				+        from vllm.distributed import (
			
 
				+            get_tensor_model_parallel_group,
			
 
				+            get_tensor_model_parallel_rank,
			
 
				+            get_tensor_model_parallel_world_size,
			
 
				+        )
			
 
				+
			
 
				+        assert self.vision_tower is not None
			
 
				+
			
 
				+        tp_rank = get_tensor_model_parallel_rank()
			
 
				+        tp = get_tensor_model_parallel_world_size()
			
 
				+
			
 
				+        image_grid_thw_chunk = image_grid_thw.chunk(tp)
			
 
				+        image_sizes_consum = torch.tensor([i.prod(-1).sum() for i in image_grid_thw_chunk]).cumsum(dim=0)
			
 
				+        merge_size_square = self.vision_tower.config.spatial_merge_size**2
			
 
				+        image_embedding = torch.zeros(
			
 
				+            (
			
 
				+                pixel_values.shape[0] // merge_size_square,
			
 
				+                self.vision_tower.config.hidden_size,
			
 
				+            ),
			
 
				+            device=pixel_values.device,
			
 
				+            dtype=pixel_values.dtype,
			
 
				+        )
			
 
				+
			
 
				+        if tp_rank < len(image_sizes_consum):
			
 
				+            idx_start = 0 if tp_rank == 0 else image_sizes_consum[tp_rank - 1].item()
			
 
				+            idx_end = image_sizes_consum[tp_rank].item()
			
 
				+            pixel_values_part = pixel_values[idx_start:idx_end]
			
 
				+            image_grid_thw_part = image_grid_thw_chunk[tp_rank]
			
 
				+            image_embedding_part = self.vision_tower(pixel_values_part, image_grid_thw_part)
			
 
				+            image_embedding[idx_start // merge_size_square : idx_end // merge_size_square] = image_embedding_part
			
 
				+
			
 
				+        group = get_tensor_model_parallel_group().device_group
			
 
				+        torch.distributed.all_reduce(image_embedding, group=group)
			
 
				+        return image_embedding
			
 
				+
			
 
				+    def _process_image_input(self, image_input: DotsOCRImageInputs) -> tuple[torch.Tensor, ...]:
			
 
				+        grid_thw = image_input["image_grid_thw"]
			
 
				+        assert grid_thw.ndim == 2
			
 
				+
			
 
				+        if image_input["type"] == "image_embeds":
			
 
				+            image_embeds = image_input["image_embeds"].type(self.vision_tower.dtype)
			
 
				+        else:
			
 
				+            pixel_values = image_input["pixel_values"].type(self.vision_tower.dtype)
			
 
				+            image_embeds = self.vision_forward(pixel_values, grid_thw)[
			
 
				+                :, : self.config.hidden_size
			
 
				+            ]
			
 
				+
			
 
				+        # Split concatenated embeddings for each image item.
			
 
				+        merge_size = self.vision_tower.config.spatial_merge_size
			
 
				+        sizes = grid_thw.prod(-1) // merge_size // merge_size
			
 
				+
			
 
				+        return image_embeds.split(sizes.tolist())
			
 
				+
			
 
				+    def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
			
 
				+        modalities = {}
			
 
				+
			
 
				+        # Preserve the order of modalities if there are multiple of them
			
 
				+        # from the order of kwargs.
			
 
				+        for input_key in kwargs:
			
 
				+            if input_key in ("pixel_values", "image_embeds") and "images" not in modalities:
			
 
				+                modalities["images"] = self._parse_and_validate_image_input(**kwargs)
			
 
				+        return modalities
			
 
				+
			
 
				+    def get_language_model(self) -> torch.nn.Module:
			
 
				+        return self.language_model
			
 
				+
			
 
				+    def get_multimodal_embeddings(self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
			
 
				+        modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
			
 
				+        if not modalities:
			
 
				+            return None
			
 
				+
			
 
				+        # The result multimodal_embeddings is tuple of tensors, with each
			
 
				+        # tensor correspoending to a multimodal data item (image or video).
			
 
				+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
			
 
				+
			
 
				+        # NOTE: It is important to iterate over the keys in this dictionary
			
 
				+        # to preserve the order of the modalities.
			
 
				+        for modality in modalities:
			
 
				+            if modality == "images":
			
 
				+                image_input = modalities["images"]
			
 
				+                vision_embeddings = self._process_image_input(image_input)
			
 
				+                multimodal_embeddings += vision_embeddings
			
 
				+
			
 
				+        return multimodal_embeddings
			
 
				+
			
 
				+    def get_input_embeddings(
			
 
				+        self,
			
 
				+        input_ids: torch.Tensor,
			
 
				+        multimodal_embeddings: Optional[MultiModalEmbeddings] = None,
			
 
				+    ) -> torch.Tensor:
			
 
				+        inputs_embeds = self.language_model.get_input_embeddings(input_ids)
			
 
				+        if multimodal_embeddings is not None:
			
 
				+            inputs_embeds = merge_multimodal_embeddings(
			
 
				+                input_ids,
			
 
				+                inputs_embeds,
			
 
				+                multimodal_embeddings,
			
 
				+                [self.config.image_token_id, self.config.video_token_id],
			
 
				+            )
			
 
				+
			
 
				+        return inputs_embeds
			
 
				+
			
 
				+    def get_input_embeddings_v0(
			
 
				+        self,
			
 
				+        input_ids: torch.Tensor,
			
 
				+        image_input: Optional[DotsOCRImagePixelInputs] = None,
			
 
				+    ) -> torch.Tensor:
			
 
				+        inputs_embeds = self.get_input_embeddings(input_ids)
			
 
				+        if image_input is not None:
			
 
				+            image_embeds = self._process_image_input(image_input)
			
 
				+            inputs_embeds = merge_multimodal_embeddings(
			
 
				+                input_ids,
			
 
				+                inputs_embeds,
			
 
				+                image_embeds,
			
 
				+                placeholder_token_id=self.config.image_token_id,
			
 
				+            )
			
 
				+        return inputs_embeds
			
 
				+
			
 
				+    def forward(
			
 
				+        self,
			
 
				+        input_ids: Optional[torch.Tensor],
			
 
				+        positions: torch.Tensor,
			
 
				+        intermediate_tensors: Optional[IntermediateTensors] = None,
			
 
				+        inputs_embeds: Optional[torch.Tensor] = None,
			
 
				+        **kwargs,
			
 
				+    ) -> Union[torch.Tensor, IntermediateTensors]:
			
 
				+        if intermediate_tensors is not None:
			
 
				+            inputs_embeds = None
			
 
				+        elif inputs_embeds is None and kwargs.get("pixel_values") is not None:
			
 
				+            image_input = self._parse_and_validate_image_input(**kwargs)
			
 
				+            if image_input is None:
			
 
				+                inputs_embeds = None
			
 
				+            else:
			
 
				+                assert input_ids is not None
			
 
				+                inputs_embeds = self.get_input_embeddings_v0(
			
 
				+                    input_ids,
			
 
				+                    image_input=image_input,
			
 
				+                )
			
 
				+                input_ids = None
			
 
				+
			
 
				+        hidden_states = self.language_model(
			
 
				+            input_ids=input_ids,
			
 
				+            positions=positions,
			
 
				+            intermediate_tensors=intermediate_tensors,
			
 
				+            inputs_embeds=inputs_embeds,
			
 
				+        )
			
 
				+
			
 
				+        return hidden_states
			
 
				+
			
 
				+    def compute_logits(
			
 
				+        self,
			
 
				+        hidden_states: torch.Tensor,
			
 
				+        sampling_metadata: SamplingMetadata,
			
 
				+    ) -> Optional[torch.Tensor]:
			
 
				+        return self.language_model.compute_logits(hidden_states, sampling_metadata)
			
 
				+
			
 
				+    def sample(
			
 
				+        self,
			
 
				+        logits: Optional[torch.Tensor],
			
 
				+        sampling_metadata: SamplingMetadata,
			
 
				+    ) -> Optional[SamplerOutput]:
			
 
				+        next_tokens = self.sampler(logits, sampling_metadata)
			
 
				+        return next_tokens
			
 
				+
			
 
				+    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]) -> Set[str]:
			
 
				+        loader = AutoWeightsLoader(self)
			
 
				+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
			
 
				+
			
 
				+
			
 
				+def patch_vllm_chat_placeholder():
			
 
				+    from vllm.entrypoints.chat_utils import BaseMultiModalItemTracker
			
 
				+
			
 
				+    ori = BaseMultiModalItemTracker._placeholder_str
			
 
				+
			
 
				+    def _placeholder_str(self, modality, current_count: int) -> Optional[str]:
			
 
				+        hf_config = self._model_config.hf_config
			
 
				+        model_type = hf_config.model_type
			
 
				+        if modality in ("image",) and model_type in ["dots_ocr"]:
			
 
				+            return "<|img|><|imgpad|><|endofimg|>"
			
 
				+        return ori(self, modality, current_count)
			
 
				+
			
 
				+    BaseMultiModalItemTracker._placeholder_str = _placeholder_str
			
 
				+
			
 
				+ModelRegistry.register_model(
			
 
				+    "DotsOCRForCausalLM", DotsOCRForCausalLM,
			
 
				+)
			
 
				+
			
 
				+patch_vllm_chat_placeholder()
			
--- a/weights/DotsOCR_float16/modeling_dots_vision.py
+++ b/weights/DotsOCR_float16/modeling_dots_vision.py
@@ -0,0 +1,456 @@
 
				+import math
			
 
				+
			
 
				+import torch
			
 
				+import torch.nn as nn
			
 
				+import torch.nn.functional as F
			
 
				+import torch.utils.checkpoint
			
 
				+try:
			
 
				+    from flash_attn import flash_attn_varlen_func
			
 
				+    HAS_FLASH_ATTN = True
			
 
				+except ImportError:
			
 
				+    HAS_FLASH_ATTN = False
			
 
				+    def flash_attn_varlen_func(q, k, v, cu_seqlens_q, cu_seqlens_k, max_seqlen_q, max_seqlen_k, causal=False, **kwargs):
			
 
				+        """
			
 
				+        Float16 optimized fallback implementation for flash_attn_varlen_func.
			
 
				+        Optimized for Apple Silicon MPS.
			
 
				+        """
			
 
				+        print("Flash Attention not available. Using float16 MPS-optimized fallback.")
			
 
				+        
			
 
				+        # q, k, v shapes: (total_seq_len, num_heads, head_dim)
			
 
				+        batch_size = len(cu_seqlens_q) - 1
			
 
				+        outputs = []
			
 
				+        
			
 
				+        for i in range(batch_size):
			
 
				+            start_q = cu_seqlens_q[i]
			
 
				+            end_q = cu_seqlens_q[i + 1]
			
 
				+            start_k = cu_seqlens_k[i] 
			
 
				+            end_k = cu_seqlens_k[i + 1]
			
 
				+            
			
 
				+            q_seq = q[start_q:end_q]  # (seq_len_q, num_heads, head_dim)
			
 
				+            k_seq = k[start_k:end_k]  # (seq_len_k, num_heads, head_dim)
			
 
				+            v_seq = v[start_k:end_k]  # (seq_len_k, num_heads, head_dim)
			
 
				+            
			
 
				+            # Transpose for standard attention: (num_heads, seq_len, head_dim)
			
 
				+            q_seq = q_seq.transpose(0, 1)
			
 
				+            k_seq = k_seq.transpose(0, 1)
			
 
				+            v_seq = v_seq.transpose(0, 1)
			
 
				+            
			
 
				+            # Standard scaled dot-product attention with float16 optimization
			
 
				+            scores = torch.matmul(q_seq, k_seq.transpose(-2, -1)) / math.sqrt(q_seq.size(-1))
			
 
				+            
			
 
				+            # Apply causal mask if needed
			
 
				+            if causal and q_seq.size(1) > 1:
			
 
				+                seq_len = q_seq.size(1)
			
 
				+                causal_mask = torch.triu(torch.ones(seq_len, seq_len, device=q.device, dtype=q.dtype), diagonal=1).bool()
			
 
				+                scores.masked_fill_(causal_mask, float('-inf'))
			
 
				+            
			
 
				+            # Use float32 for softmax stability, then convert back to float16
			
 
				+            attn_weights = F.softmax(scores.float(), dim=-1).to(q.dtype)
			
 
				+            attn_output = torch.matmul(attn_weights, v_seq)
			
 
				+            
			
 
				+            # Transpose back: (seq_len, num_heads, head_dim)
			
 
				+            attn_output = attn_output.transpose(0, 1)
			
 
				+            outputs.append(attn_output)
			
 
				+        
			
 
				+        # Concatenate all sequences
			
 
				+        return torch.cat(outputs, dim=0)
			
 
				+from torch.nn import LayerNorm
			
 
				+from transformers.modeling_utils import PreTrainedModel
			
 
				+from .configuration_dots import DotsVisionConfig
			
 
				+
			
 
				+
			
 
				+def rotate_half(x):
			
 
				+    """Rotates half the hidden dims of the input."""
			
 
				+    x1 = x[..., : x.shape[-1] // 2]
			
 
				+    x2 = x[..., x.shape[-1] // 2 :]
			
 
				+    return torch.cat((-x2, x1), dim=-1)
			
 
				+
			
 
				+
			
 
				+def apply_rotary_pos_emb_vision(tensor: torch.Tensor, freqs: torch.Tensor) -> torch.Tensor:
			
 
				+    orig_dtype = tensor.dtype
			
 
				+    # For float16, use float32 for computation stability
			
 
				+    tensor = tensor.float()
			
 
				+
			
 
				+    cos = freqs.cos()
			
 
				+    sin = freqs.sin()
			
 
				+
			
 
				+    cos = cos.unsqueeze(1).repeat(1, 1, 2).unsqueeze(0).float()
			
 
				+    sin = sin.unsqueeze(1).repeat(1, 1, 2).unsqueeze(0).float()
			
 
				+
			
 
				+    output = (tensor * cos) + (rotate_half(tensor) * sin)
			
 
				+
			
 
				+    # Convert back to original dtype (float16 for MPS efficiency)
			
 
				+    output = output.to(orig_dtype)
			
 
				+
			
 
				+    return output
			
 
				+
			
 
				+
			
 
				+class VisionRotaryEmbedding(nn.Module):
			
 
				+    def __init__(self, dim: int, theta: float = 10000.0) -> None:
			
 
				+        super().__init__()
			
 
				+        inv_freq = 1.0 / (theta ** (torch.arange(0, dim, 2, dtype=torch.float) / dim))
			
 
				+        self.register_buffer("inv_freq", inv_freq, persistent=False)
			
 
				+
			
 
				+    def forward(self, seqlen: int) -> torch.Tensor:
			
 
				+        seq = torch.arange(seqlen, device=self.inv_freq.device, dtype=self.inv_freq.dtype)
			
 
				+        freqs = torch.outer(seq, self.inv_freq)
			
 
				+        return freqs
			
 
				+
			
 
				+
			
 
				+class PatchMerger(nn.Module):
			
 
				+    def __init__(
			
 
				+        self,
			
 
				+        dim: int,
			
 
				+        context_dim: int,
			
 
				+        spatial_merge_size: int = 2,
			
 
				+        pre_norm="layernorm",
			
 
				+        init_merger_std=None,
			
 
				+    ) -> None:
			
 
				+        super().__init__()
			
 
				+        self.hidden_size = context_dim * (spatial_merge_size**2)
			
 
				+        self.pre_norm = pre_norm
			
 
				+        if self.pre_norm == "layernorm":
			
 
				+            self.ln_q = LayerNorm(context_dim, eps=1e-6)
			
 
				+        elif self.pre_norm == "rmsnorm":
			
 
				+            self.ln_q = RMSNorm(context_dim, eps=1e-6)
			
 
				+        else:
			
 
				+            print("no norm in patch merger")
			
 
				+
			
 
				+        self.mlp = nn.Sequential(
			
 
				+            nn.Linear(self.hidden_size, self.hidden_size),
			
 
				+            nn.GELU(),
			
 
				+            nn.Linear(self.hidden_size, dim),
			
 
				+        )
			
 
				+
			
 
				+        if init_merger_std is not None:
			
 
				+            nn.init.normal_(self.mlp[0].weight, mean=0.0, std=init_merger_std)
			
 
				+            nn.init.zeros_(self.mlp[0].bias)
			
 
				+            nn.init.normal_(self.mlp[2].weight, mean=0.0, std=init_merger_std)
			
 
				+            nn.init.zeros_(self.mlp[2].bias)
			
 
				+
			
 
				+    def forward(self, x: torch.Tensor) -> torch.Tensor:
			
 
				+        if self.pre_norm:
			
 
				+            x = self.mlp(self.ln_q(x).view(-1, self.hidden_size))
			
 
				+        else:
			
 
				+            x = self.mlp(x.view(-1, self.hidden_size))
			
 
				+        return x
			
 
				+
			
 
				+
			
 
				+class VisionAttention(nn.Module):
			
 
				+    def __init__(self, config, dim: int, num_heads: int = 16, bias=True) -> None:
			
 
				+        super().__init__()
			
 
				+        self.num_heads = num_heads
			
 
				+        self.head_dim = dim // num_heads
			
 
				+        self.qkv = nn.Linear(dim, dim * 3, bias=bias)
			
 
				+        self.proj = nn.Linear(dim, dim, bias=bias)
			
 
				+
			
 
				+    def forward(
			
 
				+        self,
			
 
				+        hidden_states: torch.Tensor,
			
 
				+        cu_seqlens: torch.Tensor,
			
 
				+        rotary_pos_emb: torch.Tensor = None,
			
 
				+    ) -> torch.Tensor:
			
 
				+        seq_length = hidden_states.shape[0]
			
 
				+
			
 
				+        q, k, v = self.qkv(hidden_states).reshape(seq_length, 3, self.num_heads, -1).permute(1, 0, 2, 3).unbind(0)
			
 
				+        q = apply_rotary_pos_emb_vision(q.unsqueeze(0), rotary_pos_emb).squeeze(0)
			
 
				+        k = apply_rotary_pos_emb_vision(k.unsqueeze(0), rotary_pos_emb).squeeze(0)
			
 
				+
			
 
				+        attention_mask = torch.full(
			
 
				+            [1, seq_length, seq_length], torch.finfo(q.dtype).min, device=q.device, dtype=q.dtype
			
 
				+        )
			
 
				+        for i in range(1, len(cu_seqlens)):
			
 
				+            attention_mask[..., cu_seqlens[i - 1] : cu_seqlens[i], cu_seqlens[i - 1] : cu_seqlens[i]] = 0
			
 
				+
			
 
				+        q = q.transpose(0, 1)
			
 
				+        k = k.transpose(0, 1)
			
 
				+        v = v.transpose(0, 1)
			
 
				+        attn_weights = torch.matmul(q, k.transpose(1, 2)) / math.sqrt(self.head_dim)
			
 
				+        attn_weights = attn_weights + attention_mask
			
 
				+        attn_weights = nn.functional.softmax(attn_weights, dim=-1, dtype=torch.float32).to(q.dtype)
			
 
				+        attn_output = torch.matmul(attn_weights, v)
			
 
				+        attn_output = attn_output.transpose(0, 1)
			
 
				+        attn_output = attn_output.reshape(seq_length, -1)
			
 
				+        attn_output = self.proj(attn_output)
			
 
				+        return attn_output
			
 
				+
			
 
				+
			
 
				+class VisionFlashAttention2(nn.Module):
			
 
				+    def __init__(self, config, dim: int, num_heads: int = 16, bias=True) -> None:
			
 
				+        super().__init__()
			
 
				+        self.num_heads = num_heads
			
 
				+        self.qkv = nn.Linear(dim, dim * 3, bias=bias)
			
 
				+        self.proj = nn.Linear(dim, dim, bias=bias)
			
 
				+        self.config = config
			
 
				+        self.is_causal = config.is_causal
			
 
				+
			
 
				+    def forward(
			
 
				+        self,
			
 
				+        hidden_states: torch.Tensor,
			
 
				+        cu_seqlens: torch.Tensor,
			
 
				+        rotary_pos_emb: torch.Tensor = None,
			
 
				+    ) -> torch.Tensor:
			
 
				+        seq_length = hidden_states.shape[0]
			
 
				+        q, k, v = (
			
 
				+            self.qkv(hidden_states).reshape(seq_length, 3, self.num_heads, -1).permute(1, 0, 2, 3).unbind(0)
			
 
				+        )  # 'shd'
			
 
				+        q = apply_rotary_pos_emb_vision(q.unsqueeze(0), rotary_pos_emb).squeeze(0)
			
 
				+        k = apply_rotary_pos_emb_vision(k.unsqueeze(0), rotary_pos_emb).squeeze(0)
			
 
				+        max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max().item()
			
 
				+        attn_output = flash_attn_varlen_func(
			
 
				+            q, k, v, cu_seqlens, cu_seqlens, max_seqlen, max_seqlen, causal=self.is_causal
			
 
				+        ).reshape(seq_length, -1)
			
 
				+        attn_output = self.proj(attn_output)
			
 
				+
			
 
				+        return attn_output
			
 
				+
			
 
				+
			
 
				+class VisionSdpaAttention(nn.Module):
			
 
				+    def __init__(self, config, dim: int, num_heads: int = 16, bias=True) -> None:
			
 
				+        super().__init__()
			
 
				+        self.num_heads = num_heads
			
 
				+        self.qkv = nn.Linear(dim, dim * 3, bias=bias)
			
 
				+        self.proj = nn.Linear(dim, dim, bias=bias)
			
 
				+        self.config = config
			
 
				+
			
 
				+    def forward(
			
 
				+        self,
			
 
				+        hidden_states: torch.Tensor,
			
 
				+        cu_seqlens: torch.Tensor,
			
 
				+        rotary_pos_emb: torch.Tensor = None,
			
 
				+    ) -> torch.Tensor:
			
 
				+        seq_length = hidden_states.shape[0]
			
 
				+        q, k, v = self.qkv(hidden_states).reshape(seq_length, 3, self.num_heads, -1).permute(1, 0, 2, 3).unbind(0)
			
 
				+
			
 
				+        q = apply_rotary_pos_emb_vision(q.unsqueeze(0), rotary_pos_emb).squeeze(0)
			
 
				+        k = apply_rotary_pos_emb_vision(k.unsqueeze(0), rotary_pos_emb).squeeze(0)
			
 
				+
			
 
				+        attention_mask = torch.zeros([1, seq_length, seq_length], device=q.device, dtype=torch.bool)
			
 
				+        for i in range(1, len(cu_seqlens)):
			
 
				+            attention_mask[..., cu_seqlens[i - 1] : cu_seqlens[i], cu_seqlens[i - 1] : cu_seqlens[i]] = True
			
 
				+
			
 
				+        q = q.transpose(0, 1)
			
 
				+        k = k.transpose(0, 1)
			
 
				+        v = v.transpose(0, 1)
			
 
				+
			
 
				+        attn_output = F.scaled_dot_product_attention(q, k, v, attention_mask, dropout_p=0.0)
			
 
				+        attn_output = attn_output.transpose(0, 1)
			
 
				+        attn_output = attn_output.reshape(seq_length, -1)
			
 
				+
			
 
				+        attn_output = self.proj(attn_output)
			
 
				+        return attn_output
			
 
				+
			
 
				+
			
 
				+DOTS_VISION_ATTENTION_CLASSES = {
			
 
				+    "eager": VisionAttention,
			
 
				+    "flash_attention_2": VisionFlashAttention2,
			
 
				+    "sdpa": VisionSdpaAttention,
			
 
				+}
			
 
				+
			
 
				+
			
 
				+class RMSNorm(nn.Module):
			
 
				+    def __init__(self, dim: int, eps: float = 1e-6):
			
 
				+        super().__init__()
			
 
				+        self.weight = nn.Parameter(torch.ones(dim))
			
 
				+        self.eps = eps
			
 
				+
			
 
				+    def forward(self, x: torch.Tensor) -> torch.Tensor:
			
 
				+        output = self._norm(x.float()).type_as(x)
			
 
				+        return output * self.weight
			
 
				+
			
 
				+    def extra_repr(self) -> str:
			
 
				+        return f"{tuple(self.weight.shape)}, eps={self.eps}"
			
 
				+
			
 
				+    def _norm(self, x: torch.Tensor) -> torch.Tensor:
			
 
				+        return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + self.eps)
			
 
				+
			
 
				+
			
 
				+class DotsSwiGLUFFN(nn.Module):
			
 
				+    def __init__(self, config):
			
 
				+        super().__init__()
			
 
				+        hidden_features = config.intermediate_size
			
 
				+        in_features = config.embed_dim
			
 
				+        bias = config.use_bias
			
 
				+
			
 
				+        self.fc1 = nn.Linear(in_features, hidden_features, bias=bias)
			
 
				+        self.fc2 = nn.Linear(hidden_features, in_features, bias=bias)
			
 
				+        self.fc3 = nn.Linear(in_features, hidden_features, bias=bias)
			
 
				+
			
 
				+    def forward(self, x: torch.Tensor) -> torch.Tensor:
			
 
				+        x = F.silu(self.fc1(x)) * self.fc3(x)
			
 
				+        x = self.fc2(x)
			
 
				+        return x
			
 
				+
			
 
				+
			
 
				+
			
 
				+class DotsPatchEmbed(nn.Module):
			
 
				+    def __init__(self, config):
			
 
				+        super().__init__()
			
 
				+        self.num_channels = config.num_channels
			
 
				+        self.patch_size = config.patch_size
			
 
				+        self.temporal_patch_size = config.temporal_patch_size
			
 
				+        self.embed_dim = config.embed_dim
			
 
				+        self.config = config
			
 
				+        self.proj = nn.Conv2d(
			
 
				+            config.num_channels,
			
 
				+            config.embed_dim,
			
 
				+            kernel_size=(config.patch_size, config.patch_size),
			
 
				+            stride=(config.patch_size, config.patch_size),
			
 
				+        )
			
 
				+        self.norm = RMSNorm(config.embed_dim, eps=config.rms_norm_eps)
			
 
				+
			
 
				+    def forward(self, x: torch.Tensor, grid_thw=None) -> torch.Tensor:
			
 
				+        x = x.view(-1, self.num_channels, self.temporal_patch_size, self.patch_size, self.patch_size)[:, :, 0] 
			
 
				+        x = self.proj(x).view(-1, self.embed_dim)
			
 
				+        x = self.norm(x)
			
 
				+        return x
			
 
				+
			
 
				+
			
 
				+class DotsViTPreprocessor(nn.Module):
			
 
				+    def __init__(self, config):
			
 
				+        super().__init__()
			
 
				+        self.patch_h = config.patch_size
			
 
				+        self.patch_w = config.patch_size
			
 
				+        self.embed_dim = config.embed_dim
			
 
				+        self.config = config
			
 
				+        self.patchifier = DotsPatchEmbed(config)
			
 
				+
			
 
				+    def forward(self, x: torch.Tensor, grid_thw=None) -> torch.Tensor:
			
 
				+        tokens = self.patchifier(x, grid_thw)
			
 
				+        return tokens
			
 
				+
			
 
				+
			
 
				+class DotsVisionBlock(nn.Module):
			
 
				+    def __init__(self, config, attn_implementation: str = "flash_attention_2"):
			
 
				+        super().__init__()
			
 
				+        self.attn = DOTS_VISION_ATTENTION_CLASSES[attn_implementation](
			
 
				+            config, config.embed_dim, num_heads=config.num_attention_heads, bias=config.use_bias
			
 
				+        )
			
 
				+        self.norm1 = RMSNorm(config.embed_dim, eps=config.rms_norm_eps)
			
 
				+        self.mlp = DotsSwiGLUFFN(config)
			
 
				+        self.norm2 = RMSNorm(config.embed_dim, eps=config.rms_norm_eps)
			
 
				+
			
 
				+    def forward(self, hidden_states, cu_seqlens, rotary_pos_emb) -> torch.Tensor:
			
 
				+        hidden_states = hidden_states + self.attn(
			
 
				+            self.norm1(hidden_states), cu_seqlens=cu_seqlens, rotary_pos_emb=rotary_pos_emb
			
 
				+        )
			
 
				+        hidden_states = hidden_states + self.mlp(self.norm2(hidden_states))
			
 
				+        return hidden_states
			
 
				+
			
 
				+
			
 
				+class DotsVisionTransformer(PreTrainedModel):
			
 
				+    def __init__(self, config: DotsVisionConfig) -> None:
			
 
				+        super().__init__(config)
			
 
				+        self.config = config
			
 
				+        self.spatial_merge_size = config.spatial_merge_size
			
 
				+
			
 
				+        self.patch_embed = DotsViTPreprocessor(config)
			
 
				+        self._init_weights(self.patch_embed.patchifier.proj)
			
 
				+
			
 
				+        head_dim = config.embed_dim // config.num_attention_heads
			
 
				+
			
 
				+        self.rotary_pos_emb = VisionRotaryEmbedding(head_dim // 2)
			
 
				+
			
 
				+        _num_hidden_layers = config.num_hidden_layers
			
 
				+        self.blocks = nn.ModuleList(
			
 
				+            [DotsVisionBlock(config, config.attn_implementation) for _ in range(_num_hidden_layers)]
			
 
				+        )
			
 
				+
			
 
				+        if self.config.post_norm:
			
 
				+            self.post_trunk_norm = RMSNorm(config.embed_dim, eps=config.rms_norm_eps)
			
 
				+
			
 
				+        self.merger = PatchMerger(
			
 
				+            dim=config.hidden_size,
			
 
				+            context_dim=config.embed_dim,
			
 
				+            spatial_merge_size=config.spatial_merge_size,
			
 
				+            init_merger_std=self.config.init_merger_std,
			
 
				+        )
			
 
				+
			
 
				+        self.gradient_checkpointing = False
			
 
				+        self._gradient_checkpointing_func = torch.utils.checkpoint.checkpoint
			
 
				+
			
 
				+    def _init_weights(self, module):
			
 
				+        std = self.config.initializer_range
			
 
				+        if isinstance(module, (nn.Linear, nn.Conv3d)):
			
 
				+            module.weight.data.normal_(mean=0.0, std=std)
			
 
				+            if module.bias is not None:
			
 
				+                module.bias.data.zero_()
			
 
				+        elif isinstance(module, nn.Embedding):
			
 
				+            module.weight.data.normal_(mean=0.0, std=std)
			
 
				+            if module.padding_idx is not None:
			
 
				+                module.weight.data[module.padding_idx].zero_()
			
 
				+
			
 
				+    @property
			
 
				+    def dtype(self) -> torch.dtype:
			
 
				+        return self.blocks[0].mlp.fc2.weight.dtype
			
 
				+
			
 
				+    @property
			
 
				+    def device(self) -> torch.device:
			
 
				+        return self.blocks[0].mlp.fc2.weight.device
			
 
				+
			
 
				+    def get_pos_ids_by_grid(self, grid_thw):
			
 
				+        pos_ids = []
			
 
				+        for t, h, w in grid_thw:
			
 
				+            hpos_ids = torch.arange(h).unsqueeze(1).expand(-1, w)
			
 
				+            hpos_ids = hpos_ids.reshape(
			
 
				+                h // self.spatial_merge_size,
			
 
				+                self.spatial_merge_size,
			
 
				+                w // self.spatial_merge_size,
			
 
				+                self.spatial_merge_size,
			
 
				+            )
			
 
				+            hpos_ids = hpos_ids.permute(0, 2, 1, 3)
			
 
				+            hpos_ids = hpos_ids.flatten()
			
 
				+
			
 
				+            wpos_ids = torch.arange(w).unsqueeze(0).expand(h, -1)
			
 
				+            wpos_ids = wpos_ids.reshape(
			
 
				+                h // self.spatial_merge_size,
			
 
				+                self.spatial_merge_size,
			
 
				+                w // self.spatial_merge_size,
			
 
				+                self.spatial_merge_size,
			
 
				+            )
			
 
				+            wpos_ids = wpos_ids.permute(0, 2, 1, 3)
			
 
				+            wpos_ids = wpos_ids.flatten()
			
 
				+            pos_ids.append(
			
 
				+                torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1)
			
 
				+            )
			
 
				+
			
 
				+        return pos_ids
			
 
				+
			
 
				+    def rot_pos_emb(self, grid_thw):
			
 
				+        pos_ids = self.get_pos_ids_by_grid(grid_thw)
			
 
				+        pos_ids = torch.cat(pos_ids, dim=0)
			
 
				+        max_grid_size = grid_thw[:, 1:].max()
			
 
				+        rotary_pos_emb_full = self.rotary_pos_emb(max_grid_size)
			
 
				+        rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)
			
 
				+        return rotary_pos_emb
			
 
				+
			
 
				+    def forward(self, hidden_states: torch.Tensor, grid_thw: torch.Tensor, bf16=True) -> torch.Tensor:
			
 
				+        if bf16:
			
 
				+            hidden_states = hidden_states.to(torch.float16)
			
 
				+        hidden_states = self.patch_embed(hidden_states, grid_thw)
			
 
				+
			
 
				+        rotary_pos_emb = self.rot_pos_emb(grid_thw)
			
 
				+
			
 
				+        cu_seqlens = torch.repeat_interleave(grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]).cumsum(
			
 
				+            dim=0,
			
 
				+            dtype=grid_thw.dtype if torch.jit.is_tracing() else torch.int32,
			
 
				+        )
			
 
				+        cu_seqlens = F.pad(cu_seqlens, (1, 0), value=0)
			
 
				+
			
 
				+        for blk in self.blocks:
			
 
				+            if self.gradient_checkpointing and self.training:
			
 
				+                hidden_states = self._gradient_checkpointing_func(
			
 
				+                    blk.__call__,
			
 
				+                    hidden_states,
			
 
				+                    cu_seqlens,
			
 
				+                    rotary_pos_emb,
			
 
				+                    use_reentrant=(self.config.ckpt_use_reentrant or self.config.ve_ckpt_use_reentrant),
			
 
				+                )
			
 
				+            else:
			
 
				+                hidden_states = blk(hidden_states, cu_seqlens=cu_seqlens, rotary_pos_emb=rotary_pos_emb)
			
 
				+
			
 
				+        if self.config.post_norm:
			
 
				+            hidden_states = self.post_trunk_norm(hidden_states)
			
 
				+
			
 
				+        hidden_states = self.merger(hidden_states)
			
 
				+        return hidden_states