#                🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨
#             This file was automatically generated from existing config files and their `model_type`s. Do NOT edit this file
#               manually as any edits will be overwritten by auto-generation of the file. If any change should be done,
#          please add the correct `cls.model_type` in your config class and run `python utils/check_auto.py --fix_and_overwrite`.
#                🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨
# Copyright 2026 The HuggingFace Inc. team.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.


from collections import OrderedDict


CONFIG_MAPPING_NAMES = OrderedDict(
    [
        ("afmoe", "AfmoeConfig"),
        ("aimv2", "Aimv2Config"),
        ("aimv2_text_model", "Aimv2TextConfig"),
        ("aimv2_vision_model", "Aimv2VisionConfig"),
        ("albert", "AlbertConfig"),
        ("align", "AlignConfig"),
        ("align_text_model", "AlignTextConfig"),
        ("align_vision_model", "AlignVisionConfig"),
        ("altclip", "AltCLIPConfig"),
        ("altclip_text_model", "AltCLIPTextConfig"),
        ("altclip_vision_model", "AltCLIPVisionConfig"),
        ("apertus", "ApertusConfig"),
        ("arcee", "ArceeConfig"),
        ("aria", "AriaConfig"),
        ("aria_text", "AriaTextConfig"),
        ("audio-spectrogram-transformer", "ASTConfig"),
        ("audioflamingo3", "AudioFlamingo3Config"),
        ("audioflamingo3_encoder", "AudioFlamingo3EncoderConfig"),
        ("autoformer", "AutoformerConfig"),
        ("aya_vision", "AyaVisionConfig"),
        ("bamba", "BambaConfig"),
        ("bark", "BarkConfig"),
        ("bart", "BartConfig"),
        ("beit", "BeitConfig"),
        ("bert", "BertConfig"),
        ("bert-generation", "BertGenerationConfig"),
        ("big_bird", "BigBirdConfig"),
        ("bigbird_pegasus", "BigBirdPegasusConfig"),
        ("biogpt", "BioGptConfig"),
        ("bit", "BitConfig"),
        ("bitnet", "BitNetConfig"),
        ("blenderbot", "BlenderbotConfig"),
        ("blenderbot-small", "BlenderbotSmallConfig"),
        ("blip", "BlipConfig"),
        ("blip-2", "Blip2Config"),
        ("blip_2_qformer", "Blip2QFormerConfig"),
        ("blip_2_vision_model", "Blip2VisionConfig"),
        ("blip_text_model", "BlipTextConfig"),
        ("blip_vision_model", "BlipVisionConfig"),
        ("bloom", "BloomConfig"),
        ("blt", "BltConfig"),
        ("blt_global_transformer", "BltGlobalTransformerConfig"),
        ("blt_local_decoder", "BltLocalDecoderConfig"),
        ("blt_local_encoder", "BltLocalEncoderConfig"),
        ("blt_patcher", "BltPatcherConfig"),
        ("bridgetower", "BridgeTowerConfig"),
        ("bridgetower_text_model", "BridgeTowerTextConfig"),
        ("bridgetower_vision_model", "BridgeTowerVisionConfig"),
        ("bros", "BrosConfig"),
        ("camembert", "CamembertConfig"),
        ("canine", "CanineConfig"),
        ("chameleon", "ChameleonConfig"),
        ("chameleon_vqgan", "ChameleonVQVAEConfig"),
        ("chinese_clip", "ChineseCLIPConfig"),
        ("chinese_clip_text_model", "ChineseCLIPTextConfig"),
        ("chinese_clip_vision_model", "ChineseCLIPVisionConfig"),
        ("chmv2", "CHMv2Config"),
        ("clap", "ClapConfig"),
        ("clap_audio_model", "ClapAudioConfig"),
        ("clap_text_model", "ClapTextConfig"),
        ("clip", "CLIPConfig"),
        ("clip_text_model", "CLIPTextConfig"),
        ("clip_vision_model", "CLIPVisionConfig"),
        ("clipseg", "CLIPSegConfig"),
        ("clipseg_text_model", "CLIPSegTextConfig"),
        ("clipseg_vision_model", "CLIPSegVisionConfig"),
        ("clvp", "ClvpConfig"),
        ("clvp_decoder", "ClvpDecoderConfig"),
        ("clvp_encoder", "ClvpEncoderConfig"),
        ("codegen", "CodeGenConfig"),
        ("cohere", "CohereConfig"),
        ("cohere2", "Cohere2Config"),
        ("cohere2_vision", "Cohere2VisionConfig"),
        ("cohere_asr", "CohereAsrConfig"),
        ("colmodernvbert", "ColModernVBertConfig"),
        ("colpali", "ColPaliConfig"),
        ("colqwen2", "ColQwen2Config"),
        ("conditional_detr", "ConditionalDetrConfig"),
        ("convbert", "ConvBertConfig"),
        ("convnext", "ConvNextConfig"),
        ("convnextv2", "ConvNextV2Config"),
        ("cpmant", "CpmAntConfig"),
        ("csm", "CsmConfig"),
        ("csm_depth_decoder_model", "CsmDepthDecoderConfig"),
        ("ctrl", "CTRLConfig"),
        ("cvt", "CvtConfig"),
        ("cwm", "CwmConfig"),
        ("d_fine", "DFineConfig"),
        ("dab-detr", "DabDetrConfig"),
        ("dac", "DacConfig"),
        ("data2vec-audio", "Data2VecAudioConfig"),
        ("data2vec-text", "Data2VecTextConfig"),
        ("data2vec-vision", "Data2VecVisionConfig"),
        ("dbrx", "DbrxConfig"),
        ("deberta", "DebertaConfig"),
        ("deberta-v2", "DebertaV2Config"),
        ("decision_transformer", "DecisionTransformerConfig"),
        ("deepseek_v2", "DeepseekV2Config"),
        ("deepseek_v3", "DeepseekV3Config"),
        ("deepseek_vl", "DeepseekVLConfig"),
        ("deepseek_vl_hybrid", "DeepseekVLHybridConfig"),
        ("deformable_detr", "DeformableDetrConfig"),
        ("deimv2", "Deimv2Config"),
        ("deit", "DeiTConfig"),
        ("depth_anything", "DepthAnythingConfig"),
        ("depth_pro", "DepthProConfig"),
        ("detr", "DetrConfig"),
        ("dia", "DiaConfig"),
        ("dia_decoder", "DiaDecoderConfig"),
        ("dia_encoder", "DiaEncoderConfig"),
        ("diffllama", "DiffLlamaConfig"),
        ("dinat", "DinatConfig"),
        ("dinov2", "Dinov2Config"),
        ("dinov2_with_registers", "Dinov2WithRegistersConfig"),
        ("dinov3_convnext", "DINOv3ConvNextConfig"),
        ("dinov3_vit", "DINOv3ViTConfig"),
        ("distilbert", "DistilBertConfig"),
        ("doge", "DogeConfig"),
        ("donut-swin", "DonutSwinConfig"),
        ("dots1", "Dots1Config"),
        ("dpr", "DPRConfig"),
        ("dpt", "DPTConfig"),
        ("edgetam", "EdgeTamConfig"),
        ("edgetam_video", "EdgeTamVideoConfig"),
        ("edgetam_vision_model", "EdgeTamVisionConfig"),
        ("efficientloftr", "EfficientLoFTRConfig"),
        ("efficientnet", "EfficientNetConfig"),
        ("electra", "ElectraConfig"),
        ("emu3", "Emu3Config"),
        ("emu3_text_model", "Emu3TextConfig"),
        ("emu3_vqgan", "Emu3VQVAEConfig"),
        ("encodec", "EncodecConfig"),
        ("encoder-decoder", "EncoderDecoderConfig"),
        ("eomt", "EomtConfig"),
        ("eomt_dinov3", "EomtDinov3Config"),
        ("ernie", "ErnieConfig"),
        ("ernie4_5", "Ernie4_5Config"),
        ("ernie4_5_moe", "Ernie4_5_MoeConfig"),
        ("ernie4_5_vl_moe", "Ernie4_5_VLMoeConfig"),
        ("ernie4_5_vl_moe_text", "Ernie4_5_VLMoeTextConfig"),
        ("ernie4_5_vl_moe_vision", "Ernie4_5_VLMoeVisionConfig"),
        ("esm", "EsmConfig"),
        ("eurobert", "EuroBertConfig"),
        ("evolla", "EvollaConfig"),
        ("exaone4", "Exaone4Config"),
        ("exaone_moe", "ExaoneMoeConfig"),
        ("falcon", "FalconConfig"),
        ("falcon_h1", "FalconH1Config"),
        ("falcon_mamba", "FalconMambaConfig"),
        ("fast_vlm", "FastVlmConfig"),
        ("fastspeech2_conformer", "FastSpeech2ConformerConfig"),
        ("fastspeech2_conformer_hifigan", "FastSpeech2ConformerHifiGanConfig"),
        ("fastspeech2_conformer_with_hifigan", "FastSpeech2ConformerWithHifiGanConfig"),
        ("flaubert", "FlaubertConfig"),
        ("flava", "FlavaConfig"),
        ("flava_image_model", "FlavaImageConfig"),
        ("flava_multimodal_model", "FlavaMultimodalConfig"),
        ("flava_text_model", "FlavaTextConfig"),
        ("flex_olmo", "FlexOlmoConfig"),
        ("florence2", "Florence2Config"),
        ("florence_vision", "Florence2VisionConfig"),
        ("fnet", "FNetConfig"),
        ("focalnet", "FocalNetConfig"),
        ("fsmt", "FSMTConfig"),
        ("funnel", "FunnelConfig"),
        ("fuyu", "FuyuConfig"),
        ("gemma", "GemmaConfig"),
        ("gemma2", "Gemma2Config"),
        ("gemma3", "Gemma3Config"),
        ("gemma3_text", "Gemma3TextConfig"),
        ("gemma3n", "Gemma3nConfig"),
        ("gemma3n_audio", "Gemma3nAudioConfig"),
        ("gemma3n_text", "Gemma3nTextConfig"),
        ("gemma3n_vision", "Gemma3nVisionConfig"),
        ("gemma4", "Gemma4Config"),
        ("gemma4_audio", "Gemma4AudioConfig"),
        ("gemma4_text", "Gemma4TextConfig"),
        ("gemma4_vision", "Gemma4VisionConfig"),
        ("git", "GitConfig"),
        ("git_vision_model", "GitVisionConfig"),
        ("glm", "GlmConfig"),
        ("glm4", "Glm4Config"),
        ("glm46v", "Glm46VConfig"),
        ("glm4_moe", "Glm4MoeConfig"),
        ("glm4_moe_lite", "Glm4MoeLiteConfig"),
        ("glm4v", "Glm4vConfig"),
        ("glm4v_moe", "Glm4vMoeConfig"),
        ("glm4v_moe_text", "Glm4vMoeTextConfig"),
        ("glm4v_moe_vision", "Glm4vMoeVisionConfig"),
        ("glm4v_text", "Glm4vTextConfig"),
        ("glm4v_vision", "Glm4vVisionConfig"),
        ("glm_image", "GlmImageConfig"),
        ("glm_image_text", "GlmImageTextConfig"),
        ("glm_image_vision", "GlmImageVisionConfig"),
        ("glm_image_vqmodel", "GlmImageVQVAEConfig"),
        ("glm_moe_dsa", "GlmMoeDsaConfig"),
        ("glm_ocr", "GlmOcrConfig"),
        ("glm_ocr_text", "GlmOcrTextConfig"),
        ("glm_ocr_vision", "GlmOcrVisionConfig"),
        ("glmasr", "GlmAsrConfig"),
        ("glmasr_encoder", "GlmAsrEncoderConfig"),
        ("glpn", "GLPNConfig"),
        ("got_ocr2", "GotOcr2Config"),
        ("gpt2", "GPT2Config"),
        ("gpt_bigcode", "GPTBigCodeConfig"),
        ("gpt_neo", "GPTNeoConfig"),
        ("gpt_neox", "GPTNeoXConfig"),
        ("gpt_neox_japanese", "GPTNeoXJapaneseConfig"),
        ("gpt_oss", "GptOssConfig"),
        ("gptj", "GPTJConfig"),
        ("granite", "GraniteConfig"),
        ("granite_speech", "GraniteSpeechConfig"),
        ("granite_speech_encoder", "GraniteSpeechEncoderConfig"),
        ("granitemoe", "GraniteMoeConfig"),
        ("granitemoehybrid", "GraniteMoeHybridConfig"),
        ("granitemoeshared", "GraniteMoeSharedConfig"),
        ("grounding-dino", "GroundingDinoConfig"),
        ("groupvit", "GroupViTConfig"),
        ("groupvit_text_model", "GroupViTTextConfig"),
        ("groupvit_vision_model", "GroupViTVisionConfig"),
        ("helium", "HeliumConfig"),
        ("hgnet_v2", "HGNetV2Config"),
        ("hiera", "HieraConfig"),
        ("higgs_audio_v2", "HiggsAudioV2Config"),
        ("higgs_audio_v2_tokenizer", "HiggsAudioV2TokenizerConfig"),
        ("hubert", "HubertConfig"),
        ("hunyuan_v1_dense", "HunYuanDenseV1Config"),
        ("hunyuan_v1_moe", "HunYuanMoEV1Config"),
        ("hy_v3", "HYV3Config"),
        ("ibert", "IBertConfig"),
        ("idefics", "IdeficsConfig"),
        ("idefics2", "Idefics2Config"),
        ("idefics2_perceiver", "Idefics2PerceiverConfig"),
        ("idefics2_vision", "Idefics2VisionConfig"),
        ("idefics3", "Idefics3Config"),
        ("idefics3_vision", "Idefics3VisionConfig"),
        ("idefics_perciever", "IdeficsPerceiverConfig"),
        ("idefics_vision", "IdeficsVisionConfig"),
        ("ijepa", "IJepaConfig"),
        ("imagegpt", "ImageGPTConfig"),
        ("informer", "InformerConfig"),
        ("instructblip", "InstructBlipConfig"),
        ("instructblip_qformer", "InstructBlipQFormerConfig"),
        ("instructblip_vision_model", "InstructBlipVisionConfig"),
        ("instructblipvideo", "InstructBlipVideoConfig"),
        ("instructblipvideo_qformer", "InstructBlipVideoQFormerConfig"),
        ("instructblipvideo_vision_model", "InstructBlipVideoVisionConfig"),
        ("internvl", "InternVLConfig"),
        ("internvl_vision", "InternVLVisionConfig"),
        ("jais2", "Jais2Config"),
        ("jamba", "JambaConfig"),
        ("janus", "JanusConfig"),
        ("janus_vision_model", "JanusVisionConfig"),
        ("janus_vqgan", "JanusVQVAEConfig"),
        ("jetmoe", "JetMoeConfig"),
        ("jina_embeddings_v3", "JinaEmbeddingsV3Config"),
        ("kosmos-2", "Kosmos2Config"),
        ("kosmos-2.5", "Kosmos2_5Config"),
        ("kosmos_2_5_text_model", "Kosmos2_5TextConfig"),
        ("kosmos_2_5_vision_model", "Kosmos2_5VisionConfig"),
        ("kosmos_2_text_model", "Kosmos2TextConfig"),
        ("kosmos_2_vision_model", "Kosmos2VisionConfig"),
        ("kyutai_speech_to_text", "KyutaiSpeechToTextConfig"),
        ("laguna", "LagunaConfig"),
        ("lasr_ctc", "LasrCTCConfig"),
        ("lasr_encoder", "LasrEncoderConfig"),
        ("layoutlm", "LayoutLMConfig"),
        ("layoutlmv2", "LayoutLMv2Config"),
        ("layoutlmv3", "LayoutLMv3Config"),
        ("layoutxlm", "LayoutXLMConfig"),
        ("led", "LEDConfig"),
        ("levit", "LevitConfig"),
        ("lfm2", "Lfm2Config"),
        ("lfm2_moe", "Lfm2MoeConfig"),
        ("lfm2_vl", "Lfm2VlConfig"),
        ("lightglue", "LightGlueConfig"),
        ("lighton_ocr", "LightOnOcrConfig"),
        ("lilt", "LiltConfig"),
        ("llama", "LlamaConfig"),
        ("llama4", "Llama4Config"),
        ("llama4_text", "Llama4TextConfig"),
        ("llama4_vision_model", "Llama4VisionConfig"),
        ("llava", "LlavaConfig"),
        ("llava_next", "LlavaNextConfig"),
        ("llava_next_video", "LlavaNextVideoConfig"),
        ("llava_onevision", "LlavaOnevisionConfig"),
        ("longcat_flash", "LongcatFlashConfig"),
        ("longformer", "LongformerConfig"),
        ("longt5", "LongT5Config"),
        ("luke", "LukeConfig"),
        ("lw_detr", "LwDetrConfig"),
        ("lw_detr_vit", "LwDetrViTConfig"),
        ("lxmert", "LxmertConfig"),
        ("m2m_100", "M2M100Config"),
        ("mamba", "MambaConfig"),
        ("mamba2", "Mamba2Config"),
        ("marian", "MarianConfig"),
        ("markuplm", "MarkupLMConfig"),
        ("mask2former", "Mask2FormerConfig"),
        ("maskformer", "MaskFormerConfig"),
        ("maskformer-swin", "MaskFormerSwinConfig"),
        ("mbart", "MBartConfig"),
        ("megatron-bert", "MegatronBertConfig"),
        ("metaclip_2", "MetaClip2Config"),
        ("metaclip_2_text_model", "MetaClip2TextConfig"),
        ("metaclip_2_vision_model", "MetaClip2VisionConfig"),
        ("mgp-str", "MgpstrConfig"),
        ("mimi", "MimiConfig"),
        ("minicpmv4_6", "MiniCPMV4_6Config"),
        ("minicpmv4_6_vision", "MiniCPMV4_6VisionConfig"),
        ("minimax", "MiniMaxConfig"),
        ("minimax_m2", "MiniMaxM2Config"),
        ("ministral", "MinistralConfig"),
        ("ministral3", "Ministral3Config"),
        ("mistral", "MistralConfig"),
        ("mistral3", "Mistral3Config"),
        ("mistral4", "Mistral4Config"),
        ("mixtral", "MixtralConfig"),
        ("mlcd_vision_model", "MLCDVisionConfig"),
        ("mllama", "MllamaConfig"),
        ("mllama_text_model", "MllamaTextConfig"),
        ("mllama_vision_model", "MllamaVisionConfig"),
        ("mm-grounding-dino", "MMGroundingDinoConfig"),
        ("mobilebert", "MobileBertConfig"),
        ("mobilenet_v1", "MobileNetV1Config"),
        ("mobilenet_v2", "MobileNetV2Config"),
        ("mobilevit", "MobileViTConfig"),
        ("mobilevitv2", "MobileViTV2Config"),
        ("modernbert", "ModernBertConfig"),
        ("modernbert-decoder", "ModernBertDecoderConfig"),
        ("modernvbert", "ModernVBertConfig"),
        ("moonshine", "MoonshineConfig"),
        ("moonshine_streaming", "MoonshineStreamingConfig"),
        ("moonshine_streaming_encoder", "MoonshineStreamingEncoderConfig"),
        ("moshi", "MoshiConfig"),
        ("moshi_depth", "MoshiDepthConfig"),
        ("mpnet", "MPNetConfig"),
        ("mpt", "MptConfig"),
        ("mra", "MraConfig"),
        ("mt5", "MT5Config"),
        ("musicflamingo", "MusicFlamingoConfig"),
        ("musicgen", "MusicgenConfig"),
        ("musicgen_decoder", "MusicgenDecoderConfig"),
        ("musicgen_melody", "MusicgenMelodyConfig"),
        ("musicgen_melody_decoder", "MusicgenMelodyDecoderConfig"),
        ("mvp", "MvpConfig"),
        ("nanochat", "NanoChatConfig"),
        ("nemotron", "NemotronConfig"),
        ("nemotron_h", "NemotronHConfig"),
        ("nllb-moe", "NllbMoeConfig"),
        ("nomic_bert", "NomicBertConfig"),
        ("nougat", "NougatConfig"),
        ("nystromformer", "NystromformerConfig"),
        ("olmo", "OlmoConfig"),
        ("olmo2", "Olmo2Config"),
        ("olmo3", "Olmo3Config"),
        ("olmo_hybrid", "OlmoHybridConfig"),
        ("olmoe", "OlmoeConfig"),
        ("omdet-turbo", "OmDetTurboConfig"),
        ("oneformer", "OneFormerConfig"),
        ("openai-gpt", "OpenAIGPTConfig"),
        ("openai_privacy_filter", "OpenAIPrivacyFilterConfig"),
        ("opt", "OPTConfig"),
        ("ovis2", "Ovis2Config"),
        ("owlv2", "Owlv2Config"),
        ("owlv2_text_model", "Owlv2TextConfig"),
        ("owlv2_vision_model", "Owlv2VisionConfig"),
        ("owlvit", "OwlViTConfig"),
        ("owlvit_text_model", "OwlViTTextConfig"),
        ("owlvit_vision_model", "OwlViTVisionConfig"),
        ("paddleocr_vl", "PaddleOCRVLConfig"),
        ("paddleocr_vl_text", "PaddleOCRTextConfig"),
        ("paddleocr_vl_vision", "PaddleOCRVisionConfig"),
        ("paligemma", "PaliGemmaConfig"),
        ("parakeet_ctc", "ParakeetCTCConfig"),
        ("parakeet_encoder", "ParakeetEncoderConfig"),
        ("patchtsmixer", "PatchTSMixerConfig"),
        ("patchtst", "PatchTSTConfig"),
        ("pe_audio", "PeAudioConfig"),
        ("pe_audio_encoder", "PeAudioEncoderConfig"),
        ("pe_audio_video", "PeAudioVideoConfig"),
        ("pe_audio_video_encoder", "PeAudioVideoEncoderConfig"),
        ("pe_video", "PeVideoConfig"),
        ("pe_video_encoder", "PeVideoEncoderConfig"),
        ("pegasus", "PegasusConfig"),
        ("pegasus_x", "PegasusXConfig"),
        ("perceiver", "PerceiverConfig"),
        ("perception_lm", "PerceptionLMConfig"),
        ("persimmon", "PersimmonConfig"),
        ("phi", "PhiConfig"),
        ("phi3", "Phi3Config"),
        ("phi4_multimodal", "Phi4MultimodalConfig"),
        ("phi4_multimodal_audio", "Phi4MultimodalAudioConfig"),
        ("phi4_multimodal_vision", "Phi4MultimodalVisionConfig"),
        ("phimoe", "PhimoeConfig"),
        ("pi0", "PI0Config"),
        ("pix2struct", "Pix2StructConfig"),
        ("pix2struct_text_model", "Pix2StructTextConfig"),
        ("pix2struct_vision_model", "Pix2StructVisionConfig"),
        ("pixio", "PixioConfig"),
        ("pixtral", "PixtralVisionConfig"),
        ("plbart", "PLBartConfig"),
        ("poolformer", "PoolFormerConfig"),
        ("pop2piano", "Pop2PianoConfig"),
        ("pp_chart2table", "PPChart2TableConfig"),
        ("pp_doclayout_v2", "PPDocLayoutV2Config"),
        ("pp_doclayout_v3", "PPDocLayoutV3Config"),
        ("pp_lcnet", "PPLCNetConfig"),
        ("pp_lcnet_v3", "PPLCNetV3Config"),
        ("pp_ocrv5_mobile_det", "PPOCRV5MobileDetConfig"),
        ("pp_ocrv5_mobile_rec", "PPOCRV5MobileRecConfig"),
        ("pp_ocrv5_server_det", "PPOCRV5ServerDetConfig"),
        ("pp_ocrv5_server_rec", "PPOCRV5ServerRecConfig"),
        ("prompt_depth_anything", "PromptDepthAnythingConfig"),
        ("prophetnet", "ProphetNetConfig"),
        ("pvt", "PvtConfig"),
        ("pvt_v2", "PvtV2Config"),
        ("qianfan_ocr", "QianfanOCRConfig"),
        ("qianfan_ocr_vision", "QianfanOCRVisionConfig"),
        ("qwen2", "Qwen2Config"),
        ("qwen2_5_omni", "Qwen2_5OmniConfig"),
        ("qwen2_5_omni_audio_encoder", "Qwen2_5OmniAudioEncoderConfig"),
        ("qwen2_5_omni_bigvgan", "Qwen2_5OmniBigVGANConfig"),
        ("qwen2_5_omni_dit", "Qwen2_5OmniDiTConfig"),
        ("qwen2_5_omni_talker", "Qwen2_5OmniTalkerConfig"),
        ("qwen2_5_omni_text", "Qwen2_5OmniTextConfig"),
        ("qwen2_5_omni_thinker", "Qwen2_5OmniThinkerConfig"),
        ("qwen2_5_omni_token2wav", "Qwen2_5OmniToken2WavConfig"),
        ("qwen2_5_omni_vision_encoder", "Qwen2_5OmniVisionEncoderConfig"),
        ("qwen2_5_vl", "Qwen2_5_VLConfig"),
        ("qwen2_5_vl_text", "Qwen2_5_VLTextConfig"),
        ("qwen2_5_vl_vision", "Qwen2_5_VLVisionConfig"),
        ("qwen2_audio", "Qwen2AudioConfig"),
        ("qwen2_audio_encoder", "Qwen2AudioEncoderConfig"),
        ("qwen2_moe", "Qwen2MoeConfig"),
        ("qwen2_vl", "Qwen2VLConfig"),
        ("qwen2_vl_text", "Qwen2VLTextConfig"),
        ("qwen2_vl_vision", "Qwen2VLVisionConfig"),
        ("qwen3", "Qwen3Config"),
        ("qwen3_5", "Qwen3_5Config"),
        ("qwen3_5_moe", "Qwen3_5MoeConfig"),
        ("qwen3_5_moe_text", "Qwen3_5MoeTextConfig"),
        ("qwen3_5_moe_vision", "Qwen3_5MoeVisionConfig"),
        ("qwen3_5_text", "Qwen3_5TextConfig"),
        ("qwen3_5_vision", "Qwen3_5VisionConfig"),
        ("qwen3_moe", "Qwen3MoeConfig"),
        ("qwen3_next", "Qwen3NextConfig"),
        ("qwen3_omni_moe", "Qwen3OmniMoeConfig"),
        ("qwen3_omni_moe_audio_encoder", "Qwen3OmniMoeAudioEncoderConfig"),
        ("qwen3_omni_moe_talker_code_predictor", "Qwen3OmniMoeTalkerCodePredictorConfig"),
        ("qwen3_omni_moe_talker_text", "Qwen3OmniMoeTalkerTextConfig"),
        ("qwen3_omni_moe_text", "Qwen3OmniMoeTextConfig"),
        ("qwen3_omni_moe_thinker", "Qwen3OmniMoeThinkerConfig"),
        ("qwen3_omni_moe_vision_encoder", "Qwen3OmniMoeVisionEncoderConfig"),
        ("qwen3_vl", "Qwen3VLConfig"),
        ("qwen3_vl_moe", "Qwen3VLMoeConfig"),
        ("qwen3_vl_moe_text", "Qwen3VLMoeTextConfig"),
        ("qwen3_vl_moe_vision", "Qwen3VLMoeVisionConfig"),
        ("qwen3_vl_text", "Qwen3VLTextConfig"),
        ("qwen3_vl_vision", "Qwen3VLVisionConfig"),
        ("rag", "RagConfig"),
        ("recurrent_gemma", "RecurrentGemmaConfig"),
        ("reformer", "ReformerConfig"),
        ("regnet", "RegNetConfig"),
        ("rembert", "RemBertConfig"),
        ("resnet", "ResNetConfig"),
        ("roberta", "RobertaConfig"),
        ("roberta-prelayernorm", "RobertaPreLayerNormConfig"),
        ("roc_bert", "RoCBertConfig"),
        ("roformer", "RoFormerConfig"),
        ("rt_detr", "RTDetrConfig"),
        ("rt_detr_resnet", "RTDetrResNetConfig"),
        ("rt_detr_v2", "RTDetrV2Config"),
        ("rwkv", "RwkvConfig"),
        ("sam", "SamConfig"),
        ("sam2", "Sam2Config"),
        ("sam2_hiera_det_model", "Sam2HieraDetConfig"),
        ("sam2_video", "Sam2VideoConfig"),
        ("sam2_vision_model", "Sam2VisionConfig"),
        ("sam3", "Sam3Config"),
        ("sam3_detr_decoder", "Sam3DETRDecoderConfig"),
        ("sam3_detr_encoder", "Sam3DETREncoderConfig"),
        ("sam3_geometry_encoder", "Sam3GeometryEncoderConfig"),
        ("sam3_lite_text", "Sam3LiteTextConfig"),
        ("sam3_lite_text_detr_decoder", "Sam3LiteTextDETRDecoderConfig"),
        ("sam3_lite_text_detr_encoder", "Sam3LiteTextDETREncoderConfig"),
        ("sam3_lite_text_geometry_encoder", "Sam3LiteTextGeometryEncoderConfig"),
        ("sam3_lite_text_mask_decoder", "Sam3LiteTextMaskDecoderConfig"),
        ("sam3_lite_text_text_model", "Sam3LiteTextTextConfig"),
        ("sam3_mask_decoder", "Sam3MaskDecoderConfig"),
        ("sam3_tracker", "Sam3TrackerConfig"),
        ("sam3_tracker_video", "Sam3TrackerVideoConfig"),
        ("sam3_video", "Sam3VideoConfig"),
        ("sam3_vision_model", "Sam3VisionConfig"),
        ("sam3_vit_model", "Sam3ViTConfig"),
        ("sam_hq", "SamHQConfig"),
        ("sam_hq_vision_model", "SamHQVisionConfig"),
        ("sam_vision_model", "SamVisionConfig"),
        ("seamless_m4t", "SeamlessM4TConfig"),
        ("seamless_m4t_v2", "SeamlessM4Tv2Config"),
        ("seed_oss", "SeedOssConfig"),
        ("segformer", "SegformerConfig"),
        ("seggpt", "SegGptConfig"),
        ("sew", "SEWConfig"),
        ("sew-d", "SEWDConfig"),
        ("shieldgemma2", "ShieldGemma2Config"),
        ("siglip", "SiglipConfig"),
        ("siglip2", "Siglip2Config"),
        ("siglip2_text_model", "Siglip2TextConfig"),
        ("siglip2_vision_model", "Siglip2VisionConfig"),
        ("siglip_text_model", "SiglipTextConfig"),
        ("siglip_vision_model", "SiglipVisionConfig"),
        ("slanet", "SLANetConfig"),
        ("slanext", "SLANeXtConfig"),
        ("smollm3", "SmolLM3Config"),
        ("smolvlm", "SmolVLMConfig"),
        ("smolvlm_vision", "SmolVLMVisionConfig"),
        ("solar_open", "SolarOpenConfig"),
        ("speech-encoder-decoder", "SpeechEncoderDecoderConfig"),
        ("speech_to_text", "Speech2TextConfig"),
        ("speecht5", "SpeechT5Config"),
        ("speecht5_hifigan", "SpeechT5HifiGanConfig"),
        ("splinter", "SplinterConfig"),
        ("squeezebert", "SqueezeBertConfig"),
        ("stablelm", "StableLmConfig"),
        ("starcoder2", "Starcoder2Config"),
        ("superglue", "SuperGlueConfig"),
        ("superpoint", "SuperPointConfig"),
        ("swiftformer", "SwiftFormerConfig"),
        ("swin", "SwinConfig"),
        ("swin2sr", "Swin2SRConfig"),
        ("swinv2", "Swinv2Config"),
        ("switch_transformers", "SwitchTransformersConfig"),
        ("t5", "T5Config"),
        ("t5_gemma_module", "T5GemmaModuleConfig"),
        ("t5gemma", "T5GemmaConfig"),
        ("t5gemma2", "T5Gemma2Config"),
        ("t5gemma2_decoder", "T5Gemma2DecoderConfig"),
        ("t5gemma2_encoder", "T5Gemma2EncoderConfig"),
        ("t5gemma2_text", "T5Gemma2TextConfig"),
        ("table-transformer", "TableTransformerConfig"),
        ("tapas", "TapasConfig"),
        ("textnet", "TextNetConfig"),
        ("time_series_transformer", "TimeSeriesTransformerConfig"),
        ("timesfm", "TimesFmConfig"),
        ("timesfm2_5", "TimesFm2_5Config"),
        ("timesformer", "TimesformerConfig"),
        ("timm_backbone", "TimmBackboneConfig"),
        ("timm_wrapper", "TimmWrapperConfig"),
        ("trocr", "TrOCRConfig"),
        ("tvp", "TvpConfig"),
        ("udop", "UdopConfig"),
        ("umt5", "UMT5Config"),
        ("unispeech", "UniSpeechConfig"),
        ("unispeech-sat", "UniSpeechSatConfig"),
        ("univnet", "UnivNetConfig"),
        ("upernet", "UperNetConfig"),
        ("uvdoc", "UVDocConfig"),
        ("uvdoc_backbone", "UVDocBackboneConfig"),
        ("vaultgemma", "VaultGemmaConfig"),
        ("vibevoice_acoustic_tokenizer", "VibeVoiceAcousticTokenizerConfig"),
        ("vibevoice_asr", "VibeVoiceAsrConfig"),
        ("video_llama_3", "VideoLlama3Config"),
        ("video_llama_3_vision", "VideoLlama3VisionConfig"),
        ("video_llava", "VideoLlavaConfig"),
        ("videomae", "VideoMAEConfig"),
        ("videomt", "VideomtConfig"),
        ("vilt", "ViltConfig"),
        ("vipllava", "VipLlavaConfig"),
        ("vision-encoder-decoder", "VisionEncoderDecoderConfig"),
        ("vision-text-dual-encoder", "VisionTextDualEncoderConfig"),
        ("visual_bert", "VisualBertConfig"),
        ("vit", "ViTConfig"),
        ("vit_mae", "ViTMAEConfig"),
        ("vit_msn", "ViTMSNConfig"),
        ("vitdet", "VitDetConfig"),
        ("vitmatte", "VitMatteConfig"),
        ("vitpose", "VitPoseConfig"),
        ("vitpose_backbone", "VitPoseBackboneConfig"),
        ("vits", "VitsConfig"),
        ("vivit", "VivitConfig"),
        ("vjepa2", "VJEPA2Config"),
        ("voxtral", "VoxtralConfig"),
        ("voxtral_encoder", "VoxtralEncoderConfig"),
        ("voxtral_realtime", "VoxtralRealtimeConfig"),
        ("voxtral_realtime_encoder", "VoxtralRealtimeEncoderConfig"),
        ("voxtral_realtime_text", "VoxtralRealtimeTextConfig"),
        ("wav2vec2", "Wav2Vec2Config"),
        ("wav2vec2-bert", "Wav2Vec2BertConfig"),
        ("wav2vec2-conformer", "Wav2Vec2ConformerConfig"),
        ("wavlm", "WavLMConfig"),
        ("whisper", "WhisperConfig"),
        ("xclip", "XCLIPConfig"),
        ("xclip_text_model", "XCLIPTextConfig"),
        ("xclip_vision_model", "XCLIPVisionConfig"),
        ("xcodec", "XcodecConfig"),
        ("xglm", "XGLMConfig"),
        ("xlm", "XLMConfig"),
        ("xlm-roberta", "XLMRobertaConfig"),
        ("xlm-roberta-xl", "XLMRobertaXLConfig"),
        ("xlnet", "XLNetConfig"),
        ("xlstm", "xLSTMConfig"),
        ("xmod", "XmodConfig"),
        ("yolos", "YolosConfig"),
        ("yoso", "YosoConfig"),
        ("youtu", "YoutuConfig"),
        ("zamba", "ZambaConfig"),
        ("zamba2", "Zamba2Config"),
        ("zoedepth", "ZoeDepthConfig"),
    ]
)

SPECIAL_MODEL_TYPE_TO_MODULE_NAME = OrderedDict(
    [
        ("aimv2_text_model", "aimv2"),
        ("aimv2_vision_model", "aimv2"),
        ("align_text_model", "align"),
        ("align_vision_model", "align"),
        ("altclip_text_model", "altclip"),
        ("altclip_vision_model", "altclip"),
        ("aria_text", "aria"),
        ("audio-spectrogram-transformer", "audio_spectrogram_transformer"),
        ("audioflamingo3_encoder", "audioflamingo3"),
        ("bert-generation", "bert_generation"),
        ("blenderbot-small", "blenderbot_small"),
        ("blip-2", "blip_2"),
        ("blip_2_qformer", "blip_2"),
        ("blip_2_vision_model", "blip_2"),
        ("blip_text_model", "blip"),
        ("blip_vision_model", "blip"),
        ("blt_global_transformer", "blt"),
        ("blt_local_decoder", "blt"),
        ("blt_local_encoder", "blt"),
        ("blt_patcher", "blt"),
        ("bridgetower_text_model", "bridgetower"),
        ("bridgetower_vision_model", "bridgetower"),
        ("chameleon_vqgan", "chameleon"),
        ("chinese_clip_text_model", "chinese_clip"),
        ("chinese_clip_vision_model", "chinese_clip"),
        ("clap_audio_model", "clap"),
        ("clap_text_model", "clap"),
        ("clip_text_model", "clip"),
        ("clip_vision_model", "clip"),
        ("clipseg_text_model", "clipseg"),
        ("clipseg_vision_model", "clipseg"),
        ("clvp_decoder", "clvp"),
        ("clvp_encoder", "clvp"),
        ("csm_depth_decoder_model", "csm"),
        ("dab-detr", "dab_detr"),
        ("data2vec-audio", "data2vec"),
        ("data2vec-text", "data2vec"),
        ("data2vec-vision", "data2vec"),
        ("deberta-v2", "deberta_v2"),
        ("detr", "maskformer"),
        ("dia_decoder", "dia"),
        ("dia_encoder", "dia"),
        ("donut-swin", "donut"),
        ("edgetam_vision_model", "edgetam"),
        ("emu3_text_model", "emu3"),
        ("emu3_vqgan", "emu3"),
        ("encoder-decoder", "encoder_decoder"),
        ("ernie4_5_vl_moe_text", "ernie4_5_vl_moe"),
        ("ernie4_5_vl_moe_vision", "ernie4_5_vl_moe"),
        ("fastspeech2_conformer_hifigan", "fastspeech2_conformer"),
        ("fastspeech2_conformer_with_hifigan", "fastspeech2_conformer"),
        ("flava_image_model", "flava"),
        ("flava_multimodal_model", "flava"),
        ("flava_text_model", "flava"),
        ("florence_vision", "florence2"),
        ("gemma3_text", "gemma3"),
        ("gemma3n_audio", "gemma3n"),
        ("gemma3n_text", "gemma3n"),
        ("gemma3n_vision", "gemma3n"),
        ("gemma4_audio", "gemma4"),
        ("gemma4_text", "gemma4"),
        ("gemma4_vision", "gemma4"),
        ("git_vision_model", "git"),
        ("glm4v_moe_text", "glm4v_moe"),
        ("glm4v_moe_vision", "glm4v_moe"),
        ("glm4v_text", "glm4v"),
        ("glm4v_vision", "glm4v"),
        ("glm_image_text", "glm_image"),
        ("glm_image_vision", "glm_image"),
        ("glm_image_vqmodel", "glm_image"),
        ("glm_ocr_text", "glm_ocr"),
        ("glm_ocr_vision", "glm_ocr"),
        ("glmasr_encoder", "glmasr"),
        ("granite_speech_encoder", "granite_speech"),
        ("grounding-dino", "grounding_dino"),
        ("groupvit_text_model", "groupvit"),
        ("groupvit_vision_model", "groupvit"),
        ("idefics2_perceiver", "idefics2"),
        ("idefics2_vision", "idefics2"),
        ("idefics3_vision", "idefics3"),
        ("idefics_perciever", "idefics"),
        ("idefics_vision", "idefics"),
        ("instructblip_qformer", "instructblip"),
        ("instructblip_vision_model", "instructblip"),
        ("instructblipvideo_qformer", "instructblipvideo"),
        ("instructblipvideo_vision_model", "instructblipvideo"),
        ("internvl_vision", "internvl"),
        ("janus_vision_model", "janus"),
        ("janus_vqgan", "janus"),
        ("kosmos-2", "kosmos2"),
        ("kosmos-2.5", "kosmos2_5"),
        ("kosmos_2_5_text_model", "kosmos2_5"),
        ("kosmos_2_5_vision_model", "kosmos2_5"),
        ("kosmos_2_text_model", "kosmos2"),
        ("kosmos_2_vision_model", "kosmos2"),
        ("lasr_ctc", "lasr"),
        ("lasr_encoder", "lasr"),
        ("llama4_text", "llama4"),
        ("llama4_vision_model", "llama4"),
        ("lw_detr_vit", "lw_detr"),
        ("maskformer-swin", "maskformer"),
        ("megatron-bert", "megatron_bert"),
        ("metaclip_2_text_model", "metaclip_2"),
        ("metaclip_2_vision_model", "metaclip_2"),
        ("mgp-str", "mgp_str"),
        ("minicpmv4_6_vision", "minicpmv4_6"),
        ("mlcd_vision_model", "mlcd"),
        ("mllama_text_model", "mllama"),
        ("mllama_vision_model", "mllama"),
        ("mm-grounding-dino", "mm_grounding_dino"),
        ("modernbert-decoder", "modernbert_decoder"),
        ("moonshine_streaming_encoder", "moonshine_streaming"),
        ("moshi_depth", "moshi"),
        ("musicgen_decoder", "musicgen"),
        ("musicgen_melody_decoder", "musicgen_melody"),
        ("nllb-moe", "nllb_moe"),
        ("omdet-turbo", "omdet_turbo"),
        ("openai-gpt", "openai"),
        ("owlv2_text_model", "owlv2"),
        ("owlv2_vision_model", "owlv2"),
        ("owlvit_text_model", "owlvit"),
        ("owlvit_vision_model", "owlvit"),
        ("paddleocr_vl_text", "paddleocr_vl"),
        ("paddleocr_vl_vision", "paddleocr_vl"),
        ("parakeet_ctc", "parakeet"),
        ("parakeet_encoder", "parakeet"),
        ("pe_audio_encoder", "pe_audio"),
        ("pe_audio_video_encoder", "pe_audio_video"),
        ("pe_video_encoder", "pe_video"),
        ("phi4_multimodal_audio", "phi4_multimodal"),
        ("phi4_multimodal_vision", "phi4_multimodal"),
        ("pix2struct_text_model", "pix2struct"),
        ("pix2struct_vision_model", "pix2struct"),
        ("qianfan_ocr_vision", "qianfan_ocr"),
        ("qwen2_5_omni_audio_encoder", "qwen2_5_omni"),
        ("qwen2_5_omni_bigvgan", "qwen2_5_omni"),
        ("qwen2_5_omni_dit", "qwen2_5_omni"),
        ("qwen2_5_omni_talker", "qwen2_5_omni"),
        ("qwen2_5_omni_text", "qwen2_5_omni"),
        ("qwen2_5_omni_thinker", "qwen2_5_omni"),
        ("qwen2_5_omni_token2wav", "qwen2_5_omni"),
        ("qwen2_5_omni_vision_encoder", "qwen2_5_omni"),
        ("qwen2_5_vl_text", "qwen2_5_vl"),
        ("qwen2_5_vl_vision", "qwen2_5_vl"),
        ("qwen2_audio_encoder", "qwen2_audio"),
        ("qwen2_vl_text", "qwen2_vl"),
        ("qwen2_vl_vision", "qwen2_vl"),
        ("qwen3_5_moe_text", "qwen3_5_moe"),
        ("qwen3_5_moe_vision", "qwen3_5_moe"),
        ("qwen3_5_text", "qwen3_5"),
        ("qwen3_5_vision", "qwen3_5"),
        ("qwen3_omni_moe_audio_encoder", "qwen3_omni_moe"),
        ("qwen3_omni_moe_talker_code_predictor", "qwen3_omni_moe"),
        ("qwen3_omni_moe_talker_text", "qwen3_omni_moe"),
        ("qwen3_omni_moe_text", "qwen3_omni_moe"),
        ("qwen3_omni_moe_thinker", "qwen3_omni_moe"),
        ("qwen3_omni_moe_vision_encoder", "qwen3_omni_moe"),
        ("qwen3_vl_moe_text", "qwen3_vl_moe"),
        ("qwen3_vl_moe_vision", "qwen3_vl_moe"),
        ("qwen3_vl_text", "qwen3_vl"),
        ("qwen3_vl_vision", "qwen3_vl"),
        ("roberta-prelayernorm", "roberta_prelayernorm"),
        ("rt_detr_resnet", "rt_detr"),
        ("sam2_hiera_det_model", "sam2"),
        ("sam2_vision_model", "sam2"),
        ("sam3_detr_decoder", "sam3"),
        ("sam3_detr_encoder", "sam3"),
        ("sam3_geometry_encoder", "sam3"),
        ("sam3_lite_text_detr_decoder", "sam3_lite_text"),
        ("sam3_lite_text_detr_encoder", "sam3_lite_text"),
        ("sam3_lite_text_geometry_encoder", "sam3_lite_text"),
        ("sam3_lite_text_mask_decoder", "sam3_lite_text"),
        ("sam3_lite_text_text_model", "sam3_lite_text"),
        ("sam3_mask_decoder", "sam3"),
        ("sam3_vision_model", "sam3"),
        ("sam3_vit_model", "sam3"),
        ("sam_hq_vision_model", "sam_hq"),
        ("sam_vision_model", "sam"),
        ("sew-d", "sew_d"),
        ("siglip2_text_model", "siglip2"),
        ("siglip2_vision_model", "siglip2"),
        ("siglip_text_model", "siglip"),
        ("siglip_vision_model", "siglip"),
        ("smolvlm_vision", "smolvlm"),
        ("speech-encoder-decoder", "speech_encoder_decoder"),
        ("speecht5_hifigan", "speecht5"),
        ("t5_gemma_module", "t5gemma"),
        ("t5gemma2_decoder", "t5gemma2"),
        ("t5gemma2_encoder", "t5gemma2"),
        ("t5gemma2_text", "t5gemma2"),
        ("table-transformer", "table_transformer"),
        ("unispeech-sat", "unispeech_sat"),
        ("uvdoc_backbone", "uvdoc"),
        ("video_llama_3_vision", "video_llama_3"),
        ("vision-encoder-decoder", "vision_encoder_decoder"),
        ("vision-text-dual-encoder", "vision_text_dual_encoder"),
        ("voxtral_encoder", "voxtral"),
        ("voxtral_realtime_encoder", "voxtral_realtime"),
        ("voxtral_realtime_text", "voxtral_realtime"),
        ("wav2vec2-bert", "wav2vec2_bert"),
        ("wav2vec2-conformer", "wav2vec2_conformer"),
        ("xclip", "x_clip"),
        ("xclip_text_model", "x_clip"),
        ("xclip_vision_model", "x_clip"),
        ("xlm-roberta", "xlm_roberta"),
        ("xlm-roberta-xl", "xlm_roberta_xl"),
    ]
)

IMAGE_PROCESSOR_MAPPING_NAMES = OrderedDict(
    [
        ("aria", {"pil": "AriaImageProcessorPil", "torchvision": "AriaImageProcessor"}),
        ("beit", {"pil": "BeitImageProcessorPil", "torchvision": "BeitImageProcessor"}),
        ("bit", {"pil": "BitImageProcessorPil", "torchvision": "BitImageProcessor"}),
        ("blip", {"pil": "BlipImageProcessorPil", "torchvision": "BlipImageProcessor"}),
        ("bridgetower", {"pil": "BridgeTowerImageProcessorPil", "torchvision": "BridgeTowerImageProcessor"}),
        ("chameleon", {"pil": "ChameleonImageProcessorPil", "torchvision": "ChameleonImageProcessor"}),
        ("chinese_clip", {"pil": "ChineseCLIPImageProcessorPil", "torchvision": "ChineseCLIPImageProcessor"}),
        ("chmv2", {"torchvision": "CHMv2ImageProcessor"}),
        ("clip", {"pil": "CLIPImageProcessorPil", "torchvision": "CLIPImageProcessor"}),
        ("cohere2_vision", {"torchvision": "Cohere2VisionImageProcessor"}),
        (
            "conditional_detr",
            {"pil": "ConditionalDetrImageProcessorPil", "torchvision": "ConditionalDetrImageProcessor"},
        ),
        ("convnext", {"pil": "ConvNextImageProcessorPil", "torchvision": "ConvNextImageProcessor"}),
        ("deepseek_vl", {"pil": "DeepseekVLImageProcessorPil", "torchvision": "DeepseekVLImageProcessor"}),
        (
            "deepseek_vl_hybrid",
            {"pil": "DeepseekVLHybridImageProcessorPil", "torchvision": "DeepseekVLHybridImageProcessor"},
        ),
        ("deformable_detr", {"pil": "DeformableDetrImageProcessorPil", "torchvision": "DeformableDetrImageProcessor"}),
        ("deit", {"pil": "DeiTImageProcessorPil", "torchvision": "DeiTImageProcessor"}),
        ("depth_pro", {"torchvision": "DepthProImageProcessor"}),
        ("detr", {"pil": "DetrImageProcessorPil", "torchvision": "DetrImageProcessor"}),
        ("dinov3_vit", {"torchvision": "DINOv3ViTImageProcessor"}),
        ("dpt", {"pil": "DPTImageProcessorPil", "torchvision": "DPTImageProcessor"}),
        ("efficientloftr", {"pil": "EfficientLoFTRImageProcessorPil", "torchvision": "EfficientLoFTRImageProcessor"}),
        ("efficientnet", {"pil": "EfficientNetImageProcessorPil", "torchvision": "EfficientNetImageProcessor"}),
        ("eomt", {"pil": "EomtImageProcessorPil", "torchvision": "EomtImageProcessor"}),
        ("ernie4_5_vl_moe", {"pil": "Ernie4_5_VLMoeImageProcessorPil", "torchvision": "Ernie4_5_VLMoeImageProcessor"}),
        ("flava", {"pil": "FlavaImageProcessorPil", "torchvision": "FlavaImageProcessor"}),
        ("fuyu", {"pil": "FuyuImageProcessorPil", "torchvision": "FuyuImageProcessor"}),
        ("gemma3", {"pil": "Gemma3ImageProcessorPil", "torchvision": "Gemma3ImageProcessor"}),
        ("gemma4", {"pil": "Gemma4ImageProcessorPil", "torchvision": "Gemma4ImageProcessor"}),
        ("glm46v", {"pil": "Glm46VImageProcessorPil", "torchvision": "Glm46VImageProcessor"}),
        ("glm4v", {"pil": "Glm4vImageProcessorPil", "torchvision": "Glm4vImageProcessor"}),
        ("glm_image", {"pil": "GlmImageImageProcessorPil", "torchvision": "GlmImageImageProcessor"}),
        ("glpn", {"pil": "GLPNImageProcessorPil", "torchvision": "GLPNImageProcessor"}),
        ("got_ocr2", {"pil": "GotOcr2ImageProcessorPil", "torchvision": "GotOcr2ImageProcessor"}),
        ("grounding-dino", {"pil": "GroundingDinoImageProcessorPil", "torchvision": "GroundingDinoImageProcessor"}),
        ("idefics", {"pil": "IdeficsImageProcessorPil", "torchvision": "IdeficsImageProcessor"}),
        ("idefics2", {"pil": "Idefics2ImageProcessorPil", "torchvision": "Idefics2ImageProcessor"}),
        ("idefics3", {"pil": "Idefics3ImageProcessorPil", "torchvision": "Idefics3ImageProcessor"}),
        ("imagegpt", {"pil": "ImageGPTImageProcessorPil", "torchvision": "ImageGPTImageProcessor"}),
        ("janus", {"pil": "JanusImageProcessorPil", "torchvision": "JanusImageProcessor"}),
        ("layoutlmv2", {"pil": "LayoutLMv2ImageProcessorPil", "torchvision": "LayoutLMv2ImageProcessor"}),
        ("layoutlmv3", {"pil": "LayoutLMv3ImageProcessorPil", "torchvision": "LayoutLMv3ImageProcessor"}),
        ("levit", {"pil": "LevitImageProcessorPil", "torchvision": "LevitImageProcessor"}),
        ("lfm2_vl", {"torchvision": "Lfm2VlImageProcessor"}),
        ("lightglue", {"pil": "LightGlueImageProcessorPil", "torchvision": "LightGlueImageProcessor"}),
        ("llama4", {"torchvision": "Llama4ImageProcessor"}),
        ("llava", {"pil": "LlavaImageProcessorPil", "torchvision": "LlavaImageProcessor"}),
        ("llava_next", {"pil": "LlavaNextImageProcessorPil", "torchvision": "LlavaNextImageProcessor"}),
        ("llava_onevision", {"pil": "LlavaOnevisionImageProcessorPil", "torchvision": "LlavaOnevisionImageProcessor"}),
        ("mask2former", {"pil": "Mask2FormerImageProcessorPil", "torchvision": "Mask2FormerImageProcessor"}),
        ("maskformer", {"pil": "MaskFormerImageProcessorPil", "torchvision": "MaskFormerImageProcessor"}),
        ("minicpmv4_6", {"pil": "MiniCPMV4_6ImageProcessorPil", "torchvision": "MiniCPMV4_6ImageProcessor"}),
        ("mllama", {"pil": "MllamaImageProcessorPil", "torchvision": "MllamaImageProcessor"}),
        ("mobilenet_v1", {"pil": "MobileNetV1ImageProcessorPil", "torchvision": "MobileNetV1ImageProcessor"}),
        ("mobilenet_v2", {"pil": "MobileNetV2ImageProcessorPil", "torchvision": "MobileNetV2ImageProcessor"}),
        ("mobilevit", {"pil": "MobileViTImageProcessorPil", "torchvision": "MobileViTImageProcessor"}),
        ("nougat", {"pil": "NougatImageProcessorPil", "torchvision": "NougatImageProcessor"}),
        ("oneformer", {"pil": "OneFormerImageProcessorPil", "torchvision": "OneFormerImageProcessor"}),
        ("ovis2", {"pil": "Ovis2ImageProcessorPil", "torchvision": "Ovis2ImageProcessor"}),
        ("owlv2", {"pil": "Owlv2ImageProcessorPil", "torchvision": "Owlv2ImageProcessor"}),
        ("owlvit", {"pil": "OwlViTImageProcessorPil", "torchvision": "OwlViTImageProcessor"}),
        ("paddleocr_vl", {"pil": "PaddleOCRVLImageProcessorPil", "torchvision": "PaddleOCRVLImageProcessor"}),
        ("perceiver", {"pil": "PerceiverImageProcessorPil", "torchvision": "PerceiverImageProcessor"}),
        ("perception_lm", {"torchvision": "PerceptionLMImageProcessor"}),
        ("phi4_multimodal", {"torchvision": "Phi4MultimodalImageProcessor"}),
        ("pi0", {"torchvision": "PI0ImageProcessor"}),
        ("pix2struct", {"pil": "Pix2StructImageProcessorPil", "torchvision": "Pix2StructImageProcessor"}),
        ("pixtral", {"pil": "PixtralImageProcessorPil", "torchvision": "PixtralImageProcessor"}),
        ("poolformer", {"pil": "PoolFormerImageProcessorPil", "torchvision": "PoolFormerImageProcessor"}),
        ("pp_chart2table", {"pil": "PPChart2TableImageProcessorPil", "torchvision": "PPChart2TableImageProcessor"}),
        ("pp_doclayout_v2", {"torchvision": "PPDocLayoutV2ImageProcessor"}),
        ("pp_doclayout_v3", {"torchvision": "PPDocLayoutV3ImageProcessor"}),
        ("pp_lcnet", {"torchvision": "PPLCNetImageProcessor"}),
        ("pp_ocrv5_server_det", {"torchvision": "PPOCRV5ServerDetImageProcessor"}),
        ("pp_ocrv5_server_rec", {"torchvision": "PPOCRV5ServerRecImageProcessor"}),
        (
            "prompt_depth_anything",
            {"pil": "PromptDepthAnythingImageProcessorPil", "torchvision": "PromptDepthAnythingImageProcessor"},
        ),
        ("pvt", {"pil": "PvtImageProcessorPil", "torchvision": "PvtImageProcessor"}),
        ("qwen2_vl", {"pil": "Qwen2VLImageProcessorPil", "torchvision": "Qwen2VLImageProcessor"}),
        ("rt_detr", {"pil": "RTDetrImageProcessorPil", "torchvision": "RTDetrImageProcessor"}),
        ("sam", {"pil": "SamImageProcessorPil", "torchvision": "SamImageProcessor"}),
        ("sam2", {"torchvision": "Sam2ImageProcessor"}),
        ("sam3", {"torchvision": "Sam3ImageProcessor"}),
        ("segformer", {"pil": "SegformerImageProcessorPil", "torchvision": "SegformerImageProcessor"}),
        ("seggpt", {"pil": "SegGptImageProcessorPil", "torchvision": "SegGptImageProcessor"}),
        ("siglip", {"pil": "SiglipImageProcessorPil", "torchvision": "SiglipImageProcessor"}),
        ("siglip2", {"pil": "Siglip2ImageProcessorPil", "torchvision": "Siglip2ImageProcessor"}),
        ("slanext", {"torchvision": "SLANeXtImageProcessor"}),
        ("smolvlm", {"pil": "SmolVLMImageProcessorPil", "torchvision": "SmolVLMImageProcessor"}),
        ("superglue", {"pil": "SuperGlueImageProcessorPil", "torchvision": "SuperGlueImageProcessor"}),
        ("superpoint", {"pil": "SuperPointImageProcessorPil", "torchvision": "SuperPointImageProcessor"}),
        ("swin2sr", {"pil": "Swin2SRImageProcessorPil", "torchvision": "Swin2SRImageProcessor"}),
        ("textnet", {"pil": "TextNetImageProcessorPil", "torchvision": "TextNetImageProcessor"}),
        ("tvp", {"pil": "TvpImageProcessorPil", "torchvision": "TvpImageProcessor"}),
        ("uvdoc", {"torchvision": "UVDocImageProcessor"}),
        ("video_llama_3", {"pil": "VideoLlama3ImageProcessorPil", "torchvision": "VideoLlama3ImageProcessor"}),
        ("videomae", {"pil": "VideoMAEImageProcessorPil", "torchvision": "VideoMAEImageProcessor"}),
        ("vilt", {"pil": "ViltImageProcessorPil", "torchvision": "ViltImageProcessor"}),
        ("vit", {"pil": "ViTImageProcessorPil", "torchvision": "ViTImageProcessor"}),
        ("vitmatte", {"pil": "VitMatteImageProcessorPil", "torchvision": "VitMatteImageProcessor"}),
        ("vitpose", {"pil": "VitPoseImageProcessorPil", "torchvision": "VitPoseImageProcessor"}),
        ("yolos", {"pil": "YolosImageProcessorPil", "torchvision": "YolosImageProcessor"}),
        ("zoedepth", {"pil": "ZoeDepthImageProcessorPil", "torchvision": "ZoeDepthImageProcessor"}),
    ]
)

VIDEO_PROCESSOR_MAPPING_NAMES = OrderedDict(
    [
        ("ernie4_5_vl_moe", "Ernie4_5_VLMoeVideoProcessor"),
        ("gemma4", "Gemma4VideoProcessor"),
        ("glm46v", "Glm46VVideoProcessor"),
        ("glm4v", "Glm4vVideoProcessor"),
        ("instructblipvideo", "InstructBlipVideoVideoProcessor"),
        ("internvl", "InternVLVideoProcessor"),
        ("llava_next_video", "LlavaNextVideoVideoProcessor"),
        ("llava_onevision", "LlavaOnevisionVideoProcessor"),
        ("minicpmv4_6", "MiniCPMV4_6VideoProcessor"),
        ("pe_video", "PeVideoVideoProcessor"),
        ("perception_lm", "PerceptionLMVideoProcessor"),
        ("qwen2_vl", "Qwen2VLVideoProcessor"),
        ("qwen3_vl", "Qwen3VLVideoProcessor"),
        ("sam2_video", "Sam2VideoVideoProcessor"),
        ("smolvlm", "SmolVLMVideoProcessor"),
        ("video_llama_3", "VideoLlama3VideoProcessor"),
        ("video_llava", "VideoLlavaVideoProcessor"),
        ("videomae", "VideoMAEVideoProcessor"),
        ("videomt", "VideomtVideoProcessor"),
        ("vjepa2", "VJEPA2VideoProcessor"),
    ]
)