标签:多模态模型

Mamoda2.5 – 字节跳动推出的统一多模态视频生成模型

Mamoda2.5是字节跳动Mamoda Team推出的统一多模态AI模型,支持文生视频、视频编辑、图像生成与多模态理解。模型采用DiT-MoE架构与少步蒸馏技术,适用于AI短视...

SenseNova U1 – 商汤日日新SenseNova推出的原生统一多模态理解生成模型

SenseNova U1是商汤日日新SenseNova推出的原生统一多模态模型,基于NEO-unify架构实现图像理解、生成与编辑统一建模,支持连续图文生成与多模态推理,适用于A...

InternSVG – 上海人工智能实验室推出的SVG生成与理解多模态模型

InternSVG 是由上海人工智能实验室推出的SVG生成与理解多模态模型,支持文本生成SVG、图像转SVG、SVG编辑与解析等任务。基于大规模SAgoge数据集训练,适用于...

Gemini 3.1 Flash Live – Google推出的多模态大语言模型实时推理平台

Gemini 3.1 Flash Live是Google发布的多模态大语言模型平台,支持实时推理和长上下文处理,可通过API和AI Studio调用,适用于文本、语音和图像任务,提供企业...

PrismAudio – 阿里通义推出的视频到音频多模态生成模型

PrismAudio是FunAudioLLM开发的多模态AI模型,专注视频到音频生成,支持高精度时间对齐、多维感知优化和多模态条件输入,适用于影视后期、游戏音效及科研实验。

MiMo-V2-Omni – 小米推出的全模态Agent基座模型,融合文本视觉语音推理执行

MiMo-V2-Omni是什么 MiMo-V2-Omni 是小米推出的全模态 Agent 基座的AI模型,于 2026 年 3 月发布,由小米技术团队开发,原生融合文本、视觉和语音三大模态...

Fun-CineForge – 通义实验室开源的影视级多模态配音大模型

Fun-CineForge 是通义实验室开源的影视级多模态配音大模型,支持独白、对白和多角色场景配音,具有音画同步、情绪表达与说话人切换功能,适用于电影及短视频...

InternVL-U – 上海人工智能实验室推出的多模态大语言模型

InternVL-U 是由上海人工智能实验室发布的多模态大语言模型,支持文本与图像输入处理,具备逻辑推理、生成与编辑能力,适用于科研、视觉问答及跨模态任务。

PixVerse R1 – 爱诗科技推出的实时多模态视频生成模型

PixVerse R1是什么 PixVerse R1 是由爱诗科技(PixVerse)推出的实时世界模型,发布于 2026 年初,定位为面向视频生成与动态场景建模的 AI模型。与传统大...

SenseNova-MARS – 商汤科技开源的多模态自主推理与视觉搜索模型

SenseNova-MARS 是商汤科技推出的开源多模态视觉语言模型,支持图像与文本联合推理、动态工具调用与多步任务执行。该模型提供 8B 与 32B 参数版本,适用于跨...
1 2