标签:多模态模型
Gemini 3.1 Flash Live – Google推出的多模态大语言模型实时推理平台
Gemini 3.1 Flash Live是Google发布的多模态大语言模型平台,支持实时推理和长上下文处理,可通过API和AI Studio调用,适用于文本、语音和图像任务,提供企业...
PrismAudio – 阿里通义推出的视频到音频多模态生成模型
PrismAudio是FunAudioLLM开发的多模态AI模型,专注视频到音频生成,支持高精度时间对齐、多维感知优化和多模态条件输入,适用于影视后期、游戏音效及科研实验。
MiMo-V2-Omni – 小米推出的全模态Agent基座模型,融合文本视觉语音推理执行
MiMo-V2-Omni是什么 MiMo-V2-Omni 是小米推出的全模态 Agent 基座的AI模型,于 2026 年 3 月发布,由小米技术团队开发,原生融合文本、视觉和语音三大模态...
Fun-CineForge – 通义实验室开源的影视级多模态配音大模型
Fun-CineForge 是通义实验室开源的影视级多模态配音大模型,支持独白、对白和多角色场景配音,具有音画同步、情绪表达与说话人切换功能,适用于电影及短视频...
InternVL-U – 上海人工智能实验室推出的多模态大语言模型
InternVL-U 是由上海人工智能实验室发布的多模态大语言模型,支持文本与图像输入处理,具备逻辑推理、生成与编辑能力,适用于科研、视觉问答及跨模态任务。
PixVerse R1 – 爱诗科技推出的实时多模态视频生成模型
PixVerse R1是什么 PixVerse R1 是由爱诗科技(PixVerse)推出的实时世界模型,发布于 2026 年初,定位为面向视频生成与动态场景建模的 AI模型。与传统大...
SenseNova-MARS – 商汤科技开源的多模态自主推理与视觉搜索模型
SenseNova-MARS 是商汤科技推出的开源多模态视觉语言模型,支持图像与文本联合推理、动态工具调用与多步任务执行。该模型提供 8B 与 32B 参数版本,适用于跨...
Intern-S1-Pro – 上海AI实验室推出的科学多模态大模型
Intern-S1-Pro 是上海 AI 实验室推出的科学多模态大模型,基于 MoE 架构与通专融合技术,支持科学推理、多模态理解、长时序信号分析和科研智能体构建,适用于...
MiniCPM-o 4.5 – 全双工实时交互的开源多模态模型
MiniCPM-o 4.5 是面壁智能推出的 9B 参数开源全模态模型,支持全双工实时交互,集成视觉理解、语音识别与语音生成能力,可在端侧设备与国产算力平台部署,适...

浙公网安备33010202004812号