多模态模型 | AI工具箱

Gemini 3.1 Flash Live – Google推出的多模态大语言模型实时推理平台

Gemini 3.1 Flash Live是Google发布的多模态大语言模型平台，支持实时推理和长上下文处理，可通过API和AI Studio调用，适用于文本、语音和图像任务，提供企业...

AI模型

10小时前

PrismAudio是FunAudioLLM开发的多模态AI模型，专注视频到音频生成，支持高精度时间对齐、多维感知优化和多模态条件输入，适用于影视后期、游戏音效及科研实验。

AI模型

2天前

MiMo-V2-Omni是什么 MiMo-V2-Omni 是小米推出的全模态 Agent 基座的AI模型，于 2026 年 3 月发布，由小米技术团队开发，原生融合文本、视觉和语音三大模态...

AI模型

4天前

Fun-CineForge 是通义实验室开源的影视级多模态配音大模型，支持独白、对白和多角色场景配音，具有音画同步、情绪表达与说话人切换功能，适用于电影及短视频...

AI模型

7天前

InternVL-U 是由上海人工智能实验室发布的多模态大语言模型，支持文本与图像输入处理，具备逻辑推理、生成与编辑能力，适用于科研、视觉问答及跨模态任务。

AI模型

7天前

PixVerse R1是什么 PixVerse R1 是由爱诗科技（PixVerse）推出的实时世界模型，发布于 2026 年初，定位为面向视频生成与动态场景建模的 AI模型。与传统大...

AI模型

1周前

SenseNova-MARS 是商汤科技推出的开源多模态视觉语言模型，支持图像与文本联合推理、动态工具调用与多步任务执行。该模型提供 8B 与 32B 参数版本，适用于跨...

AI模型

2个月前

Intern-S1-Pro 是上海 AI 实验室推出的科学多模态大模型，基于 MoE 架构与通专融合技术，支持科学推理、多模态理解、长时序信号分析和科研智能体构建，适用于...

AI模型

2个月前

MiniCPM-o 4.5 是面壁智能推出的 9B 参数开源全模态模型，支持全双工实时交互，集成视觉理解、语音识别与语音生成能力，可在端侧设备与国产算力平台部署，适...

AI模型

2个月前