多模态模型 | AI工具箱

Keye-VL-2.0-30B-A3B – 快手推出的长视频多模态理解模型

Keye-VL-2.0-30B-A3B 是快手 Keye 团队发布的多模态大语言模型，支持 256K 超长上下文、视频理解、时序定位与 Agent 协作能力，可用于长视频分析、AI视频理解...

AI模型

1个月前

Confucius4是网易有道推出的开源多模态数学推理模型（子曰4），支持图文数学题解析、AI自动解题与逻辑推理生成，适用于数学教育、竞赛训练与科研公式分析场景...

AI模型

1个月前

Mamoda2.5是字节跳动Mamoda Team推出的统一多模态AI模型，支持文生视频、视频编辑、图像生成与多模态理解。模型采用DiT-MoE架构与少步蒸馏技术，适用于AI短视...

AI模型

2个月前

SenseNova U1是商汤日日新SenseNova推出的原生统一多模态模型，基于NEO-unify架构实现图像理解、生成与编辑统一建模，支持连续图文生成与多模态推理，适用于A...

AI模型

2个月前

InternSVG 是由上海人工智能实验室推出的SVG生成与理解多模态模型，支持文本生成SVG、图像转SVG、SVG编辑与解析等任务。基于大规模SAgoge数据集训练，适用于...

AI模型

3个月前

Gemini 3.1 Flash Live是Google发布的多模态大语言模型平台，支持实时推理和长上下文处理，可通过API和AI Studio调用，适用于文本、语音和图像任务，提供企业...

AI模型

3个月前

PrismAudio是FunAudioLLM开发的多模态AI模型，专注视频到音频生成，支持高精度时间对齐、多维感知优化和多模态条件输入，适用于影视后期、游戏音效及科研实验。

AI模型

3个月前

MiMo-V2-Omni是什么 MiMo-V2-Omni 是小米推出的全模态 Agent 基座的AI模型，于 2026 年 3 月发布，由小米技术团队开发，原生融合文本、视觉和语音三大模态...

AI模型

3个月前

Fun-CineForge 是通义实验室开源的影视级多模态配音大模型，支持独白、对白和多角色场景配音，具有音画同步、情绪表达与说话人切换功能，适用于电影及短视频...

AI模型

3个月前

InternVL-U 是由上海人工智能实验室发布的多模态大语言模型，支持文本与图像输入处理，具备逻辑推理、生成与编辑能力，适用于科研、视觉问答及跨模态任务。

AI模型

3个月前