AI模型
汇集最全的AI模型资源,包括通用大模型、垂直领域模型及实用工具,提供使用教程、测评与更新动态,让你快速掌握AI模型应用。
Fun-CineForge – 通义实验室开源的影视级多模态配音大模型
Fun-CineForge 是通义实验室开源的影视级多模态配音大模型,支持独白、对白和多角色场景配音,具有音画同步、情绪表达与说话人切换功能,适用于电影及短视频...
InternVL-U – 上海人工智能实验室推出的多模态大语言模型
InternVL-U 是由上海人工智能实验室发布的多模态大语言模型,支持文本与图像输入处理,具备逻辑推理、生成与编辑能力,适用于科研、视觉问答及跨模态任务。
Kairos 3.0-4B – 大晓机器人开源的具身原生世界模型
Kairos 3.0-4B 是大晓机器人开源的具身原生世界模型,支持多模态理解、长时序视频生成与跨本体机器人控制,适用于动态场景建模和机器人研究。
PixVerse R1 – 爱诗科技推出的实时多模态视频生成模型
PixVerse R1是什么 PixVerse R1 是由爱诗科技(PixVerse)推出的实时世界模型,发布于 2026 年初,定位为面向视频生成与动态场景建模的 AI模型。与传统大...
Nemotron 3 Super – 英伟达开源的大语言模型,支持长上下文与智能体推理
Nemotron 3 Super是什么 Nemotron 3 Super 是由 NVIDIA 发布于 2026 年 3 月的开源大语言模型,属于 Nemotron 3 系列 AI 模型家族的中等规模成员,旨在支...
Gemini Embedding 2 – Google DeepMind推出的多模态向量嵌入AI模型
Gemini Embedding 2 是 Google DeepMind 发布的多模态向量嵌入AI模型,支持文本、图像、音频和文档统一向量表示,适用于语义搜索、RAG系统、向量数据库、知识...
FireRed-Image-Edit – 小红书推出的开源AI图像编辑模型,支持高精度编辑与多模态处理
FireRed-Image-Edit 是小红书推出的开源AI图像编辑模型,基于扩散Transformer架构,支持多模态输入、高精度图像编辑、人物一致性保持和文本修改能力,适用于...
GPT-5.4 – OpenAI推出的专业级AI模型,支持百万上下文与任务自动化能力
GPT-5.4是OpenAI发布的专业级大语言模型,支持约100万Token上下文、多模态输入及API调用,在推理能力、编程能力与自动化任务执行方面表现稳定,适用于内容生...
Phi-4-reasoning-vision-15B – 微软推出的多模态推理视觉模型,支持GUI理解与数学推理
Phi-4-reasoning-vision-15B 是微软发布的150亿参数多模态推理模型,支持视觉理解、数学推理、GUI界面识别和文档解析,适合本地部署与自动化代理开发,属于Ph...
MiniMax Music 2.5+ – MiniMax推出的多风格AI音乐生成模型,支持纯音乐创作与跨风格融合
MiniMax Music 2.5+是一款由MiniMax推出的AI音乐生成模型,支持古典管弦、电子、氛围音等多风格创作,可应用于游戏、影视、广告、冥想等场景,提供高保真纯音...

浙公网安备33010202004812号