AI模型

汇集最全的AI模型资源,包括通用大模型、垂直领域模型及实用工具,提供使用教程、测评与更新动态,让你快速掌握AI模型应用。

混元3D世界模型2.0 – 腾讯混元开源的生成与重建一体化3D世界模型

混元3D世界模型2.0是腾讯混元开源的多模态3D世界模型,支持文本、图像与视频输入生成可漫游3DGS/mesh场景,并实现世界重建与数字孪生。模型采用全景生成、轨...

ERNIE-Image – 百度文心开源的8B参数文生图模型

ERNIE-Image是百度文心开源的8B参数文生图模型,提供标准版50步高质量生成与Turbo版8步快速生成两种模式,支持高可控结构化图像生成与中英文长文本精准渲染,...

Spark 2.0 – World Labs 开源的Web端3D高斯溅射渲染引擎

Spark 2.0是World Labs开源的Web端3D高斯溅射渲染引擎,支持3DGS实时渲染、多对象融合与流式加载能力。适用于Web 3D展示、虚拟世界构建和数字孪生场景,具备L...

LPM 1.0 – 米哈游蔡浩宇推出的多模态对话视频生成模型

LPM 1.0是一款面向多模态交互的视频生成模型,支持图像、语音与文本联合驱动生成对话视频与虚拟人内容。该模型具备身份一致性控制、语音驱动口型同步及长时序...

MiniMax Music 2.6 – MiniMax推出的AI音乐生成与可控创作模型

MiniMax Music 2.6是一款由MiniMax研发的AI音乐生成模型,支持文本生成音乐、音乐结构控制与Cover重编曲功能,适用于短视频配乐、游戏音频制作与内容创作场景...

VimRAG – 阿里通义开源的多模态RAG与Agent检索增强生成框架

VimRAG快速摘要: VimRAG是阿里巴巴NLP团队提出的多模态检索增强生成RAG框架,支持文本、图像与视频的联合检索与推理任务,适用于复杂知识理解与多模态问...

Muse Spark – Meta 推出的原生多模态多智能体推理模型

Muse Spark是Meta推出的原生多模态多智能体推理模型,支持视觉理解、工具调用与多Agent协同推理,适用于复杂任务拆解、智能问答与多模态交互应用场景。模型具...

Seeduplex – 字节跳动推出的全双工实时语音交互大模型

Seeduplex是字节跳动推出的全双工语音大模型,支持实时语音对话、语音转文字、多轮语音理解与低延迟交互,适用于语音助手、会议记录、客服系统等场景,具备语...

GLM-5.1 – 智谱AI推出的Agent智能体与自动编程大语言模型

GLM-5.1是智谱AI推出的Agent智能体大语言模型,支持长上下文推理、自动编程、工具调用与复杂任务执行能力。适用于AI编程助手、代码自动修复、DevOps自动化等...

PixVerse C1 – 爱诗科技推出的首个影视级AI视频生成模型

PixVerse C1 是爱诗科技推出的影视级AI视频生成模型,支持文生视频、图生视频、首尾帧过渡和参考分镜生成,最高输出15秒1080P音画同步视频,适用于短视频创作...
1 2 3 4 5 12