AI模型
汇集最全的AI模型资源,包括通用大模型、垂直领域模型及实用工具,提供使用教程、测评与更新动态,让你快速掌握AI模型应用。
Gemini 3.1 Flash-Lite – Google推出的高性能轻量级多模态推理模型
Gemini 3.1 Flash-Lite 是 Google DeepMind 推出的轻量级多模态大模型,支持高并发文本生成、翻译、内容审核和实时界面生成,提供低延迟、高吞吐量和低成本调...
GPT-5.3 Instant – OpenAI推出的高响应速度通用对话模型与API调用版本
GPT-5.3 Instant 是 OpenAI 推出的 GPT-5 系列即时响应大语言模型,支持自然对话、联网搜索整合、多轮上下文理解和API调用,适用于聊天、写作、开发和自动化...
FireRed-OCR – 小红书推出的文档结构解析与Markdown转换工具
FireRed-OCR是一款轻量级文档结构解析模型,可高效识别复杂表格、数学公式和层级标题,将PDF、扫描文档等内容转换为结构化Markdown文本,适合科研、财务和企...
Fun-AudioGen-VD – 阿里通义专业语音生成与场景化音频模型
Fun-AudioGen-VD 是阿里通义实验室推出的高质量语音生成模型,支持自然语言指令生成个性化音色、情绪表达及沉浸式场景音频,适用于影视配音、游戏角色语音、...
Fun-CosyVoice3.5 – 阿里通义语音生成模型支持多语种音色克隆与自然语言控制
Fun-CosyVoice3.5 是阿里通义实验室推出的语音生成模型,支持多语种语音合成、音色克隆、自然语言控制和低延迟流式输出,适用于数字人、语音助手、有声内容制...
Nano Banana 2 – 谷歌高效图像生成模型,支持多语言与高分辨率
Nano Banana 2 是 Google DeepMind 发布的新一代图像生成模型,支持高分辨率、多语言文字渲染、角色与物品一致性保持,并可通过 Gemini App、Google API 和 V...
SkyReels V4 – 昆仑万维推出的多模态音视频生成与统一编辑模型
SkyReels V4 是昆仑万维推出的多模态音视频生成基础模型,支持文本、图像、视频与音频联合控制,集视频生成、修复与编辑于一体,最高支持1080p分辨率输出。本...
Spirit-v1.5 – 千寻智能推出的开源具身智能基础模型与VLA机器人架构实践
Spirit-v1.5 是千寻智能发布的开源具身智能基础模型,基于统一 Vision-Language-Action 架构,支持多机器人平台部署与跨任务泛化能力,在 RoboChallenge 真机...
Gemini 3.1 Pro – 谷歌推出的高阶多模态推理模型,支持百万Token长上下文与复杂任务执行
Gemini 3.1 Pro是Google DeepMind推出的多模态大模型版本,主打复杂推理、代码生成与Agent任务执行能力,支持约100万Token长上下文窗口与企业级API接入,适用...
Lyria 3 – Google DeepMind推出的多模态AI音乐生成模型,支持自动作词与人声合成
Lyria 3 是 Google DeepMind 推出的多模态 AI 音乐生成模型,支持文本、图片与视频生成音乐,具备自动歌词创作、人声合成、风格控制与数字水印机制,已集成至...

浙公网安备33010202004812号