AI模型

GLM-OCR – 智谱开源的轻量级多模态OCR模型

GLM-OCR是智谱AI推出的轻量级多模态OCR模型,支持手写体、复杂表格、公式与代码识别,输出HTML与JSON结构,适用于企业文档数字化、教育科研及票据解析等场景。

Step 3.5 Flash – 256K上下文与350TPS高速推理的Agent基座模型

Step 3.5 Flash 是阶跃星辰推出的开源大模型,采用稀疏 MoE 架构,总参数 1960 亿,每 token 仅激活 110 亿参数,支持 256K 长上下文与最高 350 TPS 推理速度...

Vidu Q3 – 支持16秒音画同步的AI视频生成模型

Vidu Q3 是生数科技推出的新一代 AI 视频生成模型,支持一次生成 16 秒 1080p 音画同步视频,集成对白、环境音效与 BGM,具备导演级镜头切换、多语言文字渲染...

TranslateGemma – 基于Gemma的多语言高质量翻译模型

TranslateGemma 是基于 Google Gemma 系列优化的多语言翻译模型,专注于高质量文本翻译、长上下文语义保持与可控输出,适合开发者、企业本地化及私有部署翻译...

GLM-Image – 面向中文与复杂文字渲染的多模态图像生成模型

GLM-Image 是由智谱 AI 推出的国产多模态图像生成模型,基于自回归与扩散解码器混合架构,支持高分辨率文生图、复杂中文文字渲染与知识密集型图像生成,适用...

Gemini 3 Flash – 高速多模态推理与低成本调用模型

Gemini 3 Flash 是谷歌推出的高速低成本 AI 模型,支持长上下文理解、多模态推理与稳定高并发调用,适用于搜索增强、代码生成、实时交互与企业级应用部署。

GPT-5.2 – OpenAI最新推出的通用AI模型系列

GPT-5.2 是 OpenAI 最新发布的通用 AI 模型系列,具备更长的上下文处理能力、更高推理稳定性和更快生成速度。适用于内容创作、代码生成、知识问答、自动化任...

QwenLong-L1-32B – 长上下文推理与大规模文本分析模型

QwenLong-L1-32B 是阿里通义推出的长上下文推理模型,支持超大规模文本输入,在文档理解、跨段推理、多场景分析等任务中表现稳定。适用于科研、法律、财务与...

CosyVoice 2.0 – 高保真中文语音合成与情感克隆模型

CosyVoice 2.0 是阿里通义实验室 / FunAudioLLM 推出的高保真中文 TTS 与语音克隆模型,支持多语种、低延迟实时合成与可控情感表达。本文详解模型原理、功能...

SlowFast-LLaVA-1.5 – 长视频理解与高效多模态模型

SlowFast-LLaVA-1.5 是苹果团队推出的视觉语言模型,支持长视频理解与多模态推理,兼顾高性能与轻量化部署,适合教育、安防、影视等多场景应用。
1 2