十两 AI 导航

AI 模型

聚合主流模型能力入口，适合选型、对比和快速检索。

全部文本阿里通义 AI 模型腾讯混元 Qwen 百度视频智谱 GLM Google Hunyuan Qwen3 图像 OpenAI Pangu 字节豆包 Doubao GLM Gemma

当前显示第 1 / 9 页，共 257 条结果，本页区间为 1-30，当前标签为文本。

GPT 4.1 Mini

GPT-4.1 mini是OpenAI推出的中小型多模态模型，支持百万token上下文，可处理文本、图像及视频。性能媲美GPT-4o，MMMU测试得分73%超前代，延迟降半、成本减83%，适用于开发者API调用，处理长内容与视觉任务。

Gemini 2.0 Flash Lite

Gemini 2.0 Flash Lite 是 Gemini 2.0 系列中速度最快的模型，经过优化以实现更高的成本效益和更低的延迟。它旨在处理高吞吐量的轻量级任务，并支持多模态输入（如图片、文档和音频），具有巨大的输入 token 上限

Grok 4 Fast

Grok 4 Fast是xAI于2025年推出的大语言模型轻量版本，主打高速推理与成本优化。其核心特点包括：每秒75 token生成速度（较标准版快10倍），200万token超长上下文窗口，支持整本书籍或代码库一次性处理；推理成本降低98%，通过优化架构减少40%推理tokens消耗。作为Grok 4系列基础版本，它集成文本/图像输入、实时网络访问（DeepSearch工具）及函数调用能力，面向日常问答、文档处理等轻量化场景，计划逐步替代Grok 3成为免费用户基础服务。该模型在保持多模态能力的同时，以效率优先设计适配普通用户需求。

O3 Mini

OpenAI o3-mini是2025年1月推出的小型推理模型，定位STEM领域专业化方案，支持函数调用、结构化输出等高级开发者功能，提供低/中/高推理级别以平衡精度与效率，适用于科学计算、编程开发等场景，兼具低成本与低延迟特性。

GPT 5 Codex

GPT-5 Codex是OpenAI推出的多模型混合代码生成系统，整合高效基础模型与深度推理模块，通过智能路由动态调度资源。其代码生成能力显著提升，可快速构建复杂前端应用、调试大型代码库，支持单提示生成完整网站和游戏，在设计美学处理上更优。适用于编程开发、应用构建及代码调试场景，免费用户可基础使用，付费版提供更高限额与扩展推理能力。

Claude 3 Opus

Claude 3 Opus是Anthropic推出的顶级大模型，属Claude 3系列高端版本，具备多模态能力，支持20万Token上下文窗口。特点为智能水平领先，在MMLU、GPQA等基准测试中表现超同类，能深度理解复杂任务，实现类人交互。适用于任务自动化（API/数据库操作）、研发（药物研发、研究审查）、战略分析（财务趋势预测、图表解读）等场景。

Gemini 2.0 Flash

Gemini 2.0 Flash是谷歌推出的多模态AI模型，属Gemini 2.0套件子模型。具备文本理解、图像生成与编辑能力，支持100万token上下文窗口，响应速度比1.5 Pro快两倍。适用于广告设计、社交媒体内容创作、教育插图生成等场景，开发者可通过Google AI Studio和Gemini API接入。

Claude Haiku 4.5

Claude Haiku 4.5是Anthropic推出的小型混合推理AI语言模型，性能接近中型模型Sonnet 4，成本仅为其三分之一，推理速度提升超两倍。具备20万token上下文处理能力，支持多模态提示词，AI安全等级ASL-2。适用于智能客服、编程辅助、对话式助手等实时响应场景，可通过Claude应用、API及主流云平台集成。

Gemini 2.5 Flash

Gemini 2.5 Flash是谷歌推出的多模态轻量级AI模型，支持文本、图像、音频、视频输入，具备自适应推理能力，令牌使用效率提升20-30%，适用于高吞吐量、低延迟任务，如翻译、分类及多模态交互，面向开发者与企业用户开放。

Claude Sonnet 4.5

Claude Sonnet 4.5是Anthropic于2025年9月发布的中端平衡型AI模型，属Claude系列“中杯”产品，定位性能与成本折中。其编程能力突出，SWE-bench Verified测试得分77.2%，支持连续编程超30小时，可构建生产级应用；兼具高效推理与视觉处理能力，响应速度快、成本适中，适用于软件开发、复杂智能体构建及企业级任务。

Claude 3 Sonnet

Claude 3 Sonnet是Anthropic推出的大语言模型，属Claude 3系列中端型号，平衡能力与速度，适企业级应用。2倍速于前代，高可控性，支持内容生成、分类、数据提取、知识检索等，已在API及Amazon Bedrock上线。

Gemini 2.5 Flash Lite

Gemini 2.5 Flash-Lite是谷歌推出的轻量级AI推理模型（预览版），主打极速响应与成本优化，为当前速度最快的Gemini模型。支持多模态输入、100万token上下文及谷歌原生工具（如搜索、代码执行），适用于高吞吐量、低延迟场景（如翻译、分类），面向开发者提供API服务。

Qwen3 Coder Plus

Qwen3-Coder-Plus是阿里巴巴通义千问系列的增强型代码生成模型，属480B参数混合专家（MoE）架构，激活参数350亿，具备1M上下文窗口。特点为代码理解与生成能力强，支持多语言及复杂逻辑推理，性能媲美Claude Sonnet，适用于大型项目分析、代码库操作等智能体编程任务。

Qwen3 Vl Plus

Qwen3-VL-plus是阿里通义千问推出的视觉语言模型增强版，属Qwen3-VL系列，提供Instruct和Thinking版本。特点是小参数量高性能，8B参数性能逼近上一代72B旗舰模型，支持超百万像素分辨率图像，强化细节识别、文字理解及复杂视觉推理。适用于智能客服、图像识别、内容创作、辅助决策等场景。

Qianfan Lightning

Qianfan-Lightning（千帆-极速版/闪电版）是百度智能云千帆大模型平台上推出的一个高性能、超低延迟的模型系列或服务模式。

Qwen3 Vl 235b A22b Thinking

Qwen3-VL-235B-A22B-Thinking是阿里通义千问Qwen3系列旗舰视觉语言模型，采用MoE架构，2350亿参数。具备GUI级视觉Agent能力，支持32种语言OCR、256K上下文（可拓展至1M），视频理解与多模态推理突出，适用于复杂多模态工作流、长文档检索及智能交互场景。

Qwen3 Max

Qwen3-Max是阿里Qwen3系列最高阶大模型，万亿参数，预训练36T tokens，支持26万+tokens上下文，多语言覆盖，显式推理模式。适用于企业级政策问答、代码审查、数据分析等复杂任务。

Qwen3 Livetranslate Flaltimeash Re 2025 09 22

Qwen3-LiveTranslate-Flash是阿里通义千问推出的多语言实时音视频同传模型，基于Qwen3-Omni基座，融合多模态数据训练。支持18种语言及方言的离线/实时翻译，3秒低延迟，视觉增强技术提升复杂场景准确性，优于主流模型。适用于国际会议、远程教学、跨国协作等场景。

Doubao Seed Translation

Doubao-Seed-Translation是字节跳动火山引擎推出的多语言翻译大模型，基于Transformer架构，支持28种语言互译。具备高准确性（BLEU评分42.5）和流畅度，适用于跨境电商、国际合作、教育学习等通用文本翻译场景。

Qwen3 Next 80B A3B Instruct

Qwen3-Next-80B-A3B-Instruct是阿里云通义团队2025年9月推出的指令微调大模型，基于高稀疏度MoE架构，800亿总参数仅激活30亿。采用混合注意力机制与多token预测，训练成本为Qwen3-32B的1/10，32k上下文推理吞吐提升10倍，原生支持262K tokens上下文，可外推至百万级文本处理。适用于长文档理解、法律分析等长上下文场景，已开源并支持主流框架部署。

Qwen3 Omni Flash Realtime

qwen3-omni-flash-realtime是阿里通义千问推出的实时全模态AI模型，支持文本、图像、音视频等多模态处理，具备流式对话、中途打断等实时交互能力，可应用于语音助手、多媒体分析、智能剪辑等场景，支持119种文本语言和20种语音交互。

Qwen3 Omni 30b A3b Captioner

Qwen3-Omni-30B-A3B-Captioner是阿里开源的音频精细字幕模型，从Instruct微调而来，音频输入转文本输出，特点是详细且低幻觉的音频描述，适用于音视频内容分析、无障碍服务、智能剪辑等场景。

Qwen3 Tts Flash Realtime

Qwen3-TTS-Flash-Realtime是阿里通义推出的实时文本转语音模型，首包延迟97ms，支持17种音色、10种语言及17种方言，语音自然流畅。适用于智能客服、有声读物、AI教师及影视配音等场景。

Qwen3 Tts Flash

Qwen3-TTS-Flash是阿里通义推出的文本转语音模型，支持10种语言、17种音色及9种中文方言，可智能调语气，首包延迟97ms，适用于智能客服、有声创作、语音助手等场景。

Doubao Seed 1.6

Doubao-Seed-1.6是字节跳动2025年6月发布的多模态大模型系列，包含主力模型及Flash、Thinking等版本，支持256K上下文，具备深度思考、多模态理解与图形操作能力，已在豆包APP及火山引擎ToB场景上线。

Kimi K2

Kimi-K2是基于MoE架构的万亿参数开源大语言模型，激活参数320亿，采用MuonClip优化器实现高效训练。特点包括代码生成、工具调用、数学推理能力突出，速度快且支持复杂任务拆解，可生成可视化数据分析报告。适用于编程开发、数据专业分析、文本创作等场景。

Doubao 1.5 Pro 32k

Doubao-1.5-pro-32k是字节跳动豆包大模型系列产品，为AI大模型。采用稀疏MoE架构，硬件成本低、推理效率高，多模态能力强，支持视觉理解和实时语音交互，在知识、代码、推理等测评中表现优于GPT-4o等模型，适用于文案生成、智能交互等场景。

Doubao Seed 1.6 Flash

Doubao-Seed-1.6-flash是豆包大模型1.6系列的极速响应型模型，主打低延迟（TPOT仅10ms），支持256K上下文与多模态理解，视觉能力媲美旗舰模型。适用于智能座舱交互、高频咨询、智能硬件等实时场景，助力企业降低延迟60%、成本70%。

Qwen3 Asr Flash

Qwen3-ASR-Flash是阿里通义千问推出的语音识别模型，支持19种语音输入（含5种中文方言）和11种语言，具备低延迟流式处理能力，适用于语音助手、字幕生成、多模态对话等场景，中英文识别错误率低于GPT-4o-transcribe，提供10小时免费额度。

Qwen Vl Plus

Qwen-VL-Plus 是阿里通义千问 Qwen2.5-VL 系列多模态模型，主打视觉语言理解，增强细节识别与文字处理，支持超百万像素图像及任意长宽比，适用于专业文档处理、高精度识别和视觉推理场景。