GLM-4.5-Air是清华智谱推出的轻量级千亿参数大语言模型,采用MoE架构(1060亿总参数/120亿激活参数),主打混合推理能力,支持复杂任务的思考模式与快速响应的非思考模式切换。其量化版本(如4-bit AWQ)模型文件仅64GB,适配本地部署与边缘设备,平衡性能与效率。适用于智能代理开发、工具调用及资源受限场景,已开源并开放API接口。

AI 模型
聚合主流模型能力入口,适合选型、对比和快速检索。
当前显示第 3 / 9 页,共 257 条结果,本页区间为 61-90,当前标签为 文本。
DeepSeek-R1是深度求索团队开发的专注推理能力的大语言模型,通过强化学习直接优化推理,在数学、编程和科学推理等复杂任务表现出色,适用于深度逻辑分析场景,采用MIT许可协议开源。
Spark X1是科大讯飞于2025年1月发布的深度推理大模型,基于全国产算力平台训练,核心特点包括:支持全学段数学推理(覆盖小初高至AIME竞赛)、多路径采样验证技术优化幻觉问题,以及多语言处理能力。其应用场景已落地教育(AI学习机、教师助手)、医疗(辅助诊断系统)等领域,并于2025年7月完成迭代升级,进一步强化推理准确性与行业适配性。
Doubao-1.5-thinking-pro 是字节跳动自研的 200B 参数 MoE 架构大语言模型,具备深度推理与低延迟特性。采用「先思后言」路径提升编程、数学等领域推理能力,20 毫秒延迟优化交互流畅度,适用于开发协作、复杂问题求解等场景。
qwen-mt-turbo是阿里通义千问系列的轻量级机器翻译模型,基于Qwen3架构,支持92种语言互译,覆盖全球95%人口。采用轻量级MoE架构,响应速度快且成本低(输入0.7元/百万Token,输出1.95元/百万Token),具备术语干预、领域提示等自定义功能,适用于高并发实时翻译场景。
Qwen-MT-Plus是阿里云通义千问Qwen3系列的专业翻译大模型,支持92种语言互译,上下文长度提升至4K Token,翻译准确率全面优于同规格模型及GPT-4.1,适用于多语言文档翻译、跨境内容本地化等场景,2025年7月更新后价格直降80%。
豆包1.5·UI-TARS是火山引擎发布的GUI Agent大模型,整合屏幕视觉理解、逻辑推理、界面元素定位与操作能力,突破传统自动化工具依赖预设规则的局限,可驱动图形用户界面交互完成复杂任务,已在火山方舟平台上线。
qwen-tts-realtime 是阿里云推出的实时语音合成模型,支持流式文本输入与音频输出,低延迟,7种拟人音色,可合成中文、英文,适用于交互式语音应用。
Hunyuan-TurboS-latest是腾讯混元推出的新一代快思考大模型,为超大型Hybrid-Transformer-Mamba MoE模型。其特点是响应速度快,吐字速度提升一倍,首字时延降低44%,在知识、数理、创作等方面表现突出,在业界通用的多个公开 Benchmark 上,于知识、数学、推理等多个领域展现出对标 DeepSeek V3、GPT 4o、Claude3.5 等业界领先模型的效果。适用于3D建模、视频特效制作、语音交互等实时AI应用场景。
腾讯混元Hunyuan-TurboS-20250716是腾讯推出的新一代快思考大语言模型,采用Hybrid-Mamba-Transformer混合架构,主打极速响应能力,首字时延降低44%,吐字速度提升一倍,实现“秒回”。其推理性能对标GPT-4o、Claude 3等主流模型,在数学、代码等短链任务中表现突出,且部署成本显著降低,API调用价格较前代下降数倍。目前已开放企业API接入,适用于即时交互、智能客服等高效响应场景。
Grok-4是xAI开发的大语言模型,采用模块化架构与多智能体协同设计,支持25.6万Token上下文,具备高效推理与多模态能力。适用于长文档分析、复杂任务处理及特斯拉车载交互等场景。
Grok-4 Heavy是xAI开发的多智能体大语言模型,采用多Agent协作架构,可并行处理复杂任务并整合结果。特点包括25.6万Token上下文窗口、HLE测试44.4%正确率,擅长数学推理(AIME25满分)与代码生成(SWE-Bench并列第一)。适用于科研协作、复杂数据分析及跨领域项目开发。
Qwen3-0.6B是阿里达摩院发布的轻量级因果语言模型,0.6B参数量,28层网络结构,GQA分组查询注意力机制,支持32k超长上下文。特点为双模式智能切换,资源消耗低,可在消费级设备部署。适用于端侧设备AI助手、轻量级智能客服、浏览器离线对话等场景。
Qwen2.5-VL-32B-Instruct是阿里开源的32B参数多模态视觉语言模型,具备图像解析、细粒度分析及强数学推理能力,输出规范符合人类偏好,可本地部署,适用于多模态应用开发。
DeepSeek-V3是2025年3月发布的AI模型,参数6850亿,属大语言模型。特点:推理与编程能力强,如AIME竞赛题解答、生成高效代码;成本低,支持消费级设备运行;MIT许可开源。适用于Web开发、数学推理等场景。
Qwen3-30B-A3B是阿里开源的混合专家(MoE)架构大语言模型,总参数305亿,激活参数33亿。特点:双模式推理(思考模式擅长复杂任务,非思考模式提升对话效率),显存占用仅为同类模型1/3,支持256K上下文,100+语言,Apache-2.0协议允许商用。适用于企业级复杂推理、实时对话、代码生成等场景。
Qwen3-14B是阿里巴巴开源的14B参数大型语言模型,属Qwen3系列轻量版本。支持思维/非思维双模式切换,复杂任务用思考模式提升推理能力,日常场景用非思维模式提速30%。适配消费级显卡部署,适合行业大模型微调与本地RAG系统搭建。
Qwen3-235B-A22B是阿里开源的混合专家(MoE)架构大语言模型,总参数量2350亿,动态激活22B参数,采用动态路由机制实现高性能与低资源消耗平衡。支持256K超长上下文,适用于长文档摘要、复杂问答、代码补全等场景,是企业部署的高性价比选择。
Qwen2.5-7B-Instruct是阿里云研发的开源指令调优大模型,基于18万亿token预训练,参数76.1亿。具备知识密集(MMLU 85+)、代码(HumanEval 85+)及数学(MATH 80+)能力,支持29种语言与128K上下文,适用于智能客服、教育辅导及自动化办公等场景。
讯飞星火医疗大模型 - Lite是轻量级医疗AI模型,具备医疗知识问答、专业文书生成、诊断推荐等能力,支持多轮交互,适用于辅助医生诊疗、优化医院流程及患者健康管理。
Qwen3-4B是阿里达摩院开源的4B参数量级语言模型,支持256K超长上下文,可部署于手机、笔记本等端侧设备。具备动态双模切换能力,思考模式适用于数学推理、代码生成等复杂任务,非思考模式提升日常对话响应速度,性能接近30B模型,开源且支持二次开发。
ERNIE X1 Turbo是百度推出的深度思考推理模型,具备先进“思维链”流程,提升复杂逻辑推理能力,支持多模态处理与工具利用。适用于文学创作、代码生成等场景,成本较竞品更低。
Doubao-1.5-thinking-vision-pro是多模态AI模型,具备视觉理解与深度思考能力,支持图文、语音交互,适用于专业领域推理与创意任务。
Gemma 3n E2B Instructed是谷歌DeepMind开发的轻量级多模态模型,基于MatFormer架构,仅需2GB内存即可运行。支持文本、图像、音频、视频处理,适用于手机、树莓派等边缘设备本地部署,可用于聊天机器人、内容生成、多模态数据提取等场景。
Gemma 3n E2B是谷歌推出的多模态边缘AI模型,支持文本、图像、音频、视频本地处理,性能媲美5B参数模型,低内存功耗设计适配智能手机、可穿戴设备,实现隐私保护与实时交互。
Gemma 3n E4B是谷歌推出的轻量级多模态模型,属Gemma 3n系列,性能媲美8B参数模型,支持文本、图像、音频、视频处理,可在手机等边缘设备本地运行,低内存功耗。适用于无障碍技术、移动创作、教育研究及物联网设备。
Gemma 3n E2B Instructed LiteRT (Preview)是谷歌Gemma 3系列轻量级开放模型,基于MatFormer架构与PLE技术优化,有效参数2B(原始5B),2GB内存即可运行。支持文本/图像/音频多模态,140种语言,适用于手机、笔记本等设备端实时任务,如问答、内容分析。
Qwen-TTS是阿里云推出的高性能语音合成模型,可将文本转为自然语音。其特点为高自然度,能模拟真人情感语调;支持中英双语及北京、上海、四川方言;提供7种音色。适用于有声内容创作、智能客服等场景。
Gemma 3n E4B Instructed LiteRT Preview是谷歌2025年推出的轻量级开源多模态模型,属Gemma 3n系列E4B版本(有效参数4B)。支持文本、图像、音频输入,文本输出,32K上下文,英法/英西翻译准确率超92%。优化内存占用(约3GB),适配移动设备与边缘计算,响应速度快,适用于本地部署的实时交互场景。
Gemma 3n E4B Instructed是谷歌Gemma 3系列轻量级多模态开放模型,有效参数4B(原始8B),指令调优版本。特点:原生支持文本/图像/音频/视频输入,仅需3GB内存运行,响应速度快,LMArena得分超1300,支持140种语言,适用于设备端实时处理、多模态问答、本地部署等场景。