Qwen-Omni-Turbo-Realtime是通义千问推出的实时音视频聊天模型,能同时理解流式音频与图像输入(如视频流连续图像帧),并实时输出高质量文本与音频,适用于实时音视频交互场景。

AI 模型
聚合主流模型能力入口,适合选型、对比和快速检索。
当前显示第 5 / 9 页,共 257 条结果,本页区间为 121-150,当前标签为 文本。
Qianfan-Llama-VL-8B是百度千帆团队开发的80亿参数多模态大语言模型,基于Llama 3.1架构与InternViT视觉编码器,支持32k上下文窗口。具备三大核心特点:支持思维链推理,可处理复杂图表理解与数学解题;OCR与文档理解能力突出,能精准识别手写体及复杂版面;适配服务器端部署,兼顾性能与效率。主要应用于通用视觉语言任务及企业级微调场景。
hunyuan-functioncall 是 混元最新 MOE 架构 FunctionCall 模型,经过高质量的 FunctionCall 数据训练,上下文窗口达 32K,增强了复杂指令和多轮理解能力,增强了开源 BenchMark 的效果,在多个维度的评测指标上处于领先。
o4-mini是OpenAI推出的小型推理模型,优化了速度与成本,擅长数学、编程及视觉任务,支持20万Token上下文与工具调用,适用于高吞吐量场景。
o3是OpenAI推出的最强推理模型,属深度学习驱动的通用人工智能模型。特点是能调用工具整合信息,多步骤推理解决复杂问题,在编码、数学、科学及视觉任务表现突出,如Codeforces等基准测试创最佳成绩,比o1少20%重大错误。适用于编程开发、商业咨询、创意构思、科学研究等场景。
GPT-4.1是OpenAI推出的多规格大语言模型,包括GPT-4.1、Mini和Nano版本,主打编码优化,较GPT-4o提升60%,支持百万token长上下文,指令遵循更精准,退化行为减少,适用于复杂编程、结构化文档分析与多跳推理,供开发者通过API调用。
GPT-4.1 nano是OpenAI推出的超小型语言模型,定位为速度最快、成本最低的""小核""产品,支持百万token上下文,适用于自动补全、分类、信息提取等低延迟边缘场景,MMLU得分80.1%,部分性能超GPT-4o mini,API调用成本极低。
Qwen2-72B-Instruct是阿里云通义千问团队开源的720亿参数指令微调大语言模型,支持128K上下文长度,采用GQA机制优化推理效率。具备跨29种语言能力,代码生成HumanEval评分85.1%,数学推理GSM8K达89.7%,适用于知识问答、复杂指令处理、多语言翻译等场景。
腾讯混元Turbo是腾讯于2024年9月发布的新一代大语言模型,采用MoE(混合专家)架构,总参数达万亿级别。其特点包括推理效率提升100%、成本降低50%,在数学推理、文本创作等任务上对标GPT-4o,支持AI搜索联网插件及SearchGPT功能。主要应用于腾讯内部近700个业务场景,如腾讯云、QQ、微信读书等,并通过腾讯云API向企业开放。
Pangu-RAG-N1-32K-4.3.2 是华为云盘古系列的检索增强生成(RAG)模型,支持32K上下文窗口,云上部署需1个推理单元。具备零代码开发能力,可配置知识库与插件实现智能问答,适用于电商客服、教育答疑等场景,通过工具调用提升复杂任务处理效率。
""qwen-omni-turbo""是阿里云通义千问推出的多模态大模型,支持文本、图像、语音、视频输入,流式输出文本与语音,提供4种对话音色。具备119种文本语言、19种语音输入及10种语音输出能力,适用于智能交互、内容生成等场景,可通过API调用,免费额度100万Tokens。
Hunyuan-TurboS-Longtext-128k-20250325是腾讯混元团队发布的长文本专属大语言模型,采用混合Transformer-Mamba MoE架构,兼具Mamba高效长序列处理与Transformer强上下文理解能力。其支持128K上下文窗口(约40万字),最大输出6K tokens,擅长文档摘要、问答等长文本任务,同时具备通用文本生成能力。该模型在数学推理、知识能力等评测中表现优异,推理成本较前代Turbo模型降低7倍,适用于企业级文档处理、智能客服等场景。
Gemma 3 4B是谷歌DeepMind推出的轻量级多模态开源模型,支持文本与图像输入,采用SigLIP视觉编码器,400M参数,896×896分辨率处理。具备128K上下文窗口、140+语言理解能力,优化长文本推理,单GPU可运行,适用于本地部署的智能问答、图像分析和多语言任务。
Gemma 3 1B是谷歌DeepMind开源的轻量级纯文本模型,参数规模10亿,基于2T token数据训练。特点为轻量高效,支持单块GPU/TPU运行,上下文窗口32k token,适配手机、笔记本等资源受限设备,适合快速部署和低功耗场景。
Gemma 3 12B是谷歌推出的开源多模态大语言模型,120亿参数,基于Transformer架构,支持文本、图像输入及140+语言,上下文窗口128K,适用于摘要、问答等任务,可在单GPU部署,平衡性能与硬件需求。
Gemma 3 27B是谷歌2025年推出的开源轻量级多模态大模型,基于Gemini 2.0技术构建,270亿参数规模。支持文本和图像处理,128K上下文窗口,140余种语言,单GPU即可运行。LMArena测试超Llama-405B等模型,适用于端侧部署、多模态分析、跨语言任务。
QwQ-32B是阿里千问团队2025年3月推出的325亿参数推理型大模型,基于Transformer架构,支持128K上下文长度与多语言,擅长数学推理和编程任务,性能比肩DeepSeek-R1与OpenAI o1-mini。采用Apache 2.0协议开源,支持本地部署与免费商用,适用于科研分析、企业智能引擎等场景。
qwq-plus是基于Qwen2.5训练的推理模型,通过强化学习提升推理能力,核心指标达DeepSeek-R1满血版水平,为阿里商业化版本,适用于数学推理、编程等任务。
Pangu-NLP-N4-4K-3.2.36是华为云盘古大模型系列中的NLP基础模型,支持4K上下文窗口,具备增量预训练能力,可基于行业数据优化。特点包括逻辑推理强、支持工具调用与SQL生成,适配INT8/INT4量化部署。适用于工业设计、政务智能问答、金融风控等场景,助力行业复杂任务处理与效率提升。
GPT-4.5是OpenAI于2025年推出的大型语言模型,属GPT系列升级版。它通过扩大无监督学习规模,提升模式识别与关联能力,减少推理依赖,实现更自然交互。具备更广泛知识库、更强用户意图理解与“情商”,适用于写作优化、编程辅助及解决实际问题,且幻觉现象显著减少。
Claude 3.7 Sonnet是Anthropic推出的首个混合推理大语言模型,兼具快速响应与深度思考双模式,支持128k tokens上下文,适用于代码生成、复杂任务自动化及数学推理,提升开发者效率。
Grok-3 Mini是xAI推出的轻量级AI模型,属Grok-3系列,主打高效推理。特点:131K tokens上下文窗口,支持高推理模式(AIME竞赛得分超90),低推理模式平衡响应速度与准确性。适用于日常对话、邮件撰写、基础编程及中小学数学解题等场景。
Grok-3是Elon Musk旗下xAI公司推出的旗舰大模型,以强大推理能力为核心,采用""思想链""功能,在数学、科学等领域表现突出,超过GPT-4o等模型。其追求事实呈现,避免过度""政治正确"",适用于复杂问题分析与专业领域辅助。
Hunyuan-Standard(原混元大模型标准版)是腾讯推出的MOE架构长文本大模型,最大输入30k、输出2k,采用优化路由策略平衡负载与专家趋同问题,性价比高。支持长文本处理,在SuperCLUE测评中应用能力居首,适用于会议记录、文档生成、广告创作等场景。
腾讯混元Hunyuan-Standard-256K是支持256K上下文的大语言模型,属腾讯混元系列标准尺寸型号,已通过腾讯云开放服务。具备长文档理解处理能力,支持多模态交互,适用于企业级长文本分析、智能客服及会议纪要等场景。
Hunyuan-Large是腾讯开源的基于Transformer架构的专家混合(MoE)大模型,总参数3890亿(激活参数520亿),具备256K上下文处理能力。采用MoE结构优化训练推理效率,性能超Meta Llama3.1-405B,在数学推理、文本生成等任务表现优异,适用于长文本处理、智能交互等场景。
DeepSeek-R1-Distill-Qwen-32B 是基于 Qwen2 架构的 32B 参数蒸馏模型,由 DeepSeek 通过知识蒸馏技术将 6710 亿参数的 DeepSeek-R1 教师模型推理能力迁移而来。其核心特点包括:数学推理能力突出(AIME 2024 pass@1 达 72.6%、Math-500 达 94.3%),代码生成表现优异(LiveCodeBench pass@1 57.2%),性能接近 OpenAI-O1。适用于复杂数学问题求解、代码开发辅助及高精度文本推理场景,需 65.7GB VRAM 支持部署。
DeepSeek-R1-Distill-Qwen-7B是基于DeepSeek-R1大模型知识蒸馏的7B参数小型语言模型,继承强化学习优化的推理能力,在数学推理(AIME 2024达55.5%)、编程等任务表现突出,适配边缘设备及低成本推理场景。
DeepSeek-R1-Distill-Qwen-14B是基于Qwen架构的14B参数蒸馏语言模型,具备较强复杂任务处理能力与中等资源需求,适用于数据分析、智能推荐、自然语言处理及长文本生成等中等复杂度场景。
DeepSeek-R1-Distill-Llama-8B是基于Llama-3.1-8B基座模型的开源蒸馏模型,通过DeepSeek-R1推理数据微调,保留原版90.2%数学推理能力(MATH-500达89.1%),代码生成能力达72.3%,推理速度提升5.8倍,单GPU(24GB)即可部署,适用于本地部署、RAG系统构建及教育、编程辅助等场景。