Doubao-Seed-1.6是字节跳动2025年6月发布的多模态大模型系列,包含主力模型及Flash、Thinking等版本,支持256K上下文,具备深度思考、多模态理解与图形操作能力,已在豆包APP及火山引擎ToB场景上线。

AI 模型
聚合主流模型能力入口,适合选型、对比和快速检索。
当前显示第 2 / 10 页,共 300 条结果,本页区间为 31-60。
Kimi-K2是基于MoE架构的万亿参数开源大语言模型,激活参数320亿,采用MuonClip优化器实现高效训练。特点包括代码生成、工具调用、数学推理能力突出,速度快且支持复杂任务拆解,可生成可视化数据分析报告。适用于编程开发、数据专业分析、文本创作等场景。
Doubao - Seedream - 4.0是国产多模态生图模型,支持文本与图像组合输入,能深度理解提示词,避免元素分离与拼凑问题,可生成4K高清图像。适用于设计师、插画师、广告及影视分镜创作等场景。
Doubao - Seedream - 3.0 - t2i是字节跳动推出的中英双语图像生成基础模型,属文生图第一梯队。特点:2k原生高分辨率,小字生成准、排版优,指令遵循力强,美感与结构佳,响应速度快,EvalMuse等多测试排名第一。适用于设计、创意等场景。
Doubao-SeedEdit-3.0-i2i是图像编辑模型,支持通过自然语言提示进行复杂视觉操作,如背景移除、光线调整和姿势改变,具备随机数种子控制生成随机性的特点,专为商业用途设计,应用于广告、内容创作和电子商务领域。
Doubao-1.5-pro-32k是字节跳动豆包大模型系列产品,为AI大模型。采用稀疏MoE架构,硬件成本低、推理效率高,多模态能力强,支持视觉理解和实时语音交互,在知识、代码、推理等测评中表现优于GPT-4o等模型,适用于文案生成、智能交互等场景。
Doubao-Seed-1.6-flash是豆包大模型1.6系列的极速响应型模型,主打低延迟(TPOT仅10ms),支持256K上下文与多模态理解,视觉能力媲美旗舰模型。适用于智能座舱交互、高频咨询、智能硬件等实时场景,助力企业降低延迟60%、成本70%。
Qwen3-ASR-Flash是阿里通义千问推出的语音识别模型,支持19种语音输入(含5种中文方言)和11种语言,具备低延迟流式处理能力,适用于语音助手、字幕生成、多模态对话等场景,中英文识别错误率低于GPT-4o-transcribe,提供10小时免费额度。
Qwen-VL-Plus 是阿里通义千问 Qwen2.5-VL 系列多模态模型,主打视觉语言理解,增强细节识别与文字处理,支持超百万像素图像及任意长宽比,适用于专业文档处理、高精度识别和视觉推理场景。
Doubao-Seedance-1.0-pro是字节跳动推出的视频生成大模型,支持文生/图生视频,输出1080P分辨率,最长10秒。特点:多镜头无缝切换,动态效果自然,主体运动稳定,生成速度快(5秒视频约40秒),成本低(5秒1080P视频3.6元左右)。应用于创意内容制作、营销视频、社交娱乐等场景,通过即梦AI、火山引擎等平台开放。
Qianfan-VL-8B是百度推出的多模态视觉理解大模型,属Qianfan-VL系列80亿参数版本。具备三大特点:支持思维链推理,可处理复杂图表理解与数学解题;OCR能力突出,精准识别手写体、公式及复杂版面并结构化提取信息;轻量级设计适配企业级部署。适用于教育作业批改、金融报表分析、文档智能处理等场景。
Qianfan-VL-70B是百度智能云推出的视觉语言大模型,属企业级多模态应用优化的700亿参数版本。具备三大特点:超长上下文窗口,支持复杂图表理解与数学推理;OCR与文档理解增强,精准识别手写体、复杂版面并结构化提取信息;基于昆仑芯P800训练,处理超10亿图像数据。适用于金融图表分析、教育数学解题、企业文档智能处理等场景。
Grok Code Fast 1 是 xAI 开发的低延迟编码模型,基于 MoE 架构,3140 亿参数,256K 上下文窗口。主打高速(92-190 令牌/秒)、低成本,支持工具调用与结构化输出,适用于 IDE 集成、CI 管道及智能体编码任务,可快速完成代码生成、调试与重构。
Hunyuan-T1-20250822是腾讯混元旗舰推理模型,属文本生成类。特点:最大输入32K、输出64K,提升高难度数学、逻辑和代码能力,优化长文处理与输出稳定性。适用于文本生成、创作、问答等场景。
Qwen-MT-Image是通义千问系列图像翻译模型,可精准翻译图像中的文字并保留原始排版,支持领域提示、敏感词过滤、术语干预等自定义功能。适用于多语言图像内容本地化、跨语言图文信息处理等场景。
Doubao-Seed-1.6-vision 是字节跳动发布的多模态视觉深度思考模型,支持 256K 上下文窗口与工具调用,可自动调用旋转、放大等图像处理工具。适用于视频理解、医疗影像分析、制造业质检等场景,已在豆包 APP 及火山引擎开放。
Hunyuan-T1-latest是腾讯2025年3月推出的深度推理大模型,采用Hybrid-Transformer-Mamba MoE架构,万亿级参数规模。具备超强长文本捕捉、数学/逻辑推理、代码生成能力,解码速度60-80token/s,支持API调用,适用于复杂问题解答、科学计算及AI搜索等场景。
Qwen-Deep-Research 是通义千问的研究型智能体模型,可拆解复杂问题,结合互联网搜索进行推理分析并生成研究报告,适用于科研辅助、生活决策、内容创作等场景,能大幅缩短研究时间。
DeepSeek-V3.1是中国AI公司DeepSeek于2025年8月发布的大型语言模型,采用混合推理架构与6710亿参数MoE设计,支持""思考""与""非思考""双模式切换,统一通用对话、复杂推理和代码能力。其代理能力强化,可用于工具使用、多步骤推理及编程辅助,已开放API并提供MIT开源许可,适用于智能体开发、金融风控等场景。
Qwen3-1.7B是阿里Qwen3系列开源Dense模型,参数1.7B,支持119种语言,具备混合思维模式(可手动控制是否开启推理过程)。硬件要求低,适合本地测试、科研快速实验等场景。
百度蒸汽机2.0是中文音视一体I2V生成模型,可多人有声视频一体化生成,具多角色协调、音画毫秒级同步、长视频生成及实时交互功能,已落地搜索、营销等场景。
腾讯混元生视频-视频特效是基于腾讯视频生成大模型的API技术服务,具备高质量视频生成与处理能力,支持自然特效(如地震、闪电)和奇幻特效(如魔法护盾)生成,可10分钟快速出片并节省50%制作成本。广泛应用于短视频、影视制作、广告营销、游戏等领域,助力提升创作效率与内容趣味性。
腾讯混元生视频是腾讯推出的AI视频生成与处理技术服务,基于多模态融合技术,支持视频特效、风格化转换及图片动态化等功能。特点包括高连贯性运动生成、精准语义理解,适用于短视频创作、广告营销、教育内容制作等场景,可降低专业制作门槛,提升内容生产效率。
Qwen-VL-Max是阿里云通义千问系列的增强视觉语言模型,定位为性能最强的多模态模型,支持图文理解与生成。其特点是视觉推理能力优于Qwen-VL-Plus,适用于复杂图文交互场景,如图像内容分析、多模态Agent系统构建及高精度图文生成任务。
gpt-oss-20b是OpenAI 2025年推出的开源推理大模型,210亿总参数,激活36亿参数,采用MoE架构与MXFP4量化技术,性能比肩o3-mini,16GB内存即可本地部署,适用于开发者工作站、边缘设备及低延迟场景,Apache 2.0许可证支持商用与修改。
Qwen-Image 是阿里巴巴通义千问团队2025年8月开源的20B参数MMDiT图像生成基础模型,以中文文本渲染和精准图像编辑为核心优势,支持多风格生成与编辑闭环,适用于设计工具、电商图生成、多模态助手等场景,可嵌入产品线作为基础设施。
Qwen3-30B-A3B-Instruct-2507是阿里通义千问推出的大语言模型,采用混合专家(MoE)架构,总参数305亿,激活参数33亿。具备逻辑推理、数学计算、代码编程能力,支持256K上下文长度,100+语言,非思考模式运行,适合本地部署,可用于复杂文档处理、多语言交互等场景。
GPT-5是OpenAI推出的新一代旗舰大语言模型,采用统一架构与智能路由机制,可自动切换快速响应或深度推理模式。其核心特点包括行业领先的编码能力(SWE-bench Verified得分74.9%)、多模态处理、低幻觉率及优化的指令遵循能力,适用于编程开发、内容创作、医疗咨询、复杂问题推理等场景,提供Plus/Pro等分级服务。
GPT-5 Mini是OpenAI推出的轻量级语言模型,主打高效低成本,适用于结构化任务如表单填写、数据提取及标准化内容生成。其降低计算资源需求,让中小企业可负担高质量AI服务,平衡性能与成本,是预算有限团队的可靠选择。
GPT-5 nano是OpenAI推出的超低延迟版大模型,属轻量级API专用版本,主打速度与成本优化。输入token定价为GPT-4o的二分之一,支持token缓存与细粒度推理控制,适合高频低推理任务及对响应速度要求极高的开发场景,如实时交互、批量查询等。