十两 AI 导航

AI 模型

聚合主流模型能力入口，适合选型、对比和快速检索。

全部文本阿里通义 AI 模型腾讯混元 Qwen 百度视频智谱 GLM Google Hunyuan Qwen3 图像 OpenAI Pangu 字节豆包 Doubao GLM Gemma

当前显示第 1 / 1 页，共 20 条结果，本页区间为 1-20，当前标签为图像。

Qwen Image Plus

Qwen-image-plus是阿里云通义千问系列的文生图模型，属Qwen-Image专业版，擅长复杂文本渲染，支持中英双语及多行布局。适用于海报、对联等需精准文字生成场景，成本较基础版低，可通过API调用，兼顾质量与效率。

Wan2.5 I2i Preview

Wan2.5-i2i-preview 是一款图像生成模型，支持图像编辑功能，属于阿里云图像生成服务中的一员，适用于图像创作与编辑场景。

Qwen Image Edit

Qwen-Image-Edit是阿里开源的Omni产品级扩散模型，基于200亿参数Qwen-Image构建，支持语义与外观双重编辑。特点包括精准中英文字编辑（保留字体样式）、SOTA基准性能，可用于图像内容生成、图文结合输出及多模态助手应用。

Wan2.5 T2i Preview

wan2.5-t2i-preview是阿里通义万相系列的文生图模型，属多模态生成模型。特点为支持写实场景和摄影风格，注重图像质量与响应速度平衡。适用于通用写实场景及摄影风格图像生成，可在广告、电商等领域应用。

Doubao Seedream 4.0

Doubao - Seedream - 4.0是国产多模态生图模型，支持文本与图像组合输入，能深度理解提示词，避免元素分离与拼凑问题，可生成4K高清图像。适用于设计师、插画师、广告及影视分镜创作等场景。

Doubao Seedream 3.0 T2i

Doubao - Seedream - 3.0 - t2i是字节跳动推出的中英双语图像生成基础模型，属文生图第一梯队。特点：2k原生高分辨率，小字生成准、排版优，指令遵循力强，美感与结构佳，响应速度快，EvalMuse等多测试排名第一。适用于设计、创意等场景。

Doubao SeedEdit 3.0 I2i

Doubao-SeedEdit-3.0-i2i是图像编辑模型，支持通过自然语言提示进行复杂视觉操作，如背景移除、光线调整和姿势改变，具备随机数种子控制生成随机性的特点，专为商业用途设计，应用于广告、内容创作和电子商务领域。

Qwen Mt Image

Qwen-MT-Image是通义千问系列图像翻译模型，可精准翻译图像中的文字并保留原始排版，支持领域提示、敏感词过滤、术语干预等自定义功能。适用于多语言图像内容本地化、跨语言图文信息处理等场景。

Pangu MM M1 Txt2Img 1.0.0

Pangu-MM-M1-Txt2Img-1.0.0是2025年4月发布的文本生成图像模型，支持1024*1024分辨率，涵盖写实、油画、动漫等数十种风格，需8个推理单元部署。

Cogview 4

CogView-4是智谱2025年发布的开源文生图模型，支持中英双语输入与任意分辨率图像生成，采用GLM-4 encoder提升中文语义理解，在DPG-Bench测试中综合评分第一，达开源SOTA水平，遵循Apache 2.0协议，适用于广告设计、教育插图等场景。

Sensenova V6.5 Miaohua基础版

SenseNova V6.5 Miaohua基础版（商汤-日日新 V6.5 妙画基础版）是商汤科技 (SenseTime) 日日新 (SenseNova) 大模型体系下，专用于图像生成（文生图/图生图）的一个入门级、高性价比的模型版本。

Sensenova V6.5 Miaohua高级版

SenseNova V6.5 Miaohua高级版（商汤-日日新 V6.5 妙画高级版）是商汤科技 (SenseTime) 发布的日日新 (SenseNova) 大模型体系下，专用于**图像生成（文生图/图生图）**的一个高性能版本。

Minimax Image 01

MiniMax Image-01是上海稀宇科技开发的图像生成模型，属MiniMax-01系列。支持多尺寸创作，批处理高效，每分钟可生成60token，单次请求最多9幅图，成本仅为同类产品十分之一，适用于社交媒体内容创作与商业项目。

Step 1X

Step-1X是阶跃星辰发布的图像生成大模型，有600M、2B、8B三种参数量，分别适用于速度敏感、平衡效果速度、高效极致场景。采用自研DiT架构，语义对齐和指令跟随能力强，深度优化中国元素，符合国人审美。

Minimax Image 01 Live

Minimax Image 01 Live（I2V-01-Live）是MiniMax（月之暗面）推出的一款强大的图生视频（Image-to-Video, I2V）模型。

腾讯混元生图（多轮对话）

腾讯混元生图（多轮对话）是腾讯推出的AI图像生成模型，属多模态大模型。具备常识推理与精准语义理解能力，能生成高质感图像，支持中英文及长文本渲染。当前版本开放文生图，多轮交互等功能后续发布，适用于设计、教育、营销等场景。

文生图轻量版

文生图轻量版是腾讯云推出的文本生成图像API接口（TextToImageLite），基于深度学习模型实现文本到图像的智能转换。该接口默认支持3个并发任务处理，需通过腾讯云API平台调用，当前仅开放广州地域（ap-guangzhou）接入。其核心功能为根据输入文本描述生成相关图像，适用于轻量化图像生成场景的开发者集成，但公开资料未提及具体风格支持、分辨率等技术参数及实际应用案例。

Cogview 3 Plus

CogView-3-Plus是智谱推出的文本生成图像模型，为CogView3的DiT版本，性能达领先T2I模型水平。采用DiT框架、Zero-SNR调度及文本-图像联合注意力机制，支持512 - 2048像素生成，兼顾效果与成本。可用于广告设计、新闻配图、出版物插画等场景。

Cogview 3 Flash

CogView-3-Flash是智谱推出的免费AI图像生成模型，支持文本生成高质量图像，具备多分辨率（如1024x1024等）、快速推理及创意多样性特点，适用于广告设计、艺术创作、教育等场景。

Cogview 3

CogView-3 是智谱AI开发的级联扩散文本生成图像模型，基于GLM技术栈，分三阶段生成高分辨率图像，较SDXL人工评估优77%且推理时间仅为其1/10，支持1024x1024等多分辨率，适用于设计、广告、艺术创作等场景，已开源并上线“智谱清言”平台。