Qwen-image-plus是阿里云通义千问系列的文生图模型,属Qwen-Image专业版,擅长复杂文本渲染,支持中英双语及多行布局。适用于海报、对联等需精准文字生成场景,成本较基础版低,可通过API调用,兼顾质量与效率。

AI 模型
聚合主流模型能力入口,适合选型、对比和快速检索。
当前显示第 1 / 1 页,共 20 条结果,本页区间为 1-20,当前标签为 图像。
Wan2.5-i2i-preview 是一款图像生成模型,支持图像编辑功能,属于阿里云图像生成服务中的一员,适用于图像创作与编辑场景。
Qwen-Image-Edit是阿里开源的Omni产品级扩散模型,基于200亿参数Qwen-Image构建,支持语义与外观双重编辑。特点包括精准中英文字编辑(保留字体样式)、SOTA基准性能,可用于图像内容生成、图文结合输出及多模态助手应用。
wan2.5-t2i-preview是阿里通义万相系列的文生图模型,属多模态生成模型。特点为支持写实场景和摄影风格,注重图像质量与响应速度平衡。适用于通用写实场景及摄影风格图像生成,可在广告、电商等领域应用。
Doubao - Seedream - 4.0是国产多模态生图模型,支持文本与图像组合输入,能深度理解提示词,避免元素分离与拼凑问题,可生成4K高清图像。适用于设计师、插画师、广告及影视分镜创作等场景。
Doubao - Seedream - 3.0 - t2i是字节跳动推出的中英双语图像生成基础模型,属文生图第一梯队。特点:2k原生高分辨率,小字生成准、排版优,指令遵循力强,美感与结构佳,响应速度快,EvalMuse等多测试排名第一。适用于设计、创意等场景。
Doubao-SeedEdit-3.0-i2i是图像编辑模型,支持通过自然语言提示进行复杂视觉操作,如背景移除、光线调整和姿势改变,具备随机数种子控制生成随机性的特点,专为商业用途设计,应用于广告、内容创作和电子商务领域。
Qwen-MT-Image是通义千问系列图像翻译模型,可精准翻译图像中的文字并保留原始排版,支持领域提示、敏感词过滤、术语干预等自定义功能。适用于多语言图像内容本地化、跨语言图文信息处理等场景。
Pangu-MM-M1-Txt2Img-1.0.0是2025年4月发布的文本生成图像模型,支持1024*1024分辨率,涵盖写实、油画、动漫等数十种风格,需8个推理单元部署。
CogView-4是智谱2025年发布的开源文生图模型,支持中英双语输入与任意分辨率图像生成,采用GLM-4 encoder提升中文语义理解,在DPG-Bench测试中综合评分第一,达开源SOTA水平,遵循Apache 2.0协议,适用于广告设计、教育插图等场景。
SenseNova V6.5 Miaohua基础版(商汤-日日新 V6.5 妙画基础版)是商汤科技 (SenseTime) 日日新 (SenseNova) 大模型体系下,专用于图像生成(文生图/图生图)的一个入门级、高性价比的模型版本。
SenseNova V6.5 Miaohua高级版(商汤-日日新 V6.5 妙画高级版)是商汤科技 (SenseTime) 发布的 日日新 (SenseNova) 大模型体系下,专用于**图像生成(文生图/图生图)**的一个高性能版本。
MiniMax Image-01是上海稀宇科技开发的图像生成模型,属MiniMax-01系列。支持多尺寸创作,批处理高效,每分钟可生成60token,单次请求最多9幅图,成本仅为同类产品十分之一,适用于社交媒体内容创作与商业项目。
Step-1X是阶跃星辰发布的图像生成大模型,有600M、2B、8B三种参数量,分别适用于速度敏感、平衡效果速度、高效极致场景。采用自研DiT架构,语义对齐和指令跟随能力强,深度优化中国元素,符合国人审美。
Minimax Image 01 Live(I2V-01-Live)是MiniMax(月之暗面)推出的一款强大的图生视频(Image-to-Video, I2V)模型。
腾讯混元生图(多轮对话)是腾讯推出的AI图像生成模型,属多模态大模型。具备常识推理与精准语义理解能力,能生成高质感图像,支持中英文及长文本渲染。当前版本开放文生图,多轮交互等功能后续发布,适用于设计、教育、营销等场景。
文生图轻量版是腾讯云推出的文本生成图像API接口(TextToImageLite),基于深度学习模型实现文本到图像的智能转换。该接口默认支持3个并发任务处理,需通过腾讯云API平台调用,当前仅开放广州地域(ap-guangzhou)接入。其核心功能为根据输入文本描述生成相关图像,适用于轻量化图像生成场景的开发者集成,但公开资料未提及具体风格支持、分辨率等技术参数及实际应用案例。
CogView-3-Plus是智谱推出的文本生成图像模型,为CogView3的DiT版本,性能达领先T2I模型水平。采用DiT框架、Zero-SNR调度及文本-图像联合注意力机制,支持512 - 2048像素生成,兼顾效果与成本。可用于广告设计、新闻配图、出版物插画等场景。
CogView-3-Flash是智谱推出的免费AI图像生成模型,支持文本生成高质量图像,具备多分辨率(如1024x1024等)、快速推理及创意多样性特点,适用于广告设计、艺术创作、教育等场景。
CogView-3 是智谱AI开发的级联扩散文本生成图像模型,基于GLM技术栈,分三阶段生成高分辨率图像,较SDXL人工评估优77%且推理时间仅为其1/10,支持1024x1024等多分辨率,适用于设计、广告、艺术创作等场景,已开源并上线“智谱清言”平台。