Wan2.5-t2v-preview是阿里通义推出的多模态生成模型,集成文生/图生视频、文生图及图像编辑功能,支持1080P/24fps输出,实现音画同步,可生成匹配人声、音效和配乐。具备运镜控制、元素一致性优化等特点,应用于广告、影视、教育等领域。

AI 模型
聚合主流模型能力入口,适合选型、对比和快速检索。
当前显示第 1 / 1 页,共 23 条结果,本页区间为 1-23,当前标签为 视频。
wan2.5-i2v-preview是阿里通义万相2.5系列的图生视频模型,属多模态生成模型。它采用统一框架,融合文本、图像、视频、音频生成能力,支持1080P高清视频输出,可实现音画同步,能理解运镜语言,保持元素ID一致性,支持音频驱动视频生成,适用于广告、电商、影视、教育等领域的内容创作。
Doubao-Seedance-1.0-pro是字节跳动推出的视频生成大模型,支持文生/图生视频,输出1080P分辨率,最长10秒。特点:多镜头无缝切换,动态效果自然,主体运动稳定,生成速度快(5秒视频约40秒),成本低(5秒1080P视频3.6元左右)。应用于创意内容制作、营销视频、社交娱乐等场景,通过即梦AI、火山引擎等平台开放。
百度蒸汽机2.0是中文音视一体I2V生成模型,可多人有声视频一体化生成,具多角色协调、音画毫秒级同步、长视频生成及实时交互功能,已落地搜索、营销等场景。
腾讯混元生视频-视频特效是基于腾讯视频生成大模型的API技术服务,具备高质量视频生成与处理能力,支持自然特效(如地震、闪电)和奇幻特效(如魔法护盾)生成,可10分钟快速出片并节省50%制作成本。广泛应用于短视频、影视制作、广告营销、游戏等领域,助力提升创作效率与内容趣味性。
腾讯混元生视频是腾讯推出的AI视频生成与处理技术服务,基于多模态融合技术,支持视频特效、风格化转换及图片动态化等功能。特点包括高连贯性运动生成、精准语义理解,适用于短视频创作、广告营销、教育内容制作等场景,可降低专业制作门槛,提升内容生产效率。
Wan2.1-T2V-1.3B是阿里团队开发的开源文本转视频模型,基于扩散变换器技术,支持消费级GPU部署(8.19GB VRAM),4分钟内可生成5秒480P视频,适用于短视频创作、内容生成等场景。
万相2.1-I2V-14B-480P是阿里通义万相推出的图像转视频模型,140亿参数,基于DiT架构,支持480P分辨率输出,平衡画质与传输速度,适用于手机端短视频创作。操作简便,可在基石智算平台部署,上传图片加提示词即可生成动态视频,降低视频创作门槛。
华为盘古图生视频模型Pangu-MM-M2-AIGVideo-1.0.0,支持多比例5秒视频生成与96帧续写,8推理单元部署
Pangu-MM-M2-Text2Video-1.0.0是华为云2025年4月发布的文本转视频模型,支持16:9、9:16等5种长宽比,可生成5秒时长视频,需8个推理单元部署,适用于多场景短视频创作。
Step-Video-TI2V是阶跃星辰开源的300亿参数TI2V(Text/Image-to-Video)模型,支持生成102帧5秒视频,运动可控且平衡动态与稳定性,适配华为昇腾平台,应用于影视特效、广告创意、短视频生产等领域。
Step-Video-T2V-Turbo是300亿参数文本到视频模型的提速版本,通过推理步骤蒸馏技术将生成速度提升3-5倍,204帧视频耗时从743秒缩至148秒,保持90%质量。适用于短视频创作、广告营销、在线教育、游戏开发及虚拟人直播等场景,开源特性降低技术门槛。
Step-Video-T2V是阶跃星辰开源的文本到视频生成模型,300亿参数,支持中英双语输入,可生成204帧540P视频。特点:高压缩比Video-VAE提升效率,Video-DPO优化质量,Turbo版生成提速3-5倍。应用于广告营销、在线教育、游戏开发、虚拟人直播等场景,降低创作门槛。
CogVideoX-3是智谱AI推出的视频生成模型,支持文生视频、图生视频,采用3D变分自编码器和3D RoPE技术,提升帧间连贯性,避免闪烁。适用于广告制作、电影剪辑、短视频创作等场景。
MiniMax Hailuo-02 1080P是MiniMax发布的视频生成模型,支持原生1080P高清视频直接输出,在场景快速变换中动作流畅且具备细微表情,拥有较强时空一致性和物理逻辑性,实现SOTA指令遵循,适用于视频创作等场景。
MiniMax Hailuo-02 512P是MiniMax公司开发的多模态视频生成模型,采用创新NCR架构,参数和训练数据量分别提升3倍和4倍,效率提升2.5倍,擅长处理体操、杂技等复杂物理场景,支持生成6秒768P/1080P或10秒768P超清视频,在全球视频模型排名第二,价格低于国际同类产品,适用于创意内容制作、广告营销等场景。
MiniMax Hailuo-02 768P是MiniMax推出的AI视频生成模型,为Hailuo 01升级版,支持768P/1080P分辨率视频生成,最长10秒。采用全新DiT架构,指令响应率85%,可处理杂技等高难度物理场景,图生视频/文生视频能力全球排名第二。训练推理效率提升2.5倍,成本低,适用于科普动画、企业宣传等场景。
百度蒸汽机2.0是全球首个中文音视频一体化生成I2V模型,支持多人有声音视频生成,语音与唇形动作精准对齐,中文场景适配度超98%,具备电影级画质与运镜控制。已落地搜索、营销等场景,用户可通过百度搜索或“绘想”平台体验。
MiniMax S2V-01是MiniMax(海螺AI)于2025年1月推出的主体参考视频生成模型,属于AIGC视频创作工具。其核心特点为单图像输入生成动态视频,通过先进算法确保角色在多角度、运动场景中面部特征与身份的一致性,支持文本提示调整姿势、表情及照明。该模型已集成于Video Generation接口,定价4.5元/个,适用于电影特效制作、个性化内容创作、游戏角色动画及社交媒体视频生成等场景,简化视频制作流程并降低成本。
MiniMax T2V-01是海螺AI推出的文本生成视频模型,支持自然语言控制镜头运动,实现电影级运镜,减少随机性,提升视频创作的精准度和专业感
MiniMax I2V-01是MiniMax公司推出的图像转视频(Image-to-Video)模型,属于海螺AI视频模型矩阵成员。该模型支持将静态图像动态化为视频内容,适用于漫画转动画、静态海报动态化等场景,具备流畅、真实、有质感的视频生成能力,中文提示词生成准确率高,最长可支持400万tokens输入。
CogVideoX-Flash是智谱推出的免费AI视频生成模型,支持文生视频、图生视频,分辨率最高4K、帧率60fps,适用于内容创作、教育、广告、社交媒体等领域。
CogVideoX-2是智谱AI推出的文本/图像到视频生成模型,基于3D变分自编码器,压缩视频数据至2%并确保帧间连贯。支持720×480分辨率、6秒8帧视频生成,多推理精度适配不同硬件。应用于影视创作、广告营销、教育及社交媒体内容制作。