MiniMax T2V-01是海螺AI推出的文本生成视频模型,支持自然语言控制镜头运动,实现电影级运镜,减少随机性,提升视频创作的精准度和专业感

AI 模型
聚合主流模型能力入口,适合选型、对比和快速检索。
当前显示第 9 / 10 页,共 300 条结果,本页区间为 241-270。
MiniMax I2V-01是MiniMax公司推出的图像转视频(Image-to-Video)模型,属于海螺AI视频模型矩阵成员。该模型支持将静态图像动态化为视频内容,适用于漫画转动画、静态海报动态化等场景,具备流畅、真实、有质感的视频生成能力,中文提示词生成准确率高,最长可支持400万tokens输入。
Gemini 1.5 Flash 是谷歌 Gemini 家族轻量级多模态语言模型,通过知识蒸馏自 Pro 版,保留 transformer 解码器架构与多模态能力,支持超长上下文处理,高效利用 TPUs 实现低延迟,适用于高负载任务,如文档分析、代码调试等,兼顾速度与成本。
Kimi-latest-32k即月之暗面发布的开源大模型Kimi K2,采用MoE架构,总参数1万亿、激活参数32B,具备高效推理能力。其在代码生成、Agent任务、数学推理等领域表现突出,支持工具调用与复杂任务规划,适用于智能开发、自动化处理等场景。
kimi-latest-128k是Kimi开放平台推出的多模态大模型,对标Kimi智能助手最新模型并同步升级。具备128k上下文长度,支持8k/32k/128k动态切换,可图片理解、自动缓存(缓存Tokens费用¥1/M),兼容ToolCalls、联网搜索等功能。适用于AI聊天应用、智能助手/客服开发,追求与Kimi智能助手相似体验的场景。
kimi-latest-8k是由北京月之暗面科技有限公司开发的大模型,属kimi-latest系列,上下文长度128k且自动选8k/32k/128k计费模型,支持图片理解、自动上下文缓存,具备ToolCalls等moonshot-v1系列功能,适用于AI聊天应用用户及构建AI智能助手或客服的开发者。
ERNIE-4.5-21B-A3B-Thinking是百度开源的深度思考模型,采用混合专家(MoE)架构,总参数210亿,每token激活30亿参数。支持128K上下文窗口,适用于长文本推理、逻辑数学科学任务、代码生成及工具调用,实现高效复杂任务自动化处理。
kimi-thinking-preview是月之暗面推出的多模态思考模型,具备多模态推理与通用推理能力,擅长深度推理。作为k系列最新思考模型,可通过更换model或openai SDK使用,目前处于预览版阶段,暂不支持工具调用、联网搜索等功能。
o1-mini是OpenAI推出的轻量级STEM推理优化模型,基于强化学习训练,成本较o1-preview低80%,延迟更低且速率限制更高。专为数学、编码等复杂推理任务设计,在AIME数学竞赛中达70%正确率,适合学术研究、技术开发等场景,但非STEM事实知识表现较弱。
o1-preview是OpenAI推出的专业化推理大模型预览版,采用强化学习和思维链技术,通过内部思路链生成实现复杂逻辑推理,在数学、科学、编码等领域表现突出,如AIME数学竞赛解决率达93%。适用于多步骤问题解决、代码编写等场景,但成本较高、速度较慢,目前向ChatGPT Plus等付费用户开放。
ERNIE-4.5-300B-A47B-Paddle是百度文心大模型4.5系列中的300B参数多模态模型,采用异构MoE架构,单次推理激活470亿参数,支持128K超长上下文,通过2-bit压缩技术实现低资源部署。适用于医疗影像分析、长文档解析、工业质检等复杂场景,兼顾高性能与部署效率。
ERNIE-4.5-21B-A3B-Paddle是百度推出的文本混合专家(MoE)语言大模型,总参数量210亿,每个token激活30亿参数。采用异构MoE架构与模态隔离路由技术,依托飞桨框架优化,适配智能对话、内容创作等轻量化场景,提供ERNIEKit微调与FastDeploy部署工具链,基于Apache 2.0协议开源。
kimi-k2-turbo-preview是月之暗面(Moonshot AI)推出的Kimi K2高速版大语言模型,为混合专家(MoE)架构,总参数1万亿、激活参数320亿,上下文窗口达256K。输出速度60-100Token/s,为普通版6倍,适用于代码生成、长文本处理、工具调用等场景,在开源模型中性能领先。
kimi-k2-0905-preview是混合专家架构的开源基础模型,编程能力突出,Agentic Coding能力在测试和任务中表现佳,上下文长度扩展至256K,有高速版API。适用于AI编程工具、云服务部署等场景。
Gemini 1.5 Flash 8B是谷歌推出的轻量级多模态语言模型,参数规模80亿,支持文本、图像、音频等多模态处理。特点为低成本(100万输入令牌0.0375美元)、高效率,适用于大容量低复杂度任务。使用场景包括初创企业AI开发测试、基础多模态应用等。
腾讯混元生图(多轮对话)是腾讯推出的AI图像生成模型,属多模态大模型。具备常识推理与精准语义理解能力,能生成高质感图像,支持中英文及长文本渲染。当前版本开放文生图,多轮交互等功能后续发布,适用于设计、教育、营销等场景。
CogVideoX-Flash是智谱推出的免费AI视频生成模型,支持文生视频、图生视频,分辨率最高4K、帧率60fps,适用于内容创作、教育、广告、社交媒体等领域。
CogVideoX-2是智谱AI推出的文本/图像到视频生成模型,基于3D变分自编码器,压缩视频数据至2%并确保帧间连贯。支持720×480分辨率、6秒8帧视频生成,多推理精度适配不同硬件。应用于影视创作、广告营销、教育及社交媒体内容制作。
ERNIE-4.5-VL-424B-A47B-Paddle是百度文心4.5系列多模态大模型,采用异构MoE架构,支持""思考/非思考""双模式,在MathVista等多模态基准测试中表现比肩OpenAI-o1,已部署于工业质检等边缘设备场景。
ERNIE-4.5-VL-28B-A3B是百度开源的280亿参数多模态模型,具备文本与图像/视频理解能力。特点包括工程图纸理解准确率98.2%、降低40%误检率,支持从图表到报告全流程生成。应用于新闻出版(效率提升3倍)、制造业质检、法律文书分析等场景,已适配英特尔等硬件加速卡。
ERNIE-4.5-0.3B是百度推出的0.36B参数轻量级语言大模型,基于PaddlePaddle框架,支持SFT、DPO等基础微调,采用卷积编码量化技术实现4位/2位无损压缩,适配多芯片边缘部署,适用于对话、创作及轻量化文本处理场景,开源协议为Apache 2.0。
Grok-2是xAI开发的多模态大模型,支持文本、图像、视频交互,具备实时信息获取(DeepSearch模式)、代码生成与代理任务能力,强调逻辑推理与客观性。适用于科学查询、创意生成、编程开发及特斯拉车载交互等场景,支持网页和移动应用访问。
Grok-2 mini 是 xAI 推出的轻量化 AI 模型,基于 Grok-2 优化,特点为快速响应、文本交互友好,适用于简单文本任务。支持多语言处理,可集成实时检索能力,应用于问答、信息检索及基础文本生成。
moonshot-v1-128k-vision-preview 是 Moonshot AI 推出的多模态视觉模型,支持 128k 上下文长度,可理解图片内容并输出文本。具备多轮对话、流式输出、工具调用及 JSON 模式等特性,适用于大规模图像处理、实时交互等场景。暂不支持联网搜索和带图片的 Context Caching。
moonshot-v1-32k-vision-preview是一个具备视觉理解能力的大语言模型,上下文长度32k,可处理图片内容并输出文本,适用于图文结合的长文本生成场景。
moonshot-v1-8k-vision-preview 是 Moonshot AI 推出的多模态视觉模型,支持 8k 上下文长度,可理解图片内容并输出文本,适用于图像描述、图文问答等场景。
GPT-4o mini是OpenAI推出的轻量化多模态大语言模型,支持文本/图像输入,较GPT-3.5-turbo更智能且速度相当,响应迅速,适用于基础文本生成、简单信息查询等日常任务,免费用户可自动切换使用,简化了数据分析等高级功能。
文生图轻量版是腾讯云推出的文本生成图像API接口(TextToImageLite),基于深度学习模型实现文本到图像的智能转换。该接口默认支持3个并发任务处理,需通过腾讯云API平台调用,当前仅开放广州地域(ap-guangzhou)接入。其核心功能为根据输入文本描述生成相关图像,适用于轻量化图像生成场景的开发者集成,但公开资料未提及具体风格支持、分辨率等技术参数及实际应用案例。
kimi-k2-0711-preview是北京月之暗面科技开发的基于MoE架构的万亿参数开源语言模型,代码、搜索、创作、推理能力全面提升,速度更快,适用于编程、数据分析、内容创作、文件解读等复杂任务,赋能程序员、科研人员等专业人士。
Hunyuan-Role是腾讯混元系列大模型中专注于角色扮演场景的优化版本,属于对话式语言模型。其核心特点包括:基于丰富角色扮演数据训练,在互动语气、剧情推进、多轮对话等场景表现优于通用模型;支持长指令(最大输入28K)和角色设定遵循,可还原人设并主动引导话题;已应用于互动内容平台,作为“亲密朋友”类虚拟角色核心能力,满足情感陪伴与精神寄托需求。