可灵AI发布2.0版基座模型，千万资金扶持AIGC创作者

图片由可灵 AI 生成，提示词为本文标题。

4 月 15 日，钛媒体 APP 获悉，可灵 AI 宣布基座模型升级，面向全球正式发布可灵 2.0 视频生成模型及可图 2.0 图像生成模型。

可灵是全球首个用户可用的 DiT（Diffusion Transformer）视频生成模型，其 2.0 版本的模型在动态质量、语义响应和画面美学做了相应提升，而可图 2.0 模型主要集中在指令遵循、电影质感及艺术风格表现等方面。

可灵 AI 官方披露，截至目前，全球用户规模已经突破 2200 万，累计生成 1.68 亿个视频及 3.44 亿张图片素材。自去年 6 月上线以来，10 个月内，可灵 AI 的月活用户数量增长 25 倍。

" 去年 3、4 月的时候，当我在内部看到可灵第一个 DiT 模型的产出结果时，我心中涌现出一个想法，什么时候我能够用 AI 把我心目中的《三体》拍摄出来。" 快手高级副总裁、社区科学线负责人盖坤在发布会现场表示。

在视频生成方向上，钛媒体 APP 观察到，可灵 AI 正在朝着电影工业级美学上演进，然而，当前行业模型发展，远远无法符合这一需求，AI 在生成内容的稳定性及用户复杂创意的传达上，仍有很多缺陷。

盖坤发现，各家视频模型都存在一些共性问题，主要来自两方面：一是，语义分析能力问题，创作者们的文字表达，有的时候，AI 不能很精准地输出和控制生成结果；二是，动态质量的问题，通常是物体运动过快，或者不符合物理规律。

他认为，必须对基模型能力进行全方位提升。

在 2.0 模型中，可灵 AI 提出了 AI 视频生成的新的交互理念 Multi-modal Visual Language（MVL），让用户能够结合图像参考和视频片段等多模态信息，将脑海中包含身份、外观、风格、场景、动作、表情、运镜在内的多维度复杂创意，直接传达给 AI。

MVL 由 TXT（Pure Text，语义骨架）和 MMW（Multi-modal-document as a Word，多模态描述子）组成，能从视频生成设定的基础方向，以及精细控制这两个层面，实现 AI 创作者们的创意表达。

基于 MVL 理念，可灵 AI 正式推出多模态编辑功能。据盖坤介绍，MMW（多模态描述子）将不只局限于图片和视频，也可以引入其他模态的信息，例如声音和运动轨迹等。

与此同时，基于 MVL 这一全新交互方式，可灵 AI 还发布了可灵 2.0 大师版，在语义响应、动态质量和画面美学等方面提升生成效果。

可灵 2.0 大师版升级了视频及图像创作可控生成与编辑能力，上线新的多模态视频编辑功能，能灵活理解用户意图，支持在一段视频的基础之上，通过输入图片或文字，对生成的视频内容实现元素的增加、删减、替换，让创作者可以二次编辑和处理。

据快手副总裁、可灵 AI 负责人张迪披露，当前，图生视频约占到可灵 AI 视频创作量的 85%，图片质量对视频的生成效果有重要作用。

在图像生成大模型领域，可图 2.0 的优势体现在复杂语义理解能力，电影级的画面质感，以及多条件的可控风格化生成等。

新升级的可图 2.0 版本，提升了指令遵循能力、增强电影美学表现力以及更多元的艺术风格。在风格化响应上，可图 2.0 支持 60 多种风格化的效果转绘。

同时，可图 2.0 上线了图像可控编辑功能，即，局部重绘和扩图，支持图片的增加、修改和修复。在图像的多模态可控生成中，可图 2.0 上线了新的风格转绘功能，用户上传一张图片加上风格描述，能一键切换图片的艺术风格，同时保留原图的语义内容。

除了 C 端订阅用户，可灵 AI 面向 B 端商家提供 API 接入等服务。盖坤披露，来自世界各地的超过 1.5 万名开发者，已将可灵的 API 应用于不同的行业场景中，累计生成的图像数量约 1200 万个，生成的视频素材超过 4000 万个。

此外，可灵 AI 还发布了 " 可灵 AI NextGen 新影像创投计划 "，计划加大对 AIGC 创作者的扶持力度，并通过千万资金投入、全球宣发、IP 打造和保障，以全资出品、联合出品和技术支持等合作方式，激发 AI 爱好者们的创作热情。（本文首发于钛媒体 APP，作者｜李程程）