首页/生活百态/正文
国产文生视频大模型迈入加速阶段:快手可灵对标Sora开放邀测体验

 2025年04月05日  阅读 3

摘要:文生视频大模型Sora发布之后,国内企业纷纷开始参与其中,国产文生视频大模型进入了加速发展的阶段。36kr了解到,最近又有一个国产视频大模型加入到了这场竞争之中,快手的“可灵”视频生成大模型官网现在已经正式开始运行。与之前各家所推出的以展示视频为主的视频...

文生视频大模型 Sora 发布之后,国内企业纷纷开始参与其中,国产文生视频大模型进入了加速发展的阶段。36kr 了解到,最近又有一个国产视频大模型加入到了这场竞争之中,快手的“可灵”视频生成大模型官网现在已经正式开始运行。与之前各家所推出的以展示视频为主的视频大模型相比,这次亮相的可灵大模型不仅效果可以和 Sora 相媲美,而且已经在快手旗下的快影 App 上开始邀请测试并提供体验。

可灵大模型官网

快手是短视频领域的头部玩家,在短视频技术方面积累多年且较为深入。它的视频生成大模型拥有天然的应用场景,并且应用场景广泛。可灵大模型是快手 AI 团队自研的。它采用类 Sora 的技术路线,并且结合了多项自研创新技术,所以具备诸多优势。其一,能够生成大幅度的合理运动;其二,能够模拟物理世界特性;其三,具备强大的概念组合能力和想象力;其四,生成的视频分辨率很高,时长可达 2 分钟(帧率),并且支持自由的宽高比。

具体来说:可灵大模型具备生成较大幅度合理运动的能力。它采用了 3D 时空联合注意力机制,凭借此机制能更好地对视频中的复杂时空运动进行建模。所以,可灵大模型不但能够生成幅度较大的运动,而且生成的运动更符合客观运动规律,能够切实让想象力得以展现和运动起来。在下面宇航员在月球上奔跑的这个例子里,镜头慢慢抬升,我们能够看到宇航员跑步时动作流畅且轻盈,其步态以及影子的运动既合理又恰当。

一名宇航员在月球表面进行奔跑。低角度的镜头将月球的广阔背景展现了出来。其动作既流畅又显得轻盈。

快手视频能随便发别人吗_快手能发视频吗_可以发快手的视频

自研模型架构及 Law 激发了强大建模能力,这使得可灵大模型能够模拟真实物理世界的特性,为我们构建起一个无限逼近现实的想象空间。无论是真实世界的光影反射,还是重力影响下的流体运动,亦或是与物理世界的交互,可灵大模型都能够生成符合物理规律的视频。下面是关于小男孩吃汉堡的生成视频。他一口咬下去,汉堡就被咬掉了一个大大的缺口,并且这个缺口在视频中一直保持着。我们可以看到小孩咀嚼汉堡时那享受的表情,他脸部的肌肉动态十分逼真。

:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡

具备强大的概念组合能力与想象力。模型对文本 - 视频语义有深刻理解,且基于其架构学到强大的概念组合能力,因此灵大模型能够把用户丰富的想象力转化为具体的画面,使创意近在咫尺。以下视频展示了熊猫吉他手坐在湖边弹着吉他唱歌的想象场景。

:一只大熊猫在湖边弹吉他

可灵大模型生成的视频分辨率很高,时长可达 2 分钟(帧率),还支持自由输出视频宽高比。可灵大模型的自研 3D VAE 能把视频编码到紧凑的隐空间并解码成带有丰富细节的视频,能够生成高分辨率的视频。因为有高效的训练基础设施、极致的推理优化和可扩展的基础架构,所以可灵大模型能够生成长达 2 分钟的视频。在推理过程里,能够输出多种视频宽高比且内容相同。同时,可灵官网展示了以分钟为单位的视频生成效果,能跟随镜头看到小男孩骑自行车游览花园,以及在一镜到底的过程中穿越春夏秋冬四季的风景。

快手能发视频吗_快手视频能随便发别人吗_可以发快手的视频

(视频片段,完整版详见可灵官网)

大模型的生成效果与数据的规模和质量相关,也与大规模训练的效率有关。在可灵大模型的研发过程里,配套构建了高效的大规模自动化数据解决方案,此方案涵盖了海量视频的挖掘、多维的打标筛选、视频描述的增强以及数据驱动的效果质量评估等多个领域。在训练过程中,采用了多种方案,包括计算优化方案和通信优化方案。这些方案极大地提升了 GPU 的利用率和网络带宽的利用率。同时,通过自动故障检测等机制,提供了分钟级的故障恢复能力。这保障了在短时间内能够快速提升模型的效果。

快影 App 的 AI 创作功能已正式开启文生视频功能的邀测。创作者可以申请并体验可灵大模型最新的文生视频功能。同时,图生视频功能也将在近期开放。

可灵大模型的基础上,更多应用方向已经落地或者即将落地。比如,肢体驱动的“AI 舞王”功能在快手和快影 App 得以成功落地,用户只要上传一张全身或者半身照片,就能够体验到一键跳舞的乐趣。近期还将首次上线“AI 唱跳”新玩法,这种玩法能够同时驱动表情和肢体动作,仅凭借一张照片就能生成唱跳“爱你”的生动视频。

AI 大模型时代来临,快手作为头部短视频公司,已展开全面布局。公开资料表明,快手先后发布了通用大语言模型“快意”,以及文生图大模型产品“可图”。同时,快手还推出了诸如 -a-、-、I2V- 等视频关键技术,这些举动引发了广泛的关注。据悉,此次可灵大模型发布之际,快手会持续加快大模型的研发步伐,同时也会持续推进大模型的应用,从而带来更为多样的 AI 创作以及互动体验。

版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;

原文链接:http://wen.bjhwtx.com/post/16416.html

标签:

博览广文网

博览广文网为所有文学爱好者、新闻爱好者、关注生活多方面内容的观众朋友提供多方位的内容呈现、提升阅读空间、填充碎片时间,开阔读者的视野、增长见识、了解民生、一个让您不出户尽知天下事的网站平台!
热门标签
关于我们
博览广文网,让阅读更简单,让知识更有温度。这里汇聚了各类优质文化信息,无论是全球热点、历史故事,还是实用百科、趣味探索,您都能轻松获取。我们希望用阅读点亮您的世界,让每一次浏览都充满收获和乐趣。
导航栏A标题
博览广文网
扫码关注
联系方式
全国服务热线:0755-88186625
Q Q:8705332
Email:admin@lanyu.com
地址:深圳市福田区海雅缤纷国际大厦5层501
Copyright 深圳市蓝宇科技有限公司 版权所有 备案号:粤ICP备80126003-03号