快手的视频生成大模型“可灵”面世之后,凭借惊艳的效果在国内外引起了广泛的关注。6 月 21 日,可灵进一步进化,正式推出了图生视频功能,这个功能能够用任意的静态图像生成 5 秒的视频,同时还可以搭配不同的文本内容,从而实现丰富的视觉叙事。同时,可灵发布了领先业内的视频续写功能。此功能能为已生成的视频(包括文生视频和图生视频)提供便捷的一键续写服务,还能连续多次续写。通过该功能,视频最长可延伸至约 3 分钟。这充分显示了可灵强大的想象力,也体现了其精细的可控性,极大地拓展了视频大模型的创作边界。
化静为动 按需定制视觉叙事
“可灵”此前在文生视频方面已展现出强大能力,能创造逼真运动场景,精确模拟物理特性,还能将复杂概念巧妙融合,其输出可媲美电影级画质,且允许用户自由调节视频的纵横比。如今,这些卓越特性都被完美融入到了图生视频模型中。用户上传一张图片,“可灵”就能依据对图像的深度剖析,将静态的图片转变为动态的,给予它 5 秒的鲜活生命气息。
上传经典的蒙娜丽莎,可灵能够给蒙娜丽莎戴上墨镜,还能赋予她灵动的眼神交流,使名画中的人物活灵活现。
其基础模型架构中的 3D 时空联合注意力机制带来了益处,可灵在构建复杂时空运动方面展现出了卓越的能力。这一能力使得模型在把静态图像转换为动态视频时,能够细腻且准确地实现大幅度的运动场景。只需上传一张牧羊犬追球的静止照片,模型就能生成一段生动的视频。牧羊犬在视频中活灵活现地奔跑追逐网球,它的耳朵轻轻晃动着,毛发随风飘扬。网球在视频中在空中弹跳,整个视频显得自然而流畅。
以一张汽车飞驰的图片作为素材,就能创造出身临其境的驾驶场景。在这段视频里,汽车在公路上呈现出疾速前行的样子,同时还巧妙地将对向车道上连续不断的车流融入其中。道路两旁的树木快速地向后退去,模拟出了强烈的行驶速度感。虚化处理的隔离带进一步增强了视觉上的动态效果和速度印象。整体画面就好像是出自精心策划的广告大片一样。
可灵图生视频模型融入了强大的提示词融合技术,对图像语义与用户指令进行了深化理解与整合。这表明模型能依据用户提供的不同文本指令,巧妙地变换视频中的动态表现。例如,用一张女孩的照片生成视频时,模型默认生成的效果或许是轻风中她的发丝轻轻飘动,周围的花朵在摇曳,水面闪烁着细腻的波纹。如果用户具体输入“女孩转身背对镜头”,那么视频会智能添加女孩优雅转身的动作,同时也能细腻地捕捉到转身瞬间的微笑和眨眼,这样就展现了自然而生动的细节处理能力。
比如用巨龙图片来生成视频,当输入“正在捕食的巨龙,飞扬的沙子,奇幻风格的电影”时,视频就会展现出巨龙昂首展翅掀起漫天黄沙的画面,同时巨龙的嘴部开合仿佛在咆哮,呈现出奇幻的场景。通过这种文本与图像意义紧密联动的方式,可以将按需定制的视觉叙事提升到一个新的高度。
此外,可灵图生视频模型具备支持不同风格图像输入的能力。它既能轻松处理自然写实的图像,也能处理风格化的图像。同时,该模型兼容各种长宽比的图像输入,展现出了强大的灵活性和适应性。例如有这样一张骑士拿剑的竖版图片,在生成的视频中,骑士的黑袍在飞舞,手中的剑散发着仙气环绕,将氛围感拉满。
业内领先 视频续写可生成最长约3分钟视频
可灵大模型新推出了业内领先的视频续写功能。用户进行一键操作后,就能在已生成的视频基础上延续生成约 5 秒的内容。此功能既适用于文生视频,也适用于图生视频。更为突出的是,连续多次续写的话,能够最长生产约 3 分钟的连贯视频。视频续写基于对物理运动的深入理解,它能确保新生成部分与原视频有运动连贯性,也能保证物理合理性,同时还能巧妙地融入大幅度的动作变化,从而提升视频的生动性。
此次升级的一个亮点是将文本控制机制集成到视频续写中。这表示用户可以通过自行设定提示词,给每段视频续写赋予个性化的创意。正因如此,模型借助高效的提示词融合技术,能够在场景之间顺畅地过渡,对用户的每一个灵感火花都能做出响应。举例而言,有一个关于古堡的视频片段。用户能够选择先让其“太阳落下去,天空变得昏暗”,接着“太阳升起来,天空变得明亮”;也可以去探索另一条路径,即“太阳落下去,天空变暗,灯光逐渐变亮”,随后“灯光亮起,雾气弥漫”,通过这样的方式创造出各种具有特色的连续视觉叙事,从而很好地契合用户的多样化需求。
6 月 6 日,可灵文生视频大模型正式展示出来。它在效果方面能够与 Sora 相媲美,并且立刻在快影 App 上开启了邀请测试体验。到目前为止,已经有累计超过 14 万人排队进行申请。这次的进化,将可灵文生视频基础大模型的强大能力无间断地整合到了图生视频和视频续写功能当中,会给用户带来更加丰富、更加灵活的视频创作体验。
近日在美国举行的国际顶级计算机视觉和模式识别领域学术盛会中,快手同步发布了可灵大模型的图生视频以及视频续写等最新功能,这引发了现场的强烈反响。公开资料表明,今年快手有 8 篇论文入选,体现了其在该领域深厚的研究功底。
据悉,快手将于下月召开的 2024 世界人工智能大会(WAIC)上举办一场论坛。该论坛以“新 AI·新应用·新生态”为主题,是大模型技术生态论坛。届时,快手会发布最新的大模型技术与应用战略,其中涵盖快手大模型技术矩阵的全景、基座模型技术的创新情况以及应用和落地的相关情况等。
版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;
工作时间:8:00-18:00
客服电话
0755-88186625
电子邮件
admin@lanyu.com
扫码二维码
获取最新动态