潮新闻客户端 记者 楼纯
快手的视频生成大模型“可灵”面世之后,引发了国内外的广泛关注。
6 月 21 日,可灵有了新的进化。它正式推出了图生视频功能,这个功能能够用任意的静态图像来生成 5 秒的视频。同时,还可以搭配不同的文本内容,从而实现丰富的视觉叙事。同时,可灵发布了领先业内的视频续写功能。此功能能为已生成的视频(包括文生视频和图生视频)提供便捷的一键续写服务,还能进行连续多次续写。通过该功能,视频最长可延伸至约 3 分钟。这充分显示了可灵强大的想象力,也体现了其精细的可控性,极大地拓展了视频大模型的创作边界。
化静为动 按需定制视觉叙事
“可灵”此前在文生视频方面已展现出强大能力,能创造逼真运动场景、精确模拟物理特性,还能将复杂概念巧妙融合,其输出可媲美电影级画质,且允许用户自由调节视频的纵横比。如今,这些卓越特性都被完美融入到了图生视频模型中。用户上传一张图片,“可灵”就能依据对图像的深入解析,将静态的图片转变为动态的,给予它 5 秒的鲜活生命气息。
上传经典的蒙娜丽莎,可灵能够给蒙娜丽莎戴上墨镜,同时赋予她灵动的眼神交流,使名画中的人物变得活灵活现。
其基础模型架构中的 3D 时空联合注意力机制带来了益处,可灵在构建复杂时空运动方面展现出了卓越的能力。这一能力使得模型在把静态图像转换为动态视频时,能够细腻且准确地实现大幅度的运动场景。只需上传一张牧羊犬追球的静止照片,模型便能生成一段生动的视频。牧羊犬在视频中活灵活现地奔跑着追逐网球,它的耳朵轻轻晃动,毛发随风飘扬。网球在视频中在空中弹跳,整个视频显得自然而流畅。
以一张汽车飞驰的图片作为素材,能够创造出身临其境的驾驶场景。在这段视频里,汽车在公路上展现出了疾速前行的姿态,同时也巧妙地将对向车道上连续不断的车流融入其中。道路两旁的树木快速地向后退去。这种快速向后退的景象模拟出了强烈的行驶速度感。虚化处理后的隔离带进一步增强了视觉上的动态效果和速度印象。整体画面就好像是出自精心策划的广告大片一样。
可灵图生视频模型融入了强大的提示词融合技术,对图像语义与用户指令进行了深化理解与整合。这表明,模型能依据用户提供的不同文本指令,巧妙地变换视频中的动态表现。例如,若用一张女孩的照片生成视频,模型默认生成的效果或许是在轻风中她的发丝缓缓飘动,周围的花朵轻轻摇曳,水面闪烁着细腻的波纹。如果用户具体输入“女孩转身背对镜头”,那么视频会智能添加女孩优雅转身的动作,同时还能细腻地捕捉到转身瞬间的微笑和眨眼,这展现了自然而生动的细节处理能力。
比如用巨龙的图片来生成视频,当输入“正在捕食的巨龙,飞扬的沙子,奇幻风格的电影”时,视频就会展现出巨龙昂首展翅掀起漫天黄沙的情景,并且它的嘴部开合仿佛在咆哮,呈现出非常生动的效果和奇幻的场景。通过这种文本与图像意义紧密联动的方式,能够将按需定制的视觉叙事提升到一个新的高度。
此外,可灵图生视频模型能够支持不同风格的图像输入。无论是自然写实风格的图像,还是风格化的图像,它都能够轻松地进行处理。同时,该模型还兼容各种长宽比的图像输入,展现出了强大的灵活性和适应性。例如,像这张骑士拿剑的竖版图片,在生成的视频中,骑士的黑袍在飞舞,宝剑上环绕着仙气,将氛围感拉满。
业内领先 视频续写可生成最长约3分钟视频
可灵大模型新推出了业内领先的视频续写功能。用户进行一键操作后,就能在已生成的视频基础上延续生成约 5 秒的内容。此功能既适用于文生视频,也适用于图生视频。更为突出的是,连续多次续写的话,能够最长生产约 3 分钟的连贯视频。因为对物理运动有深入的理解,所以视频续写既可以保证新生成的部分和原视频在运动上是连贯的,也能保证其具有物理合理性,同时还能够巧妙地将大幅度的动作变化融合进去,从而提升视频的生动性。
此次升级的一个亮点是将文本控制机制集成到视频续写当中。这表明用户可以凭借自定义提示词,给每段视频续写赋予个性化的创意。正因如此,模型借助高效的提示词融合技术,能够在场景之间平稳地过渡,对用户的每一个灵感火花都能做出响应。举例而言,有一个关于古堡的视频片段。用户能够选择让其先呈现“太阳落下去,天空变暗”的景象,接着再是“太阳升起来,天空变亮”。同时,用户也可以去探索另一种路径,即先“太阳落下去,天空变暗”,然后“灯光渐亮”,随后“灯光亮起,雾气氤氲”。通过这样的方式,能够创造出各具特色的连续视觉叙事,从而非常好地贴合用户的多样化需求。
视频前5秒为输入视频,后9秒为续写两次后的结果
6月6日,可灵文生视频大模型正式亮相(可灵官网:
并在快影 App 上开启了邀测体验。到目前为止,累计已有超过 14 万人排队进行申请。这次的进化,将灵文生视频基础大模型的强大能力无缝融入到图生视频和视频续写功能当中,会给用户带来更丰富、更灵活的视频创作体验。
近日在美国举行的国际顶级计算机视觉和模式识别领域学术盛会中,快手同步发布了可灵大模型的图生视频和视频续写等最新功能,这引发了现场的强烈反响。公开资料表明,今年快手有 8 篇论文入选,这彰显了快手在该领域的深厚研究功底。
据悉,快手将于下月召开的 2024 世界人工智能大会(WAIC)上举办一个论坛,该论坛以“新 AI·新应用·新生态”为主题。届时,快手会发布最新的大模型技术与应用战略,其中涵盖快手大模型技术矩阵的全景、基座模型技术的创新情况以及应用和落地的相关情况等。
版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;
工作时间:8:00-18:00
客服电话
0755-88186625
电子邮件
admin@lanyu.com
扫码二维码
获取最新动态