抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

在AI技术日新月异的当下,图生视频大模型成为了内容创作领域的焦点。不同的大模型在图生视频能力上各有千秋,本文将使用同一张图片和相同提示词,对MinMax的Hailuo 02、Doubao和Kling 2.1这三款大模型进行全面对比。

测试素材与提示词

我们选用了一张充满细节的静态图片,因为最近这个复古题材很受欢迎,所以我们测试也准备使用这种题材。提示词设定为:“八十年代农村生活场景,在一座泥瓦房前的一颗大树下,一个老大爷在荡秋千,在他旁边是以为穿着红色上衣,黑色裤子的老大娘正在灶台上做饭,升起淡淡的炊烟。在他们前面有一片小型的菜地,里面种了一些白菜和花朵,旁边的桌子上摆着做好的四道饭菜。中景是一片被绿色庄稼覆盖的地,远景是连绵的高山,夕阳正落在山头,将远处的云彩照亮。”

图片如下:

image

MinMax的Hailuo 02表现

Hailuo 02在处理这一素材时,展现出了其强大的物理模拟和细节处理能力。他的镜头转换令人印象深刻,而且最关键的是,人物的脸没有崩,而且动态的,比如狗子的运动也没有残影,这点非常牛。

视频如下:

Doubao的呈现效果

Doubao生成的视频在场景连贯性上有不错的表现, 优势是操作简单,直接对话就可以,而且是完全免费,但是目前的画面bug有点多。

Kling 2.1的成果展示

Kling 2.1生成的视频在视觉效果上有独特之处。可灵整体性能比较平均,没有太大问题,但并没有经验的感觉。而且运动稍差,注意看狗在运动的时候画面似乎存在拼接错位。另外这里可灵的画质最好,因为我开了会员。不得不吐槽,可灵目前不开会员的话是完全无法使用的!!!

综合对比分析

从生成视频的细节丰富度来看,Kling 2.1和Hailuo 02表现较为突出,Kling 2.1在人物细节和光影塑造上更胜一筹,Hailuo 02则在物理模拟和场景细节的真实感方面表现优异。Doubao的细节丰富度相对较弱,但在场景连贯性和整体氛围的营造上表现稳定。

在对提示词的理解和执行准确性上,三款模型都能基本按照提示词生成视频,但Hailuo 02在物理规则遵循和复杂指令的细节执行上更加到位;Kling 2.1在情感和氛围的表达上更贴合提示词所营造的从古典到现代转变的奇妙感;Doubao则在整体场景的连贯性和元素的融合上表现良好。

在生成视频的流畅度方面,Hailuo 02的运动轨迹流畅自然,尤其是在物体的物理运动模拟上;Kling 2.1的指针转动和行人动作等也展现出了较高的流畅度;Doubao在整体场景的切换和物体运动的流畅性上也能达到较好的水平,但在一些细节动作上稍显逊色。

总结

MinMax的Hailuo 02、Doubao和Kling 2.1在图生视频能力上各有亮点。Hailuo 02擅长处理复杂物理场景和细节真实感的呈现;Doubao在场景连贯性和元素融合方面表现稳定;Kling 2.1则在细节丰富度、情感氛围表达和视觉冲击力上优势明显。创作者可以根据自己的具体需求,如注重物理模拟、场景连贯还是视觉效果等,来选择最适合自己的图生视频大模型。随着技术的不断发展,相信这些模型在未来会给我们带来更加出色的表现。

评论