[转贴] “清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

Blogs Headlines

Future Tech

[转贴] “清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

Publish date: Tue, 30 Jul 2024, 04:27 PM

智东西（公众号：zhidxcom）
作者 | 香草
编辑 | 李水青

最适合二次元的“国产Sora”来了！

就在刚刚，清华系大模型创企生数科技，在全球范围上线视频生成模型Vidu，全面开放文生、图生视频能力。

先来看看效果：

如果没有右上角的水印，你会不会以为这是某个日本动画电影的片段截取？

实际上，这是我用Vidu文生视频能力生成的动画，提示词为：两个人举起茶杯小口抿了一口。左边的人轻抿双唇后微笑，右边的人专注于他们的茶，形成一种静雅和微妙互动的场景。布景精致，淡雅的颜色、花卉布置和古典家具增强了优雅氛围。

今年4月，Vidu首次亮相，据称具备高动态性、高逼真度、高一致性等特点。此次上线，Vidu主打两大能力：动漫风格、角色一致性，其支持生成4秒、8秒固定时长的视频，分辨率达到1080P，此外还支持生成数字、英文等文字。在推理速度上，Vidu生成一段4秒片段只需30秒。

在价格方面，Vidu提供免费版和3种收费机制。免费版每月有80积分，可生成20个4秒视频；按月度订阅，标准版、高级版、尊享版价格依次为19.99美元、59.99美元、199.99美元（约合人民币145.22元、435.80元、1452.83元），每月分别可额外获得240、800、2880积分，视频时长延长到8秒，可去水印和商用。目前在上线前两周，Vidu提供限时5折优惠。

用户如果按年订阅，标准版、高级版、尊享版目前的价格分别是7.99美元/月、23.99美元/月、79.99美元/月。此外，Vidu开放了API内测申请。

“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

▲Vidu按年订阅价格

具体的生成效果和速度还得用了才知道，智东西第一时间拿到了内测资格并上手测试了Vidu。一番体验下来，我主要有以下几点感受：

1、首先是快，经过掐表实测，Vidu生成4秒视频不超过30秒。

2、语义理解能力很强，在100+字的长提示词下，Vidu也能覆盖到大部分细节并准确呈现。

3、Vidu实现了多镜头切换，能够通过一个提示词直接生成不同镜头的视频，这对于影视场景等应用很有价值。

4、运动幅度很大，无论是人物的表情、动作，还是景别切换，都保持了稳定性且没有牺牲动幅。

5、对动漫风格的定向优化突出，能保持风格一致性，避免了常见的崩坏现象。

Vidu体验链接：www.vidu.studio

一、文生视频：单提示词镜头切换，支持生成英文数字

打开Vidu，在左侧的文本框中，我可以直接输入文字进行视频生成，也可以让系统随机生成提示词。文生视频可以选择写实、动画两种风格，时长支持4秒、8秒固定长度，其中8秒视频需要订阅套餐。

图生视频则是上传图片后，选择用作起始帧或参考人物角色，提示词可有可无，此外不支持选择风格。

“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

▲Vidu视频生成界面

我们首先来测一下文生视频的效果。

虽然主打动画风格，但写实风格对Vidu来说也不在话下。例如文章开头的案例，如果用同样的提示词选择写实风格，生成的视频效果是这样：

是不是还挺有古风古韵那味儿的？

虽然视频后半段出现了茶杯“闪现”的失误，但瑕不掩瑜，Vidu无论是对提示词的语义理解上，还是对人脸、人手等细节的呈现上，都挑不出什么毛病。要是清晰度能再上一层，说是影视剧片段也不为过。

Vidu也在系统内提供了分辨率提升的功能，点击生成视频底部的“超清”按钮，就可以对视频进行超清处理。

在体验过程中，我发现Vidu对长文本的理解，以及基于单提示词生成多镜头的能力很突出。

例如这段提示词：在一个柔和灯光的浴室里，一只造型如美国动画角色的泰迪熊正在洗澡。它部分沉浸在泡泡浴缸中，一只爪子拿着电话，另一只爪子在搓洗自己。柔和的灯光营造出温暖和惬意的氛围，浴室的瓷砖是舒缓的粉彩色，增强了温馨和奇幻的氛围。泰迪熊的表情专注，表现出洗澡和打电话的同时进行。

这个提示词很长，覆盖了对主体动作、表情，场景氛围、灯光等多个细节的描写，而Vidu都一一准确地表现了出来。在理解语义的基础上，Vidu还增加了“侧面描写”，为泰迪熊添加了口型变化来体现“打电话”。

再比如这段提示词：先是一个滴答作响的怀表的特写镜头，然后拉远，揭示出相对而坐的两个人物，紧张气氛扑面而来。最后镜头转到窗外，是一篇黑压压的山脉。

这段提示词切换了3个镜头，Vidu准确生成了怀表的特写，并转换成两个人对话的场景，最后又抬高镜头对准了窗外。

值得一提的是，Vidu还支持在视频中生成包含数字、英文的画面。在上面的案例中也可见一斑，怀表上的数字清晰可见，从1到12都很准确。

例如基于这个提示词，我生成了一个动画风格视频：女孩捧着一个草莓生日蛋糕，上面插着蜡烛，蜡烛是数字“25”的形状。

Vidu不仅准确呈现了提示词，还“自由发挥”了后半段女孩走远和转身的细节，并且在此过程中，画面背景和人物保持了高度一致性。

再来看看英文单词的生成，我用的提示词为：一只柯基身穿红色的赛车服，头戴小头盔。在类似赛道的简约布景上，柯基坐在一辆小巧流线型的赛车中，准备起跑，赛车车身印有“DOGE”字样。

除了准确生成了“DOGE”字样外，Vidu在这个视频中还有一点惊艳到我：对光影的模拟。

在经过一段看起来像建筑阴影的地方时，画面主体的柯基和赛车随着相对建筑的位置，从全部笼罩在阴影中，逐渐变为只有柯基在阴影中、全部暴露在阳光下。虽然过渡还有些不自然，但在一定程度上体现了对物理世界光影关系的模拟。

当然，Vidu也有“翻车”的时候，在遇到涉及大幅度运动或是偏专业场景的时候，它明显有些力不从心。

例如我想让它生成一个奥运会场景，提示词为：在奥运会的乒乓球赛场上，灯光闪耀，观众们热情欢呼。甲和乙站在球台两端，甲表情自信地准备发球，他将球高高抛起，然后用力挥拍发球。球在空中划过一道弧线，乙则表情沉稳，快速移动脚步，精准地挥拍接球，随后球在半空快速穿梭，甲眼神期待，乙顽强应对，两人开始了激烈的对打，展现出高超的乒乓球技艺。

“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

无论是动画还是写实风格，Vidu在这个提示词上都大翻车，要么让运动员站在了球台的侧面，要么直接在球台的一边生成了第三个运动员，还“放任”运动员大肆犯规。

总的来说，在文生视频中，Vidu已经能应对大部分较为日常的场景，虽然有失误和翻车情况，但整体瑕不掩瑜，并且这些情况也可能通过“抽卡”解决。同时，Vidu对文字、多镜头的支持能大幅减少后期的工作，在实际应用中有很大的价值。

二、图生视频：角色风格高度一致，“纸片人”也能复刻

在图生视频方面，Vidu支持起始帧参考和角色一致参考两种方式。

这两个功能可以说是表情包和梗图制作神器了，比如我可以让马斯克变身深情男，为屏幕对面献上玫瑰。

“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

或者让他换上金刚狼的衣服，在城市夜景中“大秀肌肉”。

“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

我也可以用Vidu让喜欢的照片动起来，比如上传一张戴墨镜男孩的照片，把他的墨镜摘下来。

虽然这个人脸看起来有点诡异，但你就说墨镜摘没摘吧（doge）。

我又上传了一张举着摄像机的人像照片，输入提示词：男孩转身面向镜头。

“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

在保持发型、服装一致性的前提下，Vidu不仅让人物面向了镜头，还发挥想象力为他生成了一个欧美男孩的脸，比上一个视频中的脸进步了不少。

不过，用AI复活真人照片已经涌现出不少玩法了。既然Vidu针对动漫风格进行了专门的优化，那它能复活“纸片人”吗？

我上传了一张日本动画角色C.C.的特写，首先不写任何提示词，选择用作起始帧，看看Vidu会如何自由发挥。

“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

▲日本动画角色C.C.特写

不得不说，Vidu的表现有些超出我的预期了，其在初始画面的基础上变换了人物角度、表情，在此过程中不仅保证了画面的流畅和风格一致性，还让头发进行了大幅度随风飘动，有点“中二病”那味儿了。

“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

同样是上传这张参考图，我又尝试选择参考人物角色，随后分别输入“她微笑着，向镜头伸出双手”、“她生气地抱着双臂，转过头不理你”作为提示词。

“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

令我惊讶的是，即使是“纸片人”，Vidu也实现了很高的角色一致性，虽然画风有所变化，但人物的发色、瞳色、衣服都保持一致。不过在第二个提示词中，Vidu没能呈现“转过头”这个动作。

看来2D平面角色问题不大，那3D角色呢？我上传了一款日本游戏中的角色爱丽丝。

“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

▲日本游戏角色爱丽丝

选择参考人物角色后，我输入提示词：她幸福地笑着，眼睛眯成一条线，背景是一片花海。

Vidu基本复现了她的发型、发饰和服装，但人脸显然并不是同一张，同时发型等细看也有不一致，有点像Cosplay和原版的差别。不过在对提示词的理解和表达上，Vidu倒是没什么失误。

“纸片人”都试了，“纸片动物”是不是也能一试？我上传了一张杰瑞，让Vidu将其作为起始帧生成了下面这个视频。

“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

只见小杰瑞表情、动作都十分生动，就是Vidu似乎没分清他的左右腿……

总的来说，在图生视频方面，Vidu不仅能实现其他同类产品复活照片的功能，而且基于对动漫风格的优化，它能将真实人物照片中的玩法延伸到二次元，这为动画、游戏等行业带来了新的价值。

结语：剑走偏锋，Vidu走出差异化道路

AI视频生成赛道迎来小高潮，上周爱诗科技、智谱AI刚刚发布新模型，今天生数科技就甩出Vidu大模型迎战。

Vidu大模型在今年4月首次发布，当时据称支持一键生成16秒、分辨率1080P的高清视频内容，具备多镜头生成、时空一致性高等特点。从这次体验来看，虽然Vidu还没有上线16秒视频生成的能力，清晰度也有待提高，但在多镜头、一致性方面确实有很大突破，这为Vidu带来了差异化的特点。

短短5个多月，国内大厂、创企纷纷亮出杀手锏，国产视频生成大模型与Sora的差距越来越小，甚至已经实现弯道超车。

https://zhidx.com/p/435831.html

Discussions

Be the first to like this. Showing 0 of 0 comments

Featured Posts

MQ Trader

Introducing MY's First IPO Fund for Sophisticated Investors!

MQ Chat

New Update. Discover investment communities that resonate with your ideas

MQ Trader

M & A Value Partners IPO Equity Fund has been launched - Targeted 13% Return p.a

Latest Videos