Sora成不了王炸？Meta人工智能负责人锐评：搞搞视频就得了_懂视

Sora成不了王炸？Meta人工智能负责人锐评：搞搞视频就得了

2024-02-23 18:16:03 责编:洛辞桉

OpenAI近期推出的视频生成模型Sora在业界引发了广泛关注，被视为视频生成技术的一大飞跃。尽管Sora因其卓越的视频稳定性和清晰度而备受市场喜爱，但一些来自竞争对手的科学家却对其持保留意见。尽管如此，仍有人对Sora寄予厚望，认为它有可能成为人工智能领域的新高峰——世界模拟器，这也是OpenAI所追求的目标。

OpenAI也在其官网文章中寄望，Sora绝不仅仅是个视频生成器，而是一个现实世界的模拟器。通过学习和模拟数据分布，生成与真实世界相似的虚拟样本，从而给现实世界提供预知信息。但这一前景被Meta的首席AI科学家Yann LeCun公开反驳，这位以直言不讳闻名的AI大佬直言：搞搞视频就好，别吹有的没的。

注定失败的模拟器

LeCun在X上公开发文称，通过生成像素来对世界进行模拟是一种资源浪费，且注定会失败。而该贴也引发了极大关注，一众网友在评论区华山论剑。简单来说，LeCun认为Sora模型试图推断太多不相关的细节，就像是通过试图分析足球的材料来判断足球的运行轨迹。

他指出，生成式模型适用于文本内容，因为文本是离散的，且是由数量有限的符号组成的数据，在这种情况下，处理预测中的不确定性变得十分容易。但如果换到以像素为单位的预测领域，不确定性就会变得非常棘手，且不可能成功。

底下的网友也纷纷发言，有人称Sora虽然令人印象深刻，但几乎每个场景都可能出现逻辑问题，比如艺术家测试视频中三头小狼莫名其妙分裂成五头小狼。这让模拟现实变得多少不太靠谱。

也有人说，Sora是应梦想而生，人可以做清醒的梦，或者做不太清醒的梦。这种看起来不太清醒的发言则是赌Sora有那么一些可能实现OpenAI“世界模拟器”的壮言。

与此同时，LeCun所在的Meta上周发布了一个视频联合嵌入预测架构V-JEPA，据称其通过观看视频来教导大模型理解和对物理世界建模，算是Sora之外，对世界模拟器的另一种尝试。

此外，V-JEPA还可以灵活丢弃不可预测的信息，而将训练和样本运行效率提升1.5-6倍。不过，V-JEPA显然显然没在市场引发多大动静，相比Sora要低调很多。

声明：本文由用户 huangyirong 上传分享，本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

显示全文

全部频道