OpenAI近期推出的视频生成模型Sora在业界引发了广泛关注,被视为视频生成技术的一大飞跃。尽管Sora因其卓越的视频稳定性和清晰度而备受市场喜爱,但一些来自竞争对手的科学家却对其持保留意见。尽管如此,仍有人对Sora寄予厚望,认为它有可能成为人工智能领域的新高峰——世界模拟器,这也是OpenAI所追求的目标。
OpenAI也在其官网文章中寄望,Sora绝不仅仅是个视频生成器,而是一个现实世界的模拟器。通过学习和模拟数据分布,生成与真实世界相似的虚拟样本,从而给现实世界提供预知信息。但这一前景被Meta的首席AI科学家Yann LeCun公开反驳,这位以直言不讳闻名的AI大佬直言:搞搞视频就好,别吹有的没的。
注定失败的模拟器
LeCun在X上公开发文称,通过生成像素来对世界进行模拟是一种资源浪费,且注定会失败。而该贴也引发了极大关注,一众网友在评论区华山论剑。简单来说,LeCun认为Sora模型试图推断太多不相关的细节,就像是通过试图分析足球的材料来判断足球的运行轨迹。
他指出,生成式模型适用于文本内容,因为文本是离散的,且是由数量有限的符号组成的数据,在这种情况下,处理预测中的不确定性变得十分容易。但如果换到以像素为单位的预测领域,不确定性就会变得非常棘手,且不可能成功。
底下的网友也纷纷发言,有人称Sora虽然令人印象深刻,但几乎每个场景都可能出现逻辑问题,比如艺术家测试视频中三头小狼莫名其妙分裂成五头小狼。这让模拟现实变得多少不太靠谱。
也有人说,Sora是应梦想而生,人可以做清醒的梦,或者做不太清醒的梦。这种看起来不太清醒的发言则是赌Sora有那么一些可能实现OpenAI“世界模拟器”的壮言。
与此同时,LeCun所在的Meta上周发布了一个视频联合嵌入预测架构V-JEPA,据称其通过观看视频来教导大模型理解和对物理世界建模,算是Sora之外,对世界模拟器的另一种尝试。
此外,V-JEPA还可以灵活丢弃不可预测的信息,而将训练和样本运行效率提升1.5-6倍。不过,V-JEPA显然显然没在市场引发多大动静,相比Sora要低调很多。
声明:本文由用户 huangyirong 上传分享,本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。TEL:177 7030 7066 E-MAIL:11247931@qq.com