8月31日,低调的AI领域佼佼者MiniMax在上海举办了首次公开的“MiniMax Link伙伴日”活动,正式对外展示了其创新成果。活动上,MiniMax的创始人闫俊杰隆重推出了公司的视频生成模型video-1和音乐模型,并预告了即将在未来数周内发布的全新大模型abab7,该模型在速度和效果上均对标行业领先的GPT-4o。
video-1视频生成模型作为此次发布会的亮点之一,虽未详尽披露具体技术细节,但闫俊杰强调其高压缩率、优异的文本响应能力和多样化的风格特点,能够生成原生高清、高帧率的视频内容。目前,video-1已实现文本到视频的转换,并计划在未来迭代中增加图像转视频、视频编辑及更高级别的可控性功能。现场演示中,用户通过简单输入提示词,仅需1-2分钟即可生成6秒的视频片段,展现出良好的应用潜力和用户体验。
在随后的讨论中,闫俊杰深入探讨了AI大模型领域的诸多未解之题,包括商业模式(2B vs 2C)、市场定位(国内 vs 海外)以及Scaling law的适用性等。他指出,尽管存在诸多分歧,但视频生成已成为行业内普遍认可的发展方向。自年初OpenAI推出Sora视频大模型以来,各大厂商纷纷跟进,视频生成模型的快速涌现标志着该领域的蓬勃发展。
闫俊杰进一步阐述了MiniMax布局视频生成的战略考量。他认为,随着信息时代的发展,多模态内容已成为人类获取信息的主要方式,视频和语音交互的重要性日益凸显。为了提升用户覆盖度和使用深度,大模型厂商必须能够输出多模态内容,而不仅仅是文本。因此,MiniMax在已有的文字、声音和图片生成能力基础上,向视频生成领域迈进,是顺应时代潮流的必然选择。
然而,他也坦诚地指出了视频生成领域的诸多挑战。目前的视频生成结果尚难以完全满足用户期望,模型在理解物理规则和生成控制方面存在不足。此外,视频生成所需的数据量巨大,处理复杂度远高于文本生成,对基础设施和算法提出了更高要求。闫俊杰强调,解决这些问题需要耐心和持续的技术创新,同时也需要行业内外的共同努力和合作。
未来,启明创投等投资机构对视频生成领域的发展充满信心。他们认为,随着技术的不断进步和3D能力的融入,可控的视频生成将在影视、动画等领域引发生产模式的深刻变革。同时,图像和视频隐空间表示的压缩率提升也将极大提高生成速度和质量,为视频生成技术的广泛应用奠定坚实基础。
声明:本文由用户 huangyirong 上传分享,本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。TEL:177 7030 7066 E-MAIL:11247931@qq.com