Sora:OpenAI的文字生成视频大模型,可根据文本生成60秒视频

AI工具教程2个月前更新 新媒派
500 0 0

Sora可根据文本指令生成60秒视频,可生成具有多个角色、特定类型运动及精确主题和背景细节的复杂场景,并在单个生成视频中创建多个镜头,准确保留角色和视觉风格。

·OpenAI正在教AI理解和模拟运动中的物理世界,目标是训练模型来“帮助人们解决需要现实世界互动的问题”。不过,Sora在提示空间细节方面会混淆左右,也无法理解因果关系的具体实例。

Sora:OpenAI的文字生成视频大模型,可根据文本生成60秒视频

Sora生成的视频:几只巨大的猛犸象穿过一片白雪覆盖的草地,长毛在风中轻轻飘动,远处是白雪覆盖的树木和大山。

开发出热门聊天机器人ChatGPT后,OpenAI继续在生成式人工智能上玩出新花样。2月16日,OpenAI推出新的AI大模型Sora,该文生视频大模型可通过快速文本提示创建“逼真”和“富有想象力”的60秒视频。

OpenAI表示,Sora能够根据文本指令生成长达60秒的视频,同时保持视觉质量并遵守用户提示。Sora可生成具有多个角色、特定类型运动以及精确主题和背景细节的复杂场景。该模型对语言有深刻理解,能够准确领会提示,生成令人信服的角色。Sora还可以在单个生成视频中创建多个镜头,准确保留角色和视觉风格。

Sora:OpenAI的文字生成视频大模型,可根据文本生成60秒视频

Sora生成的视频:一只猫叫醒了正在睡觉的主人。

Sora:OpenAI的文字生成视频大模型,可根据文本生成60秒视频

 

“这个模型不仅能理解用户在提示中要求什么,还能理解这些东西在现实世界中是如何存在的。”OpenAI表示,正在教人工智能理解和模拟运动中的物理世界,目标是训练模型来“帮助人们解决需要现实世界互动的问题”。

除了能够仅从文本指令生成视频外,该模型还能够利用现有的静止图像从中生成视频,精确地将图像内容动画化,也可以利用现有视频进行扩展或填充缺失的帧。

Sora:OpenAI的文字生成视频大模型,可根据文本生成60秒视频
Sora:OpenAI的文字生成视频大模型,可根据文本生成60秒视频

Sora有时会生成不合情理的动作,譬如在跑步机上倒着跑步。

 

不过,Sora仍在开发中,存在明显“弱点”,特别是在提示空间细节方面会混淆左右,也无法理解因果关系的具体实例,比如制作了一个视频,视频中有人咬了一口饼干,但之后饼干上没有咬痕。Sora:OpenAI的文字生成视频大模型,可根据文本生成60秒视频

Sora:OpenAI的文字生成视频大模型,可根据文本生成60秒视频

Sora生成的视频:五只小狼在一条砾石路上嬉戏追逐,周围长满了草。Sora的缺点是动物或人会凭空出现,特别是在包含许多实体的场景中。

 

Sora生成的视频中,动物或人会凭空出现,特别是在包含许多实体的场景中。此外,Sora难以精确描述随时间推移发生的事件,例如跟踪摄像机的特定轨迹。

Sora:OpenAI的文字生成视频大模型,可根据文本生成60秒视频
Sora:OpenAI的文字生成视频大模型,可根据文本生成60秒视频

Sora生成的视频:一把普通的塑料椅子在沙漠中被发现,人们小心翼翼地挖掘并掸去沙子。在这个例子中,Sora没有将椅子建模为一个刚性物体,导致不准确的物理交互。

 

对于模型安全性的考量,OpenAI表示,计划与一个专家团队合作测试最新模型,密切关注错误信息、仇恨内容和偏见等。OpenAI还表示正在开发帮助检测误导性信息的工具,比如检测分类器可以判断视频是何时由Sora生成的。其文本分类器可检查并拒绝违反使用政策的文本输入提示,例如极端暴力、性内容、仇恨图像、名人肖像等。“我们还开发了鲁棒性的图像分类器,用于审查每个生成视频的帧,以帮助确保它在显示给用户之前符合我们的使用政策。”

OpenAI表示,Sora将首先提供给网络安全教授,以评估产品的危害或风险。一些视觉艺术家、设计师和电影制作人也能获得Sora的访问权限,以此收集关于创意专业人士如何使用Sora的反馈。

Sora:OpenAI的文字生成视频大模型,可根据文本生成60秒视频

Sora生成的视频:在“赛博朋克”背景下,一个机器人的生活故事。

 

市场研究公司ABI research高级分析师里斯•海登(Reece Hayden)表示,尽管多模态大模型并不新鲜,而且文生视频的模型已经存在,但OpenAI声称Sora具有的长度和准确性使其与众不同。海登认为,这类人工智能模型可能会对数字娱乐市场产生重大影响,新的个性化内容将在各个渠道传播,“一个明显的用例是电视,创造简短的场景来支持叙事。”

© 版权声明

相关文章