了解更多企业以及行业的动态

立即咨询
您现在所在的位置是: 首页> 资讯> 网站建设
炒得爆火的Sora到底怎么理解怎么学
发布:2024-03-04 浏览:3716

    随着AI人工智能的飞速发展,openai衍生出了几个惊为天人的产品,将人们对于智能AI的理解推向了一个新的高点。但是遗憾的是,官方至今还没有开放Sora共广大用户使用。国内要使用Sora, 也存在极大的门槛,例如openai账号申请注册门槛、Plus权限购买支付门槛等,但是这些门槛也不能阻止我们对于Sora, chatGPT的探索。

    最近这段时间,人工智能研究公司OpenAI发布首个文生视频模型Sora,其视频生成能力、效果呈现的成熟度震撼了全世界。Sora通过接收简单的文本指令,就能生成长达60秒的视频,能够通过计算追溯过去的行为动作,预判未来的轨迹走向,其中包含多角度镜头切换、复杂的视频场景、生动的角色表情等等。但是我们应该怎么认识它?怎么使用它?怎么把握它?这些问题使得我们很困扰。


    指令!指定!还是指令!指令是我们学习AI智能,学习Sora的第一大门槛。AI对于个体来说,就像是属于你自己的贾维斯,陪伴你的Moss,他们什么都知道,什么都理解,几乎无所不能,但是他们需要我的指导与引导,如何让他发挥最大限度的功能,对于每个行业的人来说,是一个巨大的难题。


    Sora的工作原理是使用扩散模型,它从一个看起来像静态噪声的视频开始,然后通过多个步骤逐渐去除噪声,最终生成视频。它使用类似于 GPT 模型的变换器架构,这使得它能够处理更广泛的视觉数据,包括不同的持续时间、分辨率和宽高比。Sora 还使用了 DALL·E 3 中的重述技术,为视觉训练数据生成高度描述性的字幕,从而使模型能够更忠实地遵循用户在生成视频中的文本指令。


    那么,Sora到底有什么能力呢?

    第一、 文本生成视频的能力。

    Sora能根据用户提供的文本描述生成长达60秒的视频,这些视频不仅保持了视觉品质,而且完整准确还原了用户的提示词。而在之前,市面上的AI视频模型大多只能生成非常短时间的视频,不仅 角色形象扭曲,图像不连贯,看起来像GIF动图,而且还得用户输入图片。而Sora则将AI生成视频长度扩展到了60秒。这意味着Sora生成的视频,能承载更多的信息、内容更为丰富,甚至达到了许多短视频平台发布内容的要求。


    第二、复杂场景和角色的生产能力

    Sora不仅能够呈现提示词包含的元素,还理解这些元素在物理世界中的运动方式。Sora对视频动态的处理已经非常接近现实了。官方表述说【Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式】,我觉得这些对于未来的AI来说,简直易如反掌。就拿Sora官网展示的这个视频案例,无论是动作的连贯性还是顺畅读度,Sora都处理得恰到好处,也许在视频中,能看到AI的影子,但这何尝不能被成为AI的一次重大变革呢?


    第三、多镜头生成能力

    官方描述说【该模型对语言有深入的理解,使其能够准确地解释提示并生成引人注目的字符来表达充满活力的情感。Sora 还可以在单个生成的视频中创建多个镜头,准确地保留角色和视觉风格】,意味着,Sora可以在同一视频中保持角色的视觉效果、风格、图像的稳定与精度。能扩展填补出缺失的帧。


   第四、物理学等运动模拟能力

   官方描述说【当前的模型存在弱点。它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕】【该模型还可能会混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹】。Sora能够模拟真实物理世界的运动,如物体的移动和相互作用。当然有优点也会有缺点,对于细节上的把控,未来精度的预知,还有些瑕疵。

本站声明: 本文章内容来源于互联网,文章内容仅供用户参考。本公司不能完全保证文章内容的准备性、时效性。如果因本文章对用户造成了任何损失或者损害,本公司将不会承担任何法律责任。如果涉及到版权问题,请提交到wikins@nbyuyuan.com

  • 立即与昱远顾问通话
    电话咨询
  • 在线咨询
  • 扫一扫添加微信
    微信咨询
  • 与昱远顾问QQ咨询
    QQ咨询