安大互联
财经热点 > 财经资讯 > -人类思考方式有缺陷-!Sora三位大佬最新访谈 - Sora仍处在GPT-1阶段,但会超越人类智慧
【Sora】-人类思考方式有缺陷-!Sora三位大佬最新访谈 - Sora仍处在GPT-1阶段,但会超越人类智慧
浏览次数:【330】  发布日期:2024-4-28 18:02:16    文章分类:财经资讯   
专题:Sora】 【Bill】 【GPT
 

  2月16日,OpenAI推出新的AI大模型Sora,该文生视频大模型可通过快速文本提示建立“真切”和“富有想象力”的60秒视频。

  30天之后,第壹波试用者对使用情况进行了反馈。

  4月份,OpenAI官方账号发布的一支由Sora制作的MV(Music Video)——《Worldweight》,引发了很多网友们的围观。

  目前,Sora已经成为视频大模型的标杆。有人说,在视频生成领域,只有两种模型:OpenAI Sora模型,和其它不是Sora的模型。

  然而,Sora何时才能开放给公众使用,OpenAI方面始终没有给出具体的时间表。

  内测中的Sora表现优异,但OpenAI却迟迟没有正式对外开放Sora,这背后可能会有成本原因的考虑。知名科技作家Robert Scoble在社交平台X上就表示,普通用户仅仅每月支付20美元其实不能涵盖生成 人工智能 视频的成本。

  最近,NoPriors播客发布了对Sora项目团队三位责任人Tim Brooks、William Peebles(昵称Bill)和Aditya Ramesh的专访。

  Tim Brooks是DALL-E 3的主要作者之一。他本科就读于卡内基梅隆大学,主修逻辑与计算,辅修计算机科学。去年1月,他顺畅从加州大学伯克利分校获得博士学位后,立即加入OpenAI,参与了DALL-E 3和Sora的开发工作。

  Bill本科就读于麻省理工学院,主修计算机科学。在校期间,他参与了GAN和text2video的研究,还在英伟达实习,专注于深度学习、自动驾驶和计算机视觉。去年5月,Bill从伯克利结业后也加入了OpenAI。

  Aditya Ramesh在OpenAI已经是个"老人"。作为DALL-E的创造者,他主导了三代DALL-E的研究工作。

  在访谈中,这三位Sora责任人对外界关心的有关Sora的诸多方面问题给出了回答。

  核心内容:

  1,我们目前还没有制定产品的即时计划,甚至没有制定产品的时间表。

  2,现阶段的Sora,就像是新视觉模型的GPT-1。

  3,(关于伪造和安全)我认为这里要理清楚的一个关键问题是,部署这项技术的企业承担多少责任?例如,社交媒体公司应该做多少工作来告知用户他们看到的内容可能不是来自可信来源?用户在使用这项技术创造某些东西时要承担多少责任?

  4,这项技术有可能让许多有才气横溢、富有创造力的人创造出他们想要的东西。

  5,在让这项技术更广泛地普及方面,有许多服务方面的考虑需要考虑。一个大难题是怎样让这项技术足够便宜,让人们可以使用。

  6,我们思考事物的形式是有一个缺陷,就是没有那么高的保真度。因此,我们对Sora的前景持乐观态度,认为它将取代人类的某些能力。从长远来看,我们相信Sora有朝一日将超越人类的智慧,成为世界模型的代表。

  以下为访谈节选:

  主持人:很好。或许我们可以从 OpenAI 的使命开始谈起,那就是实现 AGI,也就是更强大的 人工智能 。那么,文本转视频的技术是否符合这个使命呢?你们是怎样开始研究这个领域的呢?

  Bill:是的,我们坚信像 Sora 这样的模型的确是实现 AGI 的关键步骤。

  展望未来,为了生成真正真切的视频,你务必学习一些关于人们如何工作、如何与他人互动、最终如何思考的模型。这不仅包含人,还有动物,和任何你想要模拟的物体。因此,展望未来,随着我们继续扩大像Sora 这样的模型,我们将能够构建这些类似世界模拟器的东西。随着我们未来扩大Sora的规模,AGI就会实现。

  主持人:在更广泛地使用 Sora 之前,您需要做什么工作?Tim,你愿意谈谈这个问题么?

  Tim:是的,我们目前还没有制定产品的即时计划,甚至没有制定产品的时间表。然而,我们将Sora的访问权限提供给一小部分艺术家和红队成员,以启动了解Sora将引发的影响。我们从艺术家那里得到了反馈,关于如何让它成为对他们最有用的工具,并从“红队成员”那里得到了反馈,关于如何让它安全,如何将它介绍给公众。

  主持人:我知道,当它推出时,许多人都被一些图像所震撼。你会看到一只猫在水池中的影子或诸如此类的东西。但我只是好奇,随着越来越多的人开始使用它,你看到了啥。

  Tim:是的,看到艺术家们用这个模型生成的成果,真的很棒。

  身为一个喜欢创造内容但又木有足够技能的人,使用这个模型并激发出一堆想法,并得到一些非常有目共睹的东西是非常容易的。好比,在迭代提示方面,实际生成它所花费的时间真的不到一个钟头。我特别高兴地看到艺术家们也热衷于使用这些模型,并从中创作出精彩的作品。

  主持人:这些模型在短片或其它领域的广泛应用的时间表是啥?我们何时会开始看到来自Sora或其它模型的实际内容,并成为更广泛媒体类型的一部分?

  Tim:我没有确切的时间表预测,但我对此很感兴趣,那就是除了传统电影之外,人们可能会将其用于什么。我认为,在接着的几年间,我们会看到人们开始制作越来越多的电影,但我认为人们也会找到使用这些模型的全新方式,这些方式与我们习惯的当前媒体完全不同。

  主持人:Aditya在OpenAI工作了大约五年,因此你见证了许多模型和公司的发展。当你考虑这个世界模拟模型的功能时,你认为它会成为模拟的物理引擎么?我对未来可能发生的其它一些前瞻性应用非常好奇。

  Aditya:是的,我完全认为在视频模型中进行模拟是我们将来能够做到的事情。

  Bill:你可以从视频中学到很多东西。OpenAI等公司过去在这方面投入了大量金额,好比语言,好比手臂和关节怎样在空间中移动的细节,它们是怎样以物理上准确的形式与地面接触的。因此,你只需通过对原始视频的练习就能学到很多关于物理世界的知识,我们真的相信,这对于将来的物理体现等事情非常重要。

  主持人:再谈谈模型本身。Tim,你能描述一下啥是扩散Transformer么?

  Tim:扩散是一种数据生成过程。这个过程从噪音开始,通过反复屡次去除噪音,直到最终去除了足够多的噪音,只生成一个样本。这就是我们生成视频的过程。

  从架构角度来审视,我们的模型务必是可扩展的,它们需要能够从大量数据中学习,并理解视频中那些非常复杂且具有挑战性的关系,这一点非常重要。因此,我们采用了一种类似于GPT模型的架构,称为Transformer。因此,将这两个概念与Transformer架构结合起来的扩散Transformer使我们能够扩展这些模型。随着我们投入更多的计算和更多的数据来训练它们,它们的性能会越来越好。

  主持人:Sora最有目共睹的一点就是它的视觉美感。我对此感到好奇,你是怎样调整或制作这种美感的?

  Bill:其实,我们并没有为Sora投入大量精力。我认为Sora的语言理解绝对允许用户以一种比其它模型更难的形式来操作它。你可以提供很多提示和视觉提示,这些提示将引导模型朝着你想要的代数类型发展。

  我认为展望未来,模型会赋予人们某种力量,让他们理解你的个人审美感,这将是许多人期待的事情。

  我们接触的很多艺术家和创作者都期待将他们的全部资产上传到模型中,这样在写标题时就可以借鉴大量的作品,并让模型理解他们设计公司几十年来积累的术语...。因此我认为个性化和它如何与美学结合在一起将会成为以后值得探索的一件很酷的事情。

  主持人:我认为Tim所说的就像超越传统娱乐的新应用。但这在计算上很昂贵,很难,而且不太可能。但我会讲述一个故事,并让深不可测的视觉效果实时发生。我们会得到它么?

  Tim:我认为我们正朝着那个方向前进。还有不同样的娱乐模式、不一样的教育模式和交流模式。娱乐是其中很关键的一部分,但我认为一旦真正理解了我们的世界,就会有许多潜在的应用。我们的世界和我们体验世界的形式很大水平上都是视觉化的。这些模型真正酷的地方在于,它们开始更好地理解我们的世界、我们的生活和我们所做的事情。我们可以利用这些技术来娱乐自己,也可以用它们来教育我们。有时候,当我想学习一些东西时,最有效的要领就是找一个定制的教育视频来解释。同样,如果我想和某人交流一些观点,可能最好的形式就是制作一个视频来阐述我的说法。因此,我认为娱乐和视频模型可能有更广泛的潜在应用。

  主持人:你们有尝试过将这些技术应用于数字化身份等方面么?

  Tim:到目前为止,我们并没有真正专注于其背后的核心技术。我认为我们现在在Sora的发展进度就像是新视觉模型的GPT-1。因此,我们如今的关键只是这项技术的条件发展,可能比特定的下游应用更重要。

  主持人:你们是怎样看待视频模型中的安全性和进行深度伪造或恶搞之类的事情?

  Aditya:这绝对是一个相当复杂的话题。我认为很多安全缓解措施可能都能从DALL-E 3中移植过来。

  我认为这里要理清楚的一个关键问题是,部署这项技术的企业承担多少责任?例如,社交媒体公司应该做多少工作来告知用户他们看到的内容可能不是来自可信来源?用户在使用这项技术创造某些东西时要承担多少责任?

  主持人:我想向在座的各位提出一个问题,关于将来的产品路线图、你的发展方向或你接着要开发的一些功能,你最兴奋的是啥?

  Tim:的确,这是一个好问题。我对人们将如何利用我们的产品创造出新的东西感到非常兴奋。我认为有许多才气横溢、富有创造力的人都有自己想要创造的东西。但有时要做到这一点真的很困难,因为他们可能缺乏必要的资源、工具或其它东西。这项技术有可能让许多有才气横溢、富有创造力的人创造出他们想要的东西。我真的很期待他们将要制作出啥了不起的东西,和这项技术将如何帮助他们。

  主持人:Bill,我想问你一个问题,这是否像你刚才提到的GPT-1一样,我们还有很长的路要走。这不是普通大众有机会尝试的东西。你能描述一下你想要处理的局限性或差距么?

  Bill:是的,我认为,在让这项技术更广泛地普及方面,有许多服务方面的考虑需要考虑。一个大难题是怎样让这项技术足够便宜,让人们可以使用。

  为了让这项技术真正变得更加广泛地普及,我们需要确保安全性,尤其是在选举年。我们对可能发生的错误信息和任何相关风险非常谨慎。我们今天正在积极努力解决这些问题。

  主持人:你能谈谈你在Sora项目上的工作是怎样影响更广泛的研究路线图的么?

  Tim:我认为,Sora的一个重要方面,是通过查看所有这些视觉数据来了解世界的知识。我们只是用视频数据对它进行了训练,它学会了3D,因为这些视频中存在3D。它还学会了当你咬一口汉堡包时,会留下咬痕。所以它学到了很多关于我们这个世界的东西。当我们与世界互动时,很多都是视觉的。我们一生中看到和学到的东西很多都是视觉信息。因此我们真的认为,对于智能,对于引导更智能的 人工智能 模型,更好地理解世界,这对它们来说极为重要,因为它们需要有这样的条件。有许多关于人们如何互动、事情如何发生、过去的事情如何影响将来的事情的内容,会催生比生成视频更广泛、更智能的 人工智能 模型。

  主持人:这几乎就像你同时发明了将来的视觉皮层和大脑推理部分的某些部分。

  Tim:是的,这是一个很酷的比较,因为人类拥有的很多智能实际上都与世界建模有关。当我们思考如何做事时,我们总是在脑海中演绎各种场景。我们会在梦中在脑海中演绎各种场景。因此我们有一个世界模型,将Sora构建为世界模型与人类拥有的大部分智能非常相似。

  我认为我们思考事物的形式是,几乎就像人类的一个缺陷,就是它没有那么高的保真度。

  因此,当你涉及到一组非常狭窄的物理学时,我们实际上无法做出非常准确的长期预测,这是我们可以通过其中一些系统进行改进的。

  因此,我们对Sora的前景持乐观态度,认为它将取代人类的某些能力。从长远来看,我们相信Sora有朝一日将超越人类的智慧,成为世界模型的代表。

  随着规模的扩大,真正有效的要领仍然只是预测数据。

  主持人:你认为公众对视频模型或Sora有啥误解么?或你想让他们知道什么?

  Aditya:在内部,我们始终在将Sora与GPT模型进行比较。当GPT-1和GPT-2问世时,人们开始越来越清楚地认识到,只需扩大这些模型的规模就能赋予它们惊人的能力。对我们而言,很明显,将同样的要领应用于视频模型也会造成非常惊人的能力。

  我们的确觉得这是GPT-1的时刻,这些模型很快就会变得更好。我们真的很兴奋,我们认为这将给创意世界造成令人难以置信的好处,这对AGI的长期影响是啥。

  这时,我们正在努力非常注意安全考虑,并构建一个强大的堆栈,以确保社会真正从中获益,同时减轻不良影响。

手机扫码浏览该文章
 ● 相关资讯推荐
2024-9-13【OpenAI】AI新时代揭幕!会-思考解题逻辑-的OpenAI推理大模型登场
 ● 相关资讯专题
OpenAI】  【GPT】  【大模型】  【思考解题逻辑】 
  • 网络建设业务咨询

   TEl:13626712526