您的位置 首页 娱乐活动

GPT-4:情绪解读智能助理从科幻照进现实

北京时间5月14日凌晨,OPENAI通过一场26分钟的直播发布了新一代旗舰生成模型GPT-4O。演示展示了 G…

北京时间5月14日凌晨,OPENAI通过一场26分钟的直播发布了新一代旗舰生成模型GPT-4O。演示展示了 GPT-4O 的一系列新功能,包括毫秒级响应、语音交互和识别人类情绪等。与此OPENAI 还推出了 CHATGPT 的新桌面版本和新的用户界面,首席技术官米拉·穆拉蒂表示,这是为了让更多人更方便地使用 CHATGPT,并宣布 OPENAI 的产品理念是优先免费。


发布会结束后,OPENAI 首席执行官萨姆·奥特曼在其个人社交平台上发布了一个词:“她”。在科幻电影《她》中,AI 助理爱上了人类,保定天,具备新功能并接入 GPT-4O 的 CHATGPT 语音助手产品,似乎真的有望让科幻电影中的场景成为现实。


识别表情和语调,随时打断


GPT-4O 展示了“真正的”语音助手。“这是我第一次参加直播发布会,有点紧张。”当 OPENAI 前沿研究部门主管马克通过手机与 CHATGPT 交谈时,CHATGPT 回答,“要不你深呼吸一下?”


“好的,我深呼吸。”


“慢点,马克,你不是吸尘器。”


这是直播中发生的一幕,通过直播,OPENAI 全方位展示了接入 GPT-4O 后,CHATGPT 如何识别用户语音中的情绪。此后,马克还展示了 CHATGPT 如何用不同的声音朗读 AI 生成的故事,包括超级戏剧化的朗诵、机器人音调,甚至唱歌。


这似乎与“传统”的语音助手技术不同。有专家表示,目前市场上的某些“语音助手”的实际技术逻辑是将语音转换成文本,然后使用文本回复并转换成语音,因此这类语音助手无法识别语音中的情绪,而且存在延迟问题。但根据当天的演示,OPENAI 似乎解决了这个问题。


根据 OPENAI 在官网上发布的最新博客文章,在 GPT-4O 之前,语音模式与 CHATGPT 对话的平均延迟为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。而现在,GPT-4O 最快可在 232 毫秒内响应音频输入,平均响应时间为 320 毫秒,与人类相似。据悉,GPT-4O 是一个单独训练的新模型,可以端到端地处理文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。


除了语音的情绪识别,GPT-4O 还具有实时视觉功能。根据 OPENAI 研究员巴雷特·佐夫的演示,CHATGPT 通过手机摄像头帮助他实时解了一个方程,就像一名真正的数学老师在旁边指导每一个解题步骤。“每当你为数学焦头烂额的时候,我就在你身边。”CHATGPT 说。


CHATGPT 甚至可以通过前置摄像头观察用户的面部表情,分析其情绪。在回答网友提出的“CHATGPT 能识别你的表情吗?”这一问题时,巴雷特将手机摄像头对准自己,然后 CHATGPT 回答,“一个大大的微笑,你看起来非常开心。”

CHATGPT识别OPENAI研究员巴雷特的内心感受。演示中还展示了GPT-4O的代码编制能力和实时翻译能力。


OPENAI首席执行官萨姆·奥特曼介绍,GPT-4O中的“O”代表“OMNI(全面、垦利)”,因为该模型能同时处理文本、图片、视频和语音。


数据显示,GPT-4O在英语文本和代码上的表现与GPT-4 TURBO相当,但在非英语文本上的表现明显提升,且API(接口)速度更快。


GPT-4O的成本有所降低。官网显示,GPT-4O的输入和输出每1M TOKEN(语句单位)收费为0.005美元和0.015美元,而GPT-4 TURBO的输入和输出每1M TOKEN收费为0.01美元和0.03美元,相比之下,GPT-4O的成本降低了50%。


OPENAI的愿景:通过新的交互方式和界面让更多人免费使用产品


升级到大模型后,CHATGPT可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合作为输出。


第一轮演示中,CHATGPT直接在手机上使用。值得注意的是,近期有消息称苹果正在与OPENAI协商,计划在下一代IPHONE操作系统中引入CHATGPT功能。


CHATGPT还在苹果电脑中拥有“桌面版”和新的用户界面。使用键盘快捷键(OPTION + SPACE),用户可以快速向CHATGPT提问,还可以直接在应用程序中截取屏幕并与CHATGPT讨论。OPENAI计划在今年晚些时候推出WINDOWS版本。


奥特曼对此在社交媒体上表示,“新的语音(和视频)模式是我用过的最好的计算机界面。这就像电影中的AI一样,让我感到惊讶。达到人类水平的响应时间和表海门力是一个重大转变。”


“旧版CHATGPT界面展示了语言的可能性,而新版界面感觉截然不同。它快速、智能、有趣、自然且有用。对我来说,与计算机交谈从未像现在这样自然。随着我们添加(可选)个性化、访问您的信息、代表您采取行动的能力以及更多功能,我看到了一个令人振奋的未来,届时我们将能够使用计算机完成比以往任何时候都更多的事情。”奥特曼说。


OPENAI研究主管米拉·穆拉蒂和奥特曼都强调了“免费”理念。


米拉表示,GPT-4O的特别之处在于它以一种非常自然的方式为每个人带来了GPT-4级别的智能,包括免费用户,“未来OPENAI的产品将以免费为优先,以让更多人使用。”


奥特曼也在社交媒体上强调了“免费”的重要性,“我们的一个关键使命是免费向人们提供极其有效的AI产品,我为我们做出了世界上最好的大型语言模型感到自豪,并且可以在CHATGPT上免费使用它,无需观看广告。”

奥特曼表示,他和团队成员创立 OPENAI 时,最初的想法是创造 AI,并用它为世界带来各种益处。“而现在看来,我们将创造 AI,然后其他人将使用这个 AI 创造各种各样的令人惊叹的东西,让我们大家都从中受益。”


奥特曼说:“我们是一家企业,我们希望找到收费方式,帮助我们为数十亿人提供免费、优质的 AI 服务。”


贝壳财经记者 5 月 14 日登录网页版 CHATGPT 发现,内置大模型选项仍然只有 GPT-3.5 和 GPT-4 两种,并未看到免费使用 GPT-4O 的选项。OPENAI 方面称,在即将到来的几周里,用户将无需采取任何行动,即可自动接收到 GPT-4O 的更新。



值得注意的是,此次 OPENAI 的发布时间恰好“踩”在其竞争对手谷歌的发布会之前,有声音认为 OPENAI 宁可先推出 GPT-4O 而不是人们此前预期的 GPT-5,主要就是出于竞争目的考虑。


锦州移动董事长兼 CEO 傅盛说:“比较让人失望的是,这次 OPENAI 没有发布 GPT-5,连 GPT-4.5 都没看到。OPENAI 发布了一系列应用,最重要的是发布了语音助手,由于使用了端到端大模型技术,体验远超 SIRI。OPENAI 发布应用,恰恰说明应用在人工智能领域大有可为。目前看来,GPT-5 可能还要‘难产’一段时间。”

本文来自网络,不代表品牌家电维修网立场,转载请注明出处:https://www.33x1.com/brand/shyl/ylhd/557998.html

作者: baixiuhui1

为您推荐

联系我们

联系我们

18079759494

在线咨询: QQ交谈

邮箱: 964571095@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部