您的位置 首页 生鲜速食

AI之眼,AI之耳,AI之口:OPENAI最三门峡作

中新网5月14日电(中新财经 吴家驹)并非是GPT-5,而是GPT-4O。 北京时间5月14日,研发CHATG…

中新网5月14日电(中新财经 吴家驹)并非是GPT-5,而是GPT-4O。 北京时间5月14日,研发CHATGPT的OPENAI公司隆重推出具备“听、看、说”能力的GPT-4O。


OPENAI官网解释称,GPT-4O中的“O”代表“OMNI”,在英语中常用作词根表示“全部”或“所有”的概念。


此前的预告中,该公司首席执行官萨姆·奥特曼(SAM ALTMAN)曾表示,最新发布的产品“不是GPT-5,不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西”。


据介绍,GPT-4O能够实时推理音频、视觉和文本,接受文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。


OPENAI表示,GPT-4O能在短至232毫秒内对音频输入做出反应,平均反应时间为320毫秒,接近人类在对话中的反应速度。它在英语和代码文本方面的表现与GPT-4 TURBO相当,而在非英语语言文本方面的表现取得了显著进步。在应用编程接口(API)方面,其速度加快了,成本也降低了50%。


现场,OPENAI展示了GPT-4O的多种应用场景。例如,在一次演示中,OPENAI前沿研究负责人马克·陈(MARK CHEN)通过手机与CHATGPT对话。陈和CHATGPT交流自己因演示而产生的紧张感,CHATGPT就像是朋友一样安慰他。CHATGPT还能从陈急促的喘息声中识别出他的紧张情绪,并说道:“慢点,马克,你不是吸尘器。吸入,然后数到四。”


另一场演示中,OPENAI后训练团队负责人巴雷特·佐夫(BARRET ZOPH)将自己的面部对着镜头,让GPT-4O观察自己的情绪。演示过程中,佐夫先用手机后置摄像头拍摄了木质桌面,GPT-4O表示:“我看到的是木质表面。”当佐夫让GPT-4O再次尝试时,GPT-4O对他说:“你看起来很开心,面带微笑,或许还有些激动。”


与此OPENAI在官网发布了一系列展示视频:GPT-4O可以辅助学习数学、西班牙语,为面试准备,通过画面判断出你的生日并唱《生日快乐歌》,还能够根据要求演唱不同风格的催眠曲,甚至可以担任“石头剪刀布”的裁判。在这些视频中,GPT-4O与演示者的对话流畅,说话语气宛如真人。


有网友指出,从目前展示的视频来看,GPT-4O在语音交互体验上取得了很大的进步。另有网友认为,GPT-4O对算力的需求更大。还有网友提出,既然GPT-4O具备了“视觉”,它能否代替盲人看世界。


OPENAI表示,通过GPT-4O,该公司跨文本、视觉和音频实现了端到端的模型训练,这意味着所有输入和输出都由同一个神经网络处理。由于GPT-4O是OPENAI首次将所有这些模式结合起来的模型,因此该公司仍在探索其功能和局限性。

对此,山姆·奥特曼在社交媒体上表示,最初的 CHATGPT 展示了语言界面的雏形,而新的 CHATGPT 则给人截然不同的感觉。它快速、智能、有趣、自然,而且热心助人。


他说:“随着我们增加(可选的)个性化功能、访问信息的功能、代表你采取行动的功能等,我确实看到了一个令人兴奋的未来,我们可以用电脑做比以往更多的事情。”

本文来自网络,不代表品牌家电维修网立场,转载请注明出处:https://www.33x1.com/brand/msys/sxss/556467.html

作者: baixiuhui1

为您推荐

联系我们

联系我们

18079759494

在线咨询: QQ交谈

邮箱: 964571095@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部