新版ChatGPT加强语音、文本、音视频交互功能

来源：时间：2024-05-16 07:53 点击：次

导读：

　　新华社北京5月14日电（袁原）美国开放人工智能研究中心13日展示了最新版本ChatGPT的新技能：与使用者展开语音对话、识别图像并展开讨论、翻译……

　　GPT-4o为新版本编号。据路透社报道，相比先前版本，GPT-4o与使用者对话基本无延迟，和人类反应速度类似。即使对话中途被打断，也能继续下去。这些都是实现逼真语音对话的标志，也是当前众多人工智能语音助手普遍面临的技术难点。

　　在当天网络直播的展示中，这款生成式人工智能工具利用其视觉和语音能力，指导演示者在纸上逐步解出一道方程题，而不是直接给出答案。它还展示了英语与意大利语互译、用自拍照片识别情绪等能力。当一名演示者告诉它，自己正展示它是“多么有用和不可思议”时，它回答道：“哦，快别说了，怪害臊的。”

　　开放人工智能研究中心首席执行官萨姆・奥尔特曼当天在博客中写道，GPT-4o就像“电影中的人工智能”技术。“与电脑交谈一直让我感觉不自然，现在自然了。”

　　开放人工智能研究中心首席技术官米拉・穆拉蒂在当天活动中说，GPT-4o将于今后几周内上线，用户可免费试用。ChatGPT原有付费用户将获得新版本更多使用权限。

　　路透社报道，开放人工智能研究中心希望以GPT-4o在激烈的人工智能技术竞争中保持领先。该公司2022年发布ChatGPT后，短时间内每月活跃用户增至1亿。然而，研究机构西米勒网络公司的数据显示，去年以来ChatGPT用户人数呈现过山车式变化，近期才重回去年5月巅峰时期的水平。

　　近年来，开发更人性化、功能更强大的生成式人工智能工具竞争激烈。谷歌母公司字母表公司拟于14日召开谷歌开发者年度会议，预计届时将展示谷歌开发的相关产品。硅谷企业家埃隆・马斯克、技术企业“深层思维”创始人之一穆斯塔法・苏莱曼也分别投资开发了聊天机器人Grok和Pi，将拟人化特点作为产品主攻方向。

　　在英国广播公司看来，GPT-4o能够结合文本、音频和图像内容瞬间做出反应，目前在竞争中仍处于领先地位。

责任编辑：网络

感谢您的支持，我会继续努力的!

扫码打赏，你说多少就多少

打开支付宝扫一扫，即可进行扫码打赏哦

随便看看：