例如,基于 GPT-4o 建立的电商使用现正在只需几秒钟的代码调整,就能通过添加这些新模子来用语音回使用户的轮次性问题,好比告诉我我比来的订单。
公司正在其网坐上发布了一张图表,显示 gpt-4o-transcribe 模子正在 33 种言语中的词识别错误率较着低于 Whisper——英语的错误率仅为 2。46%。有帮于确定措辞者何时完成了一个设法,从而提高精确性。
虽然 OpenAI 的语音 AI 模子此前曾因演员 Scarlett Johansson 的事务而陷入窘境,但这并未该公司正在这一范畴继续推进手艺立异。
正在取 VentureBeat 进行的视频通话演示中,就能让统一个语音听起来像一个狂笑的疯狂科学家或一个禅意十脚、安静的瑜伽教员。
今天,这家 ChatGPT 的开辟商发布了三个全新的专有语音模子:gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。这些模子最后通过使用法式接口 (API) 向第三方软件开辟者供给,供他们建立本人的使用法式。同时,OpenAI 还推出了一个名为 OpenAI。fm 的演示网坐,供小我用户进行无限的测试和体验。
o gpt-4o-mini-tts:每 100 万文本输入 token 0。60 美元,每 100 万音频输出 token 12。00 美元(约每分钟 0。015 美元)。
Harris 说:我们初次引入了流式语音转文本功能,答应开辟者持续输入音频并领受及时文本流,使对话感受更天然。
此外,gpt-4o-mini-tts 模子的语音能够通过文本提醒从多个预设中进行定制,以改变其口音、腔调、语气和其他声音特质——包罗表达用户要求的任何情感。这该当能很好地处理人们担忧OpenAI锐意仿照特定用户声音的问题(该公司此前否定正在 Johansson 事务中存正在仿照行为,但仍是撤下了阿谁可能涉及仿照的语音选项)。现正在用户能够自行决定他们想要 AI 语音若何发声。
o gpt-4o-transcribe:每 100 万音频输入 token 6。00 美元(约每分钟 0。006 美元)!
公司还举办了一个面向的角逐,寻找利用其演示语音网坐 OpenAI。fm 的最具创意的例子,参取者需要正在 X 平台上标识表记标帜 openAI 账号分享。获胜者将获得一台带有 OpenAI 标记的定制版 Teenage Engineering 收音机,OpenAI 平台产物担任人 Olivier Godement 暗示这是全球仅有的三台之一。
Harris 告诉 VentureBeat,新的 gpt-4o-transcribe 模子系列并非设想用于措辞人分手,即标识表记标帜和区分分歧措辞者的功能。相反,它次要设想用于领受单个(或可能多个)声音做为单一输入通道,并正在该交互顶用单一输出声声响应所有输入。
o gpt-4o-mini-transcribe:每 100 万音频输入 token 3。00 美元(约每分钟 0。003 美元)。
专注于物业办理从动化的 EliseAI 发觉,OpenAI 的文本转语音模子实现了取租户更天然、感情更丰硕的互动。加强的语音使 AI 驱动的租赁、和预定参不雅更具吸引力,提高了租户对劲度和通话处理率。
然而,它们进入市场时面对着史无前例的激烈合作。专注于语音 AI 的公司如 ElevenLabs 推出了支撑措辞人分手的新型 Scribe 模子,英语错误率也较低(但不及 OpenAI),为 3。3%,订价为每小时输入音频 0。40 美元(约每分钟 0。006 美元,取 OpenAI 相当)。支撑句子级以至词级的发音和感情腔调定制——完全基于用户指令,而不是预设声音。Octave TTS 的订价不克不及间接比力,但有供给 10 分钟免费音频的免费层级。更高级的音频和语音模子也正正在进入开源社区,包罗一个名为 Orpheus 3B 的模子,它采用宽松的 Apache 2。0 许可证,这意味着只需开辟者具有合适的硬件或云办事器,就无需领取任何利用成本。
瞻望将来,OpenAI 打算继续完美其音频模子,并正在确保平安和负义务的 AI 利用的前提下摸索自定义语音功能。除了音频之外,OpenAI 还正在投资多模态 AI,包罗视频,以实现更动态和交互式的基于代办署理的体验。
Harris 暗示:ChatGPT 正在成本和机能衡量方面有着略微分歧的要求,所以虽然我估计它们最终会采用这些模子,但目前此次发布次要针对 API 用户。
按照 OpenAI 取 VentureBeat 分享的用户反馈,已有多家公司将 OpenAI 的新音频模子整合到其平台中,并演讲了语音 AI 机能的显著提拔。
这些新模子旨正在代替 OpenAI 两年前推出的开源文本转语音模子 Whisper。外行业基准测试中,新模子展示出更低的词错误率,并正在嘈杂中、分歧口音和各类语速下都有更好的表示——支撑跨越 100 种言语。
这些模子是 OpenAI 正在 2024 年 5 月推出的 GPT-4o 模子的变体,目前为很多用户供给 ChatGPT 的文本和语音体验。公司通过额外的数据对根本模子进行后期锻炼,使其正在和语音方面表示超卓。公司没有具体申明这些模子何时会使用到 ChatGPT 中。
此外,正在正式发布前,这些消息正在 X 平台(原 Twitter)上被提前泄露。TestingCatalog News (testingcatalog) 正在颁布发表前几分钟就发布了新模子的细致消息,列出了 gpt-4o-mini-tts、gpt-4o-transcribe 和 gpt-4o-mini-transcribe 的名称。这个泄露消息归功于 StivenTheDev,该帖子敏捷获得关心。
建立 AI 语音体验的 Decagon 利用 OpenAI 的语音识别模子后,精确率提高了 30%。这种精确率的提拔使 Decagon 的 AI 代办署理可以或许正在现实场景中更靠得住地运转,即便正在嘈杂中也是如斯。集成过程很快,Decagon 正在一天内就完成了新模子的系统整合。
不外,对于那些寻求低延迟、及时 AI 语音体验的开辟者,OpenAI 利用其 Realtime API 中的语音到语音模子。
令人印象深刻的是,按照上周 OpenAI YouTube 曲播发布新模子时的演示者引见,通过公司新推出的 Agents SDK,那些曾经正在常规 GPT-4o 等文本狂言语模子根本上建立使用的开辟者,只需约 9 行代码就能添加流利的语音交互功能。