刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站(口气.模型.刚刚.发布.网站.....)

wufei123 2025-04-06 阅读:26 评论:0
就在刚刚,openai 宣布在其 api 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 agent。 新产品的核心亮点概述如下 gpt-4o-transcribe ( 语音转文本 ) :单词错误率...

就在刚刚,openai 宣布在其 api 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 agent。

新产品的核心亮点概述如下

gpt-4o-transcribe ( 语音转文本 ) :单词错误率 ( WER ) 显著降低,在多个基准测试中优于现有 Whisper 模型

gpt-4o-mini-transcribe ( 语音转文本 ) :gpt-4o-transcribe 的精简版本,速度更快、效率更高

gpt-4o-mini-tts ( 文本转语音 ) :首次支持「可引导性」 ( steerability ) ,开发者不仅能指定「说什么」,还能控制「如何说」

据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

因此,gpt-4o-transcribe 更适用于处理口音多样、环境嘈杂、语速变化等挑战场景,比如客户呼叫中心、会议记录转录等领域。

gpt-4o-mini-transcribe 则基于 GPT-4o-mini 架构,通过知识蒸馏技术从大模型转移能力,虽然 WER(越低越好)稍高于完整版模型,但仍旧优于原有 Whisper 模型,更适合资源有限但仍需高质量语音识别的应用场景。

这两款模型在 FLEURS 多语言基准测试中的表现超越了现有的 Whisper v2 和 v3 模型,尤其在英语、西班牙语等多种语言上表现突出。

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

定价方面,GPT-4o-transcribe 与之前的 Whisper 模型价格相同,每分钟 0.006 美元,而 GPT-4o-mini-transcribe 则是前者的一半,每分钟 0.003 美元。

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

与此同时,OpenAI 还发布了新的 gpt-4o-mini-tts 文本转语音模型。首次让开发者不仅能指定「说什么」,还能控制「如何说」。

具体而言,开发者可以预设多种语音风格,如「平静」、「冲浪者」、「专业的」、「中世纪骑士」等,它还能根据指令调整语音风格,如「像富有同情心的客服 Agent 一样说话」,定价亲民,仅为每分钟 0.015 美元。

安全不能马虎,OpenAI 表示,gpt-4o-mini-tts 将接受持续监控,以保证其输出与预设的合成风格保持一致。

这些技术进步的背后源于 OpenAI 的多项创新:

新音频模型建立在 GPT-4o 和 GPT-4o-mini 架构之上,采用真实音频数据集进行预训练

应用 self-play 方法创建的蒸馏数据集的知识蒸馏方法,实现从大模型到小模型的知识转移

在语音转文本技术中融入强化学习 ( RL ) ,显著提升转录精度并减少「幻觉」现象。

在凌晨的直播中,OpenAI 向我们展示了一款 AI 时尚顾问 Agent 的应用案例。

当用户询问「我最近的订单是什么?」时,系统流畅回应:用户于 2 月 9 日订购的 Patagonia 短裤已发货,并在后续提问中准确提供了订单号「A.D. 507」。

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

值得一提的是,OpenAI 演示人员还介绍了两种构建语音 Agent 技术路径,第一种「语音到语音模型」采用端到端的直接处理方式。

系统可直接接收用户语音输入并生成语音回复,无需中间转换步骤。这种方式处理速度更快,已在 ChatGPT 的高级语音模式和实时 API 服务中得到应用,非常适合对响应速度要求极高的场景。

第二种「链式方法」则是本次发布会的重点。

它将整个处理流程分解为三个独立环节:首先使用语音转文本模型将用户语音转为文字,然后由大型语言模型 ( LLM ) 处理这些文本内容并生成回应文本,最后通过文本转语音模型将回应转为自然语音输出。

这种方法的优势在于模块化设计,各组件可独立优化;处理结果更稳定,因为文本处理技术通常比直接音频处理更成熟;同时开发门槛更低,开发者可基于现有文本系统快速添加语音功能。

OpenAI 还为这些语音交互系统提供了多项增强功能:

支持语音流式处理,实现连续音频输入和输出

内置噪音消除功能,提升语音清晰度。

语义语音活动检测,能够识别用户何时完成发言

提供追踪 UI 工具,方便开发者调试语音代理

目前,这些全新音频模型已向全球开发者开放。

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

你还可以在 http://OpenAI.fm 上体验并制作 gpt-4o-mini-tts 的相关音频,这个演示网站可谓是功能齐全,左下角是官方的预设模板,主要包括人设、语气、方言、发音等设置。

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

我们也实测了一段八百标兵奔北坡的绕口令,emmm,中文效果马马虎虎。至于英文效果,听它念着诗歌,倒是挺有真人那味了,但无论是与此前走红的 Hume AI 亦或者 Sesame 相比,「肉耳可听」地还差点火候。

此外,OpenAI 推出了与 Agents SDK 的集成,进一步简化开发流程。

值得一提的是,OpenAI 还举办了一个广播比赛。用户可以在 http://OpenAI.fm 制作音频,接着使用 OpenAI.fm 上的「分享」按钮生成链接,然后在 X 平台分享该链接。

最具创意的前三名将各获一台限量版 Teenage Engineering OB-4。音频时长建议控制在 30 秒左右,可在语音、表达、发音或剧本语调变化上尽情发挥创意。

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

实际上,今年 AI 的风向也在悄然发生变化,除了依旧强调智商,还多出一股趋势,强调情感。

GPT-4.5、Grok 3 的卖点是情商,写作更有创意,回应更个性化,而冷冰冰的机器人(智元机器人),也强调更拟人,主打一个情绪价值。

由于直接触及人类最本能的沟通方式,语音领域在这方面的发力则更加显著。

最近在硅谷走红的 Sesame AI 能够实时感知用户情绪,并生成情感共鸣的回应,迅速俘获了一大批用户的心。图灵奖得主 Yann lecun 最近也在强调,未来的 AI 需要拥有情感。

而无论是 OpenAI 今天发布的全新语音模型、还是即将发布的 Meta Llama 4 都有意往原生语音对话靠拢,试图通过更自然的情感交互拉近与用户的距离,靠「人味」圈粉。

AI 需要有人味吗?长期以来。聊天机器人通常被定义为没有情感的工具,它们也会在对话中提醒你,它是一个没有灵魂的模型。然而,我们却往往能从中解读出情绪价值,甚至不自觉地与之建立情感联结。

或许人类天生渴望被理解、被陪伴,哪怕这种理解来自一台机器。

以上就是刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站的详细内容,更多请关注知识资源分享宝库其它相关文章!

版权声明

本站内容来源于互联网搬运,
仅限用于小范围内传播学习,请在下载后24小时内删除,
如果有侵权内容、不妥之处,请第一时间联系我们删除。敬请谅解!
E-mail:dpw1001@163.com

分享:

扫一扫在手机阅读、分享本文

发表评论
热门文章
  • BioWare埃德蒙顿工作室面临关闭危机,龙腾世纪制作总监辞职引关注(龙腾.总监.辞职.危机.面临.....)

    BioWare埃德蒙顿工作室面临关闭危机,龙腾世纪制作总监辞职引关注(龙腾.总监.辞职.危机.面临.....)
    知名变性人制作总监corrine busche离职bioware,引发业界震荡!外媒“smash jt”独家报道称,《龙腾世纪:影幢守护者》制作总监corrine busche已离开bioware,此举不仅引发了关于个人职业发展方向的讨论,更因其可能预示着bioware埃德蒙顿工作室即将关闭而备受关注。本文将深入分析busche离职的原因及其对bioware及游戏行业的影响。 Busche的告别信:挑战与感激并存 据“Smash JT”获得的内部邮件显示,Busche离职原...
  • 闪耀暖暖靡城永恒怎么样-闪耀暖暖靡城永恒套装介绍(闪耀.暖暖.套装.介绍.....)

    闪耀暖暖靡城永恒怎么样-闪耀暖暖靡城永恒套装介绍(闪耀.暖暖.套装.介绍.....)
    闪耀暖暖钻石竞技场第十七赛季“华梦泡影”即将开启!全新闪耀性感套装【靡城永恒】震撼来袭!想知道如何获得这套精美套装吗?快来看看吧! 【靡城永恒】套装设计理念抢先看: 设计灵感源于夜色中的孤星,象征着淡然、漠视一切的灰色瞳眸。设计师希望通过这套服装,展现出在虚幻与真实交织的夜幕下,一种独特的魅力。 服装细节考究,从面料的光泽、鞋跟声响到裙摆的弧度,都力求完美还原设计初衷。 【靡城永恒】套装设计亮点: 闪耀的绸缎与金丝交织,轻盈的羽毛增添华贵感。 这套服装仿佛是从无尽的黑...
  • python怎么调用其他文件函数

    python怎么调用其他文件函数
    在 python 中调用其他文件中的函数,有两种方式:1. 使用 import 语句导入模块,然后调用 [模块名].[函数名]();2. 使用 from ... import 语句从模块导入特定函数,然后调用 [函数名]()。 如何在 Python 中调用其他文件中的函数 在 Python 中,您可以通过以下两种方式调用其他文件中的函数: 1. 使用 import 语句 优点:简单且易于使用。 缺点:会将整个模块导入到当前作用域中,可能会导致命名空间混乱。 步骤:...
  • 蛋仔派对2025最新皮肤兑换码汇总 最新皮肤兑换码一览(兑换.皮肤.最新.派对.汇总.....)

    蛋仔派对2025最新皮肤兑换码汇总 最新皮肤兑换码一览(兑换.皮肤.最新.派对.汇总.....)
    蛋仔派对2025最新皮肤兑换码大放送!游戏内新增多款皮肤兑换码,包含最新、福利和通用三种类型,助你轻松获取精美奖励! 赶紧来看看如何兑换吧! 兑换码列表: 最新兑换码: ccewndj4k4k、cdkqdfm4fh、peetnmp4ef、cdxymk8f67 福利兑换码: cca863ywtfa、eggy2310am、eggy2311gz、eggyeggy9wz 通用兑换码: pec74dkcty、jsrqkrrjmh、cd3wt7wrph、ccepn7d8cjf...
  • 俄罗斯引擎yandex入口官网地址 yandex网址在线免费进入(俄罗斯.官网.在线免费.入口.地址......)

    俄罗斯引擎yandex入口官网地址 yandex网址在线免费进入(俄罗斯.官网.在线免费.入口.地址......)
    俄罗斯引擎yandex官网地址入口在哪里?这是不少网友都关注的问题,接下来由php小编为大家带来yandex网址在线免费进入,感兴趣的网友一起随小编来瞧瞧吧! 俄罗斯引擎yandex入口官网地址 1、俄罗斯引擎yandex入口官网地址☜☜☜☜☜点击进入 2、yandex网址在线免费进入☜☜☜☜☜点击进入 【俄罗斯引擎yandex】 1、Yandex的搜索引擎在俄罗斯拥有极高的市场份额,其算法针对俄语和斯拉夫语系进行了优化,能更好地理解用户意图,提供更精准的搜索结果。它不仅...