首页 > 娱乐前沿 > 科技
Google更新云端语音转文字服务,听写电话的错误率减少54%
小艾 2018-04-10 15:58:26
图片来源:

GoogleRaf我酷网

继上个月发表云端文字转语音(Cloud△Text-to-Speech)服务之后,Google在周一(4/9)更新了云端语音转文字(Cloud△Speech-to-Text)服务,提供全新的视频及电话转录模型,也新增了自动化标点符号功能。相较于原本的电话模型,新的强化版电话转录模型(enhanced△phone_call△model)让语音分辨的错误率减少了54%。Raf我酷网

Google于2016年发表的Cloud△Speech-to-Text原名为Cloud△Speech△API,可分辨包括中文在内的逾120种语言,本周则是该服务建立以来最大规模的改版,它提供了4种订制化模式,包括命令与搜寻(command_and_search)、电话(phone_call)、视频(video)与预设(default),其中,电话模型适用于基于8khz取样率记录的电话内容,而预设模型则多用在音质较好、时间较长、取样率高于16khz以上的音频,使用者可依照不同的使用情境选择适用的模型,以顺利将语音转换成文字。(来源:Google)Raf我酷网

Raf我酷网

Google△Cloud△AI产品经理Dan△Aharon表示,有许多云端供应商利用客户的请求来改善相关服务,但基于资料及隐私保护的立场,Google并不打算采用这样的作法,取而代之的是推出业界首创的“选择加入计划”( opt-in△program),让客户主动提供资料供Google纪录与分析,而首个成品就是强化版电话转录模式,该计划成功地让Cloud△Speech-to-Text的电话转录服务减少了54%的错误。Raf我酷网

至于新的视频模式则可用来将视频中的语音转换成文字,或是转录同时有多人开讲的语音,该模式所使用的机器学习技术与YouTube自动化字幕背后的技术雷同,相较于原本的预设模式,视频模式的转录错误率也降低了64%。Raf我酷网

不管是强化版的语音模式或视频模式现在都只支援英文,预计很快就会扩张至其它语言。Raf我酷网

除了全新的语音及视频模式之外,新版的Cloud△Speech-to-Text还准备在将语音转成文字之后,自动加入标点符号,以让文字更容易阅读,目前该模式仍属于测试阶段,可提供逗点、句号或问号等标点符号的建议。Raf我酷网

除了视频模式每15秒的收费为0.012美元之外,其它模式的费用皆为每15秒0.006美元,为了推广全新的视频模式,截至今年5月31日可享用每15秒0.006美元的优惠价。Raf我酷网

上一篇  下一篇

I 相关 / Other

微软用语音分辨将讲课内容即时转成文字,让听力受损学生学习无障碍

图片来源: 微软 微软5日于官方的博客发表用AI技术协助失聪学生学习的成果Presentation△Translator,通过语音分辨技术,将课堂上教授的演讲内容转为文字,来帮助失聪的学生可以同步得到最完整且准确的资讯,并通过AI

每天60个死亡电话 [热事件]

清明期间,很多殡葬行业的职业开始在网上被媒体所报道,被大众所认知。殡葬热线接线员便是这样一个职业,从事殡葬热线接线员的康露,主要服务于殡葬业务办理和殡葬信息查询等功能,每天60个死亡电话是很正常的事情,

5G电话通话成功 [热事件]

前几个月新闻一直报道着5G网络,但是不确定什么时候上市,现在已经有消息传出了,据悉最快在后年正是推出上市使用。如今5G电话通话成功了,真的是一个天大喜讯,但是很多人都在问5G网络速度究竟会有多快呢?你知道吗

欧洲也将有云端法案!EFF近百团体要求应全程公民参与

图片来源: EFF 电子前锋基金会(Electronic△Frontier△Foundation,EFF)与其他93个公民团体递交公开信给欧盟秘书长Thorbj?rn△Jagland,要求网络犯罪公约的订定,应该全程都有公民参与,以免重蹈美国云端法案(Cla

AWS发表Secrets Manager以解决云端服务密码管理问题

图片来源: AWS Amazon△Web△Services(AWS)本周发表了AWS△Secrets△Manager△,让使用者可借由API或AWS命令列介面来管理存放于应用程序中的各种机密资讯,诸如密码、资料库存取凭证或API金钥等,可望解决云端时代

I 热点 / Hot