2012年,全球最大語音技術廠商Nuance曾占據62%的全球語音市場。隨后,開源語音工具導致語音產業的技術門檻降低,場景為王時代到來,錯失機遇的Nuance在智能語音市場步步失守,2015年市場份額已下降到31.6%,被谷歌、蘋果、微軟、科大訊飛等企業迅速瓜分。
智能語音2.0時代,場景的重要性不言而喻。誰能賦予聲音更多的表現力和個性化,誰就能將技術適配到非標準化的廣闊場景中,贏得智能語音市場的未來。科技巨頭看到這一趨勢,紛紛祭出語音合成“定制化”的大旗。語音合成技術正式進入定制化的2.0時代。
語音合成定制化哪家強
微軟是智能語音行業的領先企業之一。今年5月份的Build 2018 大會上,其在公有云平臺上推出了語音合成定制服務產品Custom Voice。將語音和對應文本(500句)上傳,Custom Voice即可對聲音進行模擬,并在線測試模擬效果。Custom Voice采用全程可視化操作界面,普通用戶可快速上手,顯示出微軟打造定制化、平民化產品的用意。

微軟推出的語音合成定制服務Custom Voice 來源:微軟Custom Voice頁面
無獨有偶,近期谷歌人工智能實驗室成立的 Lyrebird(琴鳥)公司,也推出了自己的定制語音合成系統。同微軟的Custom Voice類似,30句英文聲音錄入后,系統就能在“傾聽”中“掌握”每個人說話時字母、音位和單詞的發音特點,通過推理并模仿聲音中的情感、語調,“說”出全新語句。目前Lyrebird還存在一些缺陷,如合成語音夾雜電流聲,中文語句的錄入與合成表現都不理想等。

谷歌lyrebird(琴鳥)語音合成系統頁面 來源:谷歌琴鳥系統頁面
在國內,唯一能與微軟、谷歌同臺競技的就是科大訊飛。去年2017年11月,科大訊飛推出名為“訊飛留聲”的測試版本,比微軟的Custom Voice還要早半年時間。經過不斷優化,訊飛留聲制作完整音庫只需10句話聲音錄入,遠低于微軟采集的500句,亦低于谷歌的30句,采集量只有行業平均的百分之一,合成效果更好。

訊飛留聲PK谷歌的同類產品
“訊飛留聲”還以微信小程序(微信搜索“訊飛留聲Lite”小程序)的形式呈現,可以實現“即用即走”。不僅聲音制作過程更加便捷,用戶還能在微信這款中國最大的社交軟件上分享制作效果,吸引了大批用戶的關注。阿拉丁統計數據顯示,小程序上線1個月(截至2018年8月8日),訊飛留聲訪問次數超過51萬 ,新用戶增長率達到568%,位居阿拉丁“成長最快小程序”周榜第13名。
技術實力成比拼關鍵
科大訊飛語音合成定制業務的快速發展,離不開其雄厚的技術實力支持。2000年之前,中文語音產業由國際IT巨頭控制,如微軟、IBM等。如今,科大訊飛已徹底扭轉中文語音市場幾乎全部掌握在國外公司手中的格局,成為亞太地區最大語音和人工智能上市公司。
科大訊飛不僅中文語音合成效果出色,在國際英文語音合成大賽上也是屢屢得冠。2006年,科大訊飛首次參加國際英文語音合成大賽(Blizzard Challenge),即獲得自然度第一的優異成績,至2018年已連續13年蟬聯該項賽事冠軍,成為該項賽事中唯一一家自然度超過4分(普通人說話水平)的參賽方。

在2018國際語音合成大賽的比賽中,科大訊飛摘得10個測評打分項目中的9項第一,成為“最全能的冠軍”
語音合成可以用指定情感表達,但一段文本應該表現出怎樣的情感變化,涉及到語義理解和上下文分析。科大訊飛除智能語音技術全球領先外,在自然語言理解上同樣屬業界翹楚。隨著語義和語音的融合交叉發展,科大訊飛或將率先解決語音合成情感表達難題,將語音合成技術發展推向新的階段。
領先的核心技術、豐富的反饋數據以及廣闊的應用場景,三者共同搭建起語音合成的行業壁壘。科大訊飛在語音合成技術上擁有絕對優勢,在商業落地層面同樣表現突出,打造出導航類APP中大量明星播報音庫、央視虛擬主持人解決方案等經典案例。訊飛留聲的推出,更是開創了為普通用戶免費提供定制化服務的先河。先發優勢及強技術后盾加持下,科大訊飛為語音合成定制化的商業落地,落下了關鍵一子。
特別提醒:本網內容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。
站長資訊網