“聲音復(fù)刻”來了,克隆的聲音可以喚醒聲紋嗎?
“聲音復(fù)刻”又稱“聲音克隆”,是語音合成技術(shù)(TTS ,Text To Speech)的個性化應(yīng)用,用戶可通過少量的錄音進(jìn)行模型訓(xùn)練,得到與用戶本人在音色和發(fā)音風(fēng)格上非常相似的聲音模型,快速“復(fù)刻”個性化聲音,該“復(fù)刻”聲音可使用在講故事、播天氣、讀小說、導(dǎo)航播報等功能場景。
TTS(Text-To-Speech,語音合成)對比熟悉的ASR(語音識別)技術(shù),是將文字轉(zhuǎn)化為聲音“朗讀出來”,常見的Siri、小愛同學(xué)等語音助手的聲音,都是TTS技術(shù)的“杰作”。
近日,思必馳DUI開放平臺上線“聲音復(fù)刻”技術(shù)服務(wù),支持男聲、女聲、童聲的復(fù)刻,支持中、英文文本,支持UTF-8等多種文本格式,支持SSML標(biāo)簽控制。同時,該服務(wù)支持8k、16k、32k等多種采樣率,支持合成mp3、wav、pcm等多種音頻格式……
快速定制 專屬音色
如果想用愛豆或親人的聲音做終端設(shè)備的語音播報,用戶只需要錄制≤5分鐘語音內(nèi)容,等待10分鐘左右即可獲得“專屬音色”。
思必馳語音合成技術(shù)是如何通過少量的數(shù)據(jù),訓(xùn)練出一個高還原度的聲音模型呢?
思必馳TTS技術(shù),基于多年累積的多說話人的聲學(xué)特征,將新數(shù)據(jù)輸入既有的模型參數(shù)里進(jìn)行遷移學(xué)習(xí)和精調(diào),通過20句錄音等少量語料,就可訓(xùn)練出高相似度的聲音模型。模型通過短時間訓(xùn)練完成“克隆”,保持了較高的MOS值(中文普通話場景下,相似度≥90%),還原度高。TTS技術(shù)上線DUI開放平臺后,使用更便捷,提供API、SDK接入方式,滿足標(biāo)準(zhǔn)化的服務(wù)要求。
技術(shù)的升級是漸進(jìn)的,思必馳充分利用基于Attention的機(jī)制,及遷移學(xué)習(xí)技術(shù),提升了聲音復(fù)刻的效果,改善用戶體驗。受限于較少的數(shù)據(jù)量,如何保證穩(wěn)定輸出是訓(xùn)練模型時要面對的挑戰(zhàn)。但在未來,少樣本音色克隆仍是研究趨勢。
復(fù)刻的聲音 還安全嗎?
以智能語音技術(shù)的另一項黑科技——“聲紋識別”來作為參照。人的“聲紋”是類比指紋一樣獨一無二的存在,常被用作身份驗證和解鎖。常見的支付寶、微信的聲音鎖背后都是聲紋技術(shù)。
“克隆”的聲音可以 “瞞過”聲紋喚醒嗎?是否會有安全隱患?
常規(guī)聲紋解鎖,使用“復(fù)刻”的聲音確實能解鎖設(shè)備。但當(dāng)思必馳在聲紋技術(shù)中增加了反欺詐技術(shù)后,聲音復(fù)刻便無法闖關(guān)帶有防欺詐的聲紋,安全性得到保障。
“克隆”專屬聲音,不僅是新鮮感、娛樂性,更是AI技術(shù)拓展應(yīng)用惠及到了普通大眾,能克隆出媽媽聲音的音箱帶給了孩子更多陪伴。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費參會立即報名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
8月5日立即報名>> 【在線會議】CAE優(yōu)化設(shè)計:醫(yī)療器械設(shè)計的應(yīng)用案例與方案解析
推薦專題