IT之家 4月11日消息,加州大學(xué)伯克利分校與舊金山分校的研究團(tuán)隊在腦機(jī)接口(BCI)領(lǐng)域取得突破,成功開發(fā)出一種技術(shù),幫助重度癱瘓患者恢復(fù)自然語音表達(dá)。該技術(shù)利用人工智能(AI)模型,將大腦信號實時轉(zhuǎn)化為可聽語音,解決傳統(tǒng)語音神經(jīng)假體延遲問題。
加州大學(xué)伯克利分校與舊金山分校的研究團(tuán)隊開發(fā)了一種創(chuàng)新方法,通過捕捉大腦運動皮層信號,利用AI算法實時解碼并生成語音。
研究共同負(fù)責(zé)人、伯克利分校電氣工程與計算機(jī)科學(xué)系助理教授 Gopala Anumanchipalli 表示,這種“直播”(streaming)方法借鑒了類似Alexa和Siri的語音解碼技術(shù),能顯著縮短從大腦意圖到語音輸出的時間。實驗中,患者Ann無需發(fā)聲,僅通過“默想”句子即可生成接近自然的語音。
新技術(shù)的核心在于解決傳統(tǒng)BCI語音解碼的延遲問題。以往技術(shù)單句解碼需約8秒,而新方法能在患者產(chǎn)生說話意圖后1秒內(nèi)輸出首個音節(jié)。
研究共同第一作者、伯克利分校博士生Kaylo Littlejohn介紹,團(tuán)隊通過AI預(yù)訓(xùn)練文本轉(zhuǎn)語音模型,模擬患者受傷前的聲音,讓輸出更具個性化。實驗還驗證了該技術(shù)對多種腦信號采集設(shè)備(如微電極陣列和面部肌電傳感器)的兼容性,顯示其廣泛適用性。
研究團(tuán)隊進(jìn)一步測試了算法的泛化能力。他們讓患者Ann嘗試“說出”26個未包含在訓(xùn)練數(shù)據(jù)中的單詞,如NATO音標(biāo)字母表中的“Alpha”、“Bravo”等。
結(jié)果顯示,模型仍能準(zhǔn)確解碼,證明其不僅依賴模式匹配,而是真正學(xué)習(xí)了語音的構(gòu)成規(guī)律。另一位共同第一作者、博士生Cheol Jun Cho表示,這種能力為未來提升語音表達(dá)的語氣、音調(diào)等特征奠定了基礎(chǔ)。
患者Ann反饋,相比2023 年的早期實驗,新方法讓她感到更強(qiáng)的控制感和自我表達(dá)能力。研究團(tuán)隊計劃繼續(xù)優(yōu)化算法,增強(qiáng)語音的自然度和情感表達(dá),同時探索如何將技術(shù)應(yīng)用于更廣泛的臨床場景。