
近日,大象聲科共同創(chuàng)辦人&CEO張學(xué)良博士發(fā)表了題為《從聽清到聽懂,AI智能語音信號處理的革命》的主題演講,深入闡釋了智能語音前端處理技術(shù)在AI眼鏡新一代人機(jī)交互設(shè)備中的關(guān)鍵作用,并重點介紹了大象聲科專為AI眼鏡語音通話和語音交互場景推出的智能語音方案。
張學(xué)良博士指出,隨著AI眼鏡逐漸成為下一代人機(jī)交互的新入口,語音交互正成為繼鼠標(biāo)、觸屏之后更自然、更便捷的交互方式。然而,當(dāng)前語音交互仍面臨“戶外不敢說,嘈雜環(huán)境沒法用”的痛點。作為語音交互鏈條的第一環(huán),前端語音信號處理的質(zhì)量,直接決定了后端語音識別的準(zhǔn)確率、用戶體驗的流暢度以及設(shè)備的智能化水平。

作為全球首家將深度學(xué)習(xí)用于語音信號處理并落地端側(cè)的AI公司,大象聲科推出了專為AI眼鏡通話場景和語音交互場景打造的智能語音解決方案,該方案基于端到端的深度神經(jīng)網(wǎng)絡(luò)模型,集合了大象聲科全自研的包括AI降噪、人聲分離、深度AEC、波束形成等AI語音信號處理算法,定向清晰拾音,精準(zhǔn)語音喚醒,為AI眼鏡打造更清晰的語音通信和更高效的語音交互體驗。
佩戴者音區(qū):只拾你音
AI眼鏡智能語音方案的佩戴者音區(qū)功能,可確保AI眼鏡在復(fù)雜環(huán)境中僅拾取佩戴者語音,不僅在通話中隔絕周圍其他人說話聲和環(huán)境噪音干擾,讓通話對方聽得更清,同時還能避免其他人誤喚醒眼鏡,提升語音識別的準(zhǔn)確率。
高精度指向拾音:“指哪聽哪”
拾音角度支持定制,可做到±5度范圍內(nèi)精準(zhǔn)拾音,結(jié)合人聲分離,可單獨輸出近場佩戴者自己和遠(yuǎn)場對話人兩路獨立語音信號,分別給到后端ASR進(jìn)行識別,適用于翻譯、會議等場景。
語音喚醒:強(qiáng)抗噪、低功耗
支持定制化喚醒詞與免喚醒詞指令,強(qiáng)噪音或者風(fēng)噪環(huán)境下也能輕松喚醒;支持高通AR1 LPI模式(低功耗喚醒)以及采用二級喚醒模式,兼顧性能和功耗。
此外,該方案還支持沉浸式錄音功能,可實現(xiàn)360°高清音頻錄制,抗風(fēng)噪能力突出,騎行等戶外運動場景下也能保障清晰錄制。

目前,大象聲科的語音前端處理技術(shù)已賦能超過1億臺智能終端,涵蓋手機(jī)、耳機(jī)、PC、車載等多個領(lǐng)域。在AI眼鏡這一新興賽道中,大象聲科正通過標(biāo)品化、高性能的算法方案,助力客戶快速實現(xiàn)產(chǎn)品化落地,推動行業(yè)走向更智能、更自然的多模態(tài)交互體驗。(來源:大象聲科ELEVOC)
|