近日,阿里巴巴達(dá)摩院開源了自主研發(fā)的新一代語音識(shí)別模型DFSMN,讓全球語音識(shí)別準(zhǔn)確率記錄提升至96.04%。“機(jī)器聽懂人話”這個(gè)目標(biāo),似乎已經(jīng)基本實(shí)現(xiàn),但在AI認(rèn)知方面還未實(shí)現(xiàn)突破性飛躍。
文字翻譯與語音識(shí)別,可能是AI與人類實(shí)現(xiàn)認(rèn)知互動(dòng)最直接的手段。這兩方面技術(shù)目前應(yīng)用現(xiàn)狀如何?未來提高方向又有哪些?
文字翻譯:評(píng)測(cè)、算法、用戶一個(gè)都不能少
“AI翻譯中最普遍的傳統(tǒng)算法是通過大量雙語語料建立統(tǒng)計(jì)模型。”在近日舉辦的阿里巴巴達(dá)摩院技術(shù)創(chuàng)新分享日上,阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室研究員葛妮瑜向記者解釋,“比如‘中國(guó)’一詞,英文譯文經(jīng)??吹?lsquo;China’,機(jī)器就大概可判斷出‘中國(guó)’可能就是‘China’。之所以說‘可能’,是因?yàn)闄C(jī)器不可能達(dá)到100%的肯定性——于是,錯(cuò)誤的翻譯來了。”
而另一種近年比較熱門的算法是神經(jīng)網(wǎng)絡(luò)翻譯。“它的翻譯方法是看整句而非單字,讀起來很順,但仍有缺點(diǎn)。”葛妮瑜表示,這種方法的最大缺點(diǎn)是其運(yùn)用的是數(shù)字化模型,一旦翻譯錯(cuò)了,人卻很難知道它為什么錯(cuò),很難進(jìn)行人工干預(yù)改正。
既然傳統(tǒng)算法與神經(jīng)網(wǎng)絡(luò)翻譯各有缺點(diǎn),那現(xiàn)階段有何方法能彌補(bǔ)它們的不足?
葛妮瑜認(rèn)為,通過不斷新增用戶實(shí)際使用數(shù)據(jù)來更新AI翻譯模型,并將傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯、規(guī)則翻譯與較新的神經(jīng)網(wǎng)絡(luò)翻譯融合,針對(duì)不同場(chǎng)景取長(zhǎng)補(bǔ)短,是不錯(cuò)的選擇。“比如數(shù)字相對(duì)固定,可用規(guī)則的翻譯方法。如果是比較長(zhǎng)的、靈活的語言,如描述性的用戶評(píng)論,可采用神經(jīng)翻譯系統(tǒng)。數(shù)據(jù)的產(chǎn)生都是自動(dòng)的,不需要人工參與。在保護(hù)用戶隱私的前提下,這些用戶數(shù)據(jù)可以推動(dòng)模型的更新與迭代,起到查漏補(bǔ)缺的作用。”葛妮瑜說。
在今年6月舉辦的WMT2018國(guó)際機(jī)器翻譯大賽上,阿里巴巴達(dá)摩院機(jī)器智能-NLP翻譯團(tuán)隊(duì)在全部5項(xiàng)比賽中獲得冠軍。“每一種語言,我們都會(huì)根據(jù)它的語言現(xiàn)象來定制機(jī)器翻譯的模型。遇到不同的翻譯需求,我們先做需求分類。如果翻譯的是標(biāo)題、關(guān)鍵詞,我們就用統(tǒng)計(jì)模型。如果翻譯中有很多數(shù)字、日期、地址,以及專有名詞,就用規(guī)則翻譯模型。”葛妮瑜說。
怎么知道翻譯得好不好?在沒有人工翻譯文本的前提下,如何判斷機(jī)器翻譯的質(zhì)量?AI機(jī)器翻譯有一個(gè)很重要的挑戰(zhàn)——評(píng)測(cè)。傳統(tǒng)的方式是將人工翻譯和AI翻譯的文本進(jìn)行比較,這需要大量真人翻譯的參與,成本很高。葛妮瑜認(rèn)為,未來AI翻譯技術(shù)若想得到良性循環(huán),機(jī)器評(píng)測(cè)手段亟待持續(xù)跟進(jìn)。
語音識(shí)別:復(fù)雜環(huán)境試驗(yàn)不可或缺
“語音識(shí)別的研發(fā)是和美國(guó)登月計(jì)劃同時(shí)啟動(dòng)的。登月計(jì)劃早已成功,而語音識(shí)別的一些技術(shù)難題卻沒有完全解決。”談到語音識(shí)別,阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室高級(jí)算法專家雷鳴調(diào)侃道。
智能語音交互,是基于語音識(shí)別、語音合成、自然語言理解等技術(shù),在多種實(shí)際應(yīng)用場(chǎng)景下,賦予產(chǎn)品“能聽、會(huì)說、懂你”式的智能人機(jī)交互體驗(yàn)。
“能聽、會(huì)說、懂你”有何深意?用戶說了一句話,機(jī)器首先把話識(shí)別出來。之后轉(zhuǎn)化成文字,然后對(duì)文字進(jìn)行語義理解,星空人工智能可以理解你的語言所表達(dá)的意思,及其背后的意圖。理解之后,它再形成文字反饋,輸入到語音合成模塊,把文字轉(zhuǎn)化成語音播報(bào)出來,反饋給用戶。這樣就形成了完整交互的路徑。
“物聯(lián)網(wǎng)時(shí)代,智能人機(jī)交互體驗(yàn)?zāi)芊竦玫酱笠?guī)模應(yīng)用,取決于公共空間及特定人群的識(shí)別與多模態(tài)的技術(shù)方案。”雷鳴解釋,通過人臉識(shí)別及語音定位技術(shù),未來的某款A(yù)I語音識(shí)別器將能實(shí)時(shí)檢測(cè)出人的口形,并通過人與設(shè)備間的距離、高度來建模,再通過麥克風(fēng)陣列把聲音收集進(jìn)來,從而增加語音交互系統(tǒng)準(zhǔn)確度。
如果智能語音交互最終實(shí)現(xiàn),那么支持自由對(duì)話交互過程的下一代對(duì)話引擎也將不會(huì)太遠(yuǎn)。“比如我點(diǎn)咖啡,三杯咖啡改成兩杯,把咖啡換成巧克力之類的復(fù)雜意圖;在交互過程中對(duì)話相關(guān)的上下文,都將被機(jī)器所理解。”雷鳴這樣憧憬,“最早實(shí)驗(yàn)室的簡(jiǎn)單任務(wù)都是單個(gè)場(chǎng)景,但如果想要早日達(dá)到智能語音交互,更多復(fù)雜環(huán)境場(chǎng)景混合的實(shí)驗(yàn)或許必不可少。”
星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請(qǐng)30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時(shí)溝通與處理。?。?a href="/">首頁 > 新聞 » 登月早已實(shí)現(xiàn),同期啟動(dòng)的語音識(shí)別還在路上