我們擅長(zhǎng)商業(yè)策略與用戶體驗(yàn)的完美結(jié)合。
歡迎瀏覽我們的案例。
10 月 25 日消息,據(jù)連線雜志報(bào)道,知名語(yǔ)音識(shí)別公司科大訊飛卷入的“AI 同傳造假”風(fēng)波依然還在發(fā)酵,引發(fā)了人們關(guān)于 AI 實(shí)時(shí)翻譯技術(shù)的更多關(guān)注。
不久前,谷歌悄悄改變了 Pixel Buds 耳機(jī)的支持頁(yè)面,并寫(xiě)道:“所有經(jīng)過(guò) Google Assistant 優(yōu)化的耳機(jī)和安卓手機(jī),現(xiàn)在都可以使用谷歌翻譯。”此前,這一功能僅限于 Pixel Buds 耳機(jī)和 Pixel 手機(jī)用戶。盡管谷歌并未大張旗鼓地宣布這個(gè)消息,但這個(gè)小小的調(diào)整卻值得注意。
要知道其中原因,首先我們來(lái)了解下谷歌耳機(jī)的歷史。谷歌去年推出了無(wú)線耳機(jī) Pixel Buds,此前該公司曾大肆宣傳過(guò)這款產(chǎn)品,稱其是一款革命性的工具,支持實(shí)時(shí)翻譯功能。只要輕敲 Pixel Buds,說(shuō)“幫我說(shuō)”,它就會(huì)打開(kāi)你手機(jī)上的谷歌翻譯應(yīng)用?,F(xiàn)在,Pixel 手機(jī)也同樣支持這個(gè)功能。
接著,你可以說(shuō)出句子,谷歌翻譯會(huì)在手機(jī)上將其翻譯成目標(biāo)語(yǔ)言,并進(jìn)行轉(zhuǎn)錄,然后讀出來(lái)。理論上,谷歌的新技術(shù)甚至?xí)尶谧g翻譯們擔(dān)心丟掉工作。這款產(chǎn)品在舞臺(tái)上的實(shí)時(shí)翻譯演示獲得了巨大成功,但當(dāng)其開(kāi)始發(fā)貨時(shí),人們對(duì)其似乎產(chǎn)生了懷疑:翻譯的質(zhì)量沒(méi)有達(dá)到公眾的預(yù)期。
Tech Insider 用十種不同的語(yǔ)言對(duì)實(shí)時(shí)翻譯功能進(jìn)行了測(cè)試。它成功地翻譯了些基本問(wèn)題,比如“最近的醫(yī)院在哪里”,但當(dāng)句子變得更復(fù)雜,或者說(shuō)話人有口音時(shí),翻譯就會(huì)出現(xiàn)錯(cuò)誤。評(píng)論員們得出的結(jié)論是,實(shí)時(shí)翻譯似乎有點(diǎn)兒“欺騙嫌疑”,Google Assistant 需要努力理解對(duì)它說(shuō)出的話。
消費(fèi)技術(shù)資深分析師丹尼爾·格里森(Daniel Gleeson)說(shuō):“掌握自然語(yǔ)言是非常困難的。對(duì)于谷歌來(lái)說(shuō),這將是個(gè)巨大的成就,而他們實(shí)現(xiàn)這個(gè)目標(biāo)的那一天,可以自豪地大聲說(shuō)出來(lái)。”或許有些人可能會(huì)說(shuō),這可能也是 Pixel Buds 支持頁(yè)面更新的信息被隱藏起來(lái)的原因。
谷歌的問(wèn)題不在于翻譯過(guò)程本身,事實(shí)上,該公司在過(guò)去幾年始終在提升其翻譯應(yīng)用水平。2016 年,谷歌將其谷歌翻譯轉(zhuǎn)換為基于深度學(xué)習(xí)的人工智能(AI)驅(qū)動(dòng)系統(tǒng)。在此之前,該工具將每個(gè)單獨(dú)的單詞分別翻譯,并應(yīng)用語(yǔ)言學(xué)規(guī)則使句子在語(yǔ)法上保持正確,從而導(dǎo)致了我們非常熟悉的、支離破碎的翻譯效果。另一方面,神經(jīng)網(wǎng)絡(luò)則將句子作為一個(gè)整體來(lái)考慮,并根據(jù)之前訓(xùn)練過(guò)的大量文本數(shù)據(jù)來(lái)猜測(cè)正確的輸出結(jié)果。通過(guò)機(jī)器學(xué)習(xí),這些系統(tǒng)能夠考慮句子的上下文,從而提供更準(zhǔn)確的翻譯。
整合機(jī)器學(xué)習(xí)是 Google Brain 團(tuán)隊(duì)的任務(wù),該團(tuán)隊(duì)是谷歌專門(mén)致力于深度學(xué)習(xí)研發(fā)的部門(mén)。Google Brain 還將神經(jīng)網(wǎng)絡(luò)應(yīng)用到另一個(gè)工具上,這是實(shí)時(shí)翻譯的關(guān)鍵,但這似乎也導(dǎo)致其容易在語(yǔ)音識(shí)別上犯錯(cuò)。實(shí)際上,Google Assistant 經(jīng)過(guò)了數(shù)小時(shí)的語(yǔ)音培訓(xùn),它會(huì)使用機(jī)器學(xué)習(xí)工具來(lái)識(shí)別模式,并最終正確地識(shí)別出被要求翻譯的內(nèi)容。
那么,如果谷歌在某種程度上成功地將神經(jīng)網(wǎng)絡(luò)應(yīng)用到文本-文本的翻譯中,為什么 Google Assistant 仍然不能使用相同的技術(shù)精準(zhǔn)地進(jìn)行語(yǔ)音識(shí)別呢?劍橋大學(xué)自然語(yǔ)言處理研究人員馬西基·霍瓦特(Matic Horvat)說(shuō),這一切都?xì)w結(jié)于用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)集。
霍瓦特說(shuō):“系統(tǒng)能夠適應(yīng)它們所得到的訓(xùn)練數(shù)據(jù)集。當(dāng)你把它介紹給它從未聽(tīng)過(guò)的東西時(shí),語(yǔ)音識(shí)別的質(zhì)量就會(huì)下降。例如,如果你的訓(xùn)練數(shù)據(jù)集是會(huì)話語(yǔ)音,那么在繁忙的環(huán)境中識(shí)別語(yǔ)音效果就不會(huì)太好。”
干擾是任何致力于提高語(yǔ)音識(shí)別技術(shù)的計(jì)算機(jī)科學(xué)家的克星。去年,谷歌通過(guò)其數(shù)字新聞創(chuàng)新基金會(huì)向倫敦初創(chuàng)企業(yè) Trint 投資 1.5 億歐元,該公司在自動(dòng)語(yǔ)音轉(zhuǎn)錄方面處于領(lǐng)先地位,盡管其算法與谷歌不同。然而,Trint 的算法在處理基本的干擾問(wèn)題上并沒(méi)有表現(xiàn)得更好。
事實(shí)上,Trint 的公司網(wǎng)站專門(mén)用了長(zhǎng)長(zhǎng)的篇幅來(lái)介紹如何在安靜環(huán)境中記錄演講內(nèi)容。該公司聲稱,其操作存在5% 至 10% 的誤差,但它明確表示,這適用于安靜環(huán)境的錄音。Trint 首席執(zhí)行官杰夫·科夫曼(Jeff Kofman)說(shuō):“最大的挑戰(zhàn)是向我們的用戶解釋,我們的表現(xiàn)只能和他們給我們的音頻一樣好。在有回聲、噪音甚至重音的情況下,算法就會(huì)出錯(cuò)。”
現(xiàn)場(chǎng)演講所帶來(lái)的挑戰(zhàn)意味著,在創(chuàng)建神經(jīng)網(wǎng)絡(luò)的過(guò)程中,訓(xùn)練過(guò)程是成本最高、耗時(shí)最長(zhǎng)的部分。而像谷歌對(duì) Pixel Buds 所做的那樣,只在有限數(shù)量的設(shè)備上支持實(shí)時(shí)翻譯,當(dāng)然無(wú)助于系統(tǒng)學(xué)習(xí)。實(shí)際上,它處理的語(yǔ)音越多,它可以向算法中添加的數(shù)據(jù)就越多,機(jī)器就越能學(xué)會(huì)識(shí)別不熟悉的語(yǔ)音模式。
對(duì)于消費(fèi)技術(shù)資深分析師格里森來(lái)說(shuō),這是谷歌將該功能擴(kuò)展到更多硬件的原因之一。他表示:“語(yǔ)音識(shí)別中最棘手的問(wèn)題之一,就是收集足夠的特定口音、俗語(yǔ)、習(xí)語(yǔ)數(shù)據(jù),所有這些都是高度區(qū)域化的。將這個(gè)功能僅用于 Pixel 上,永遠(yuǎn)不會(huì)讓谷歌接觸到那些區(qū)域化數(shù)據(jù),進(jìn)而也無(wú)法處理足夠多的數(shù)據(jù)。”
然而,積累數(shù)據(jù)也有不利的一面。表現(xiàn)最好的神經(jīng)網(wǎng)絡(luò)是那些擁有最多數(shù)據(jù)的網(wǎng)絡(luò),但由于數(shù)據(jù)需要在 CPU 上處理,CPU 的壓力也會(huì)隨著信息量的增多而增加。這類 CPU 還遠(yuǎn)未達(dá)到與移動(dòng)設(shè)備完美集成的程度,使得實(shí)時(shí)語(yǔ)音處理在今天依然無(wú)法成為現(xiàn)實(shí)。實(shí)際上,每次使用 Google Assistant 時(shí),語(yǔ)音信息都會(huì)被發(fā)送到數(shù)據(jù)中心進(jìn)行外部處理,然后再發(fā)送回用戶的手機(jī)上。這些計(jì)算工作都不是在本地完成的,因?yàn)楝F(xiàn)有的手機(jī)無(wú)法存儲(chǔ)神經(jīng)網(wǎng)絡(luò)處理語(yǔ)音所需的龐大數(shù)據(jù)。
霍瓦特說(shuō),雖然 Google Assistant 能夠相當(dāng)快地完成這一過(guò)程,但距離實(shí)時(shí)語(yǔ)音識(shí)別還有很長(zhǎng)的路要走。該公司目前面臨的挑戰(zhàn)之一是,如何在手機(jī)中整合神經(jīng)網(wǎng)絡(luò)處理,以提高實(shí)時(shí)翻譯等功能的無(wú)縫性。事實(shí)上,開(kāi)發(fā)人員已經(jīng)在致力于開(kāi)發(fā)適合于高效處理神經(jīng)網(wǎng)絡(luò)的小型外部芯片,這種芯片可以集成到手機(jī)中。例如,本月早些時(shí)候,華為宣布了一種 AI 芯片,該公司聲稱其可以在幾分鐘內(nèi)訓(xùn)練好神經(jīng)網(wǎng)絡(luò)算法。
雖然谷歌有自己的芯片 Edge TPU,但它是為企業(yè)用戶而不是智能手機(jī)設(shè)計(jì)的。對(duì)霍瓦特來(lái)說(shuō),這是它的致命弱點(diǎn):作為一家軟件公司,谷歌對(duì)制造商沒(méi)有多少控制權(quán),無(wú)法確保開(kāi)發(fā)出一種產(chǎn)品,使所有安卓設(shè)備都能使用本地神經(jīng)網(wǎng)絡(luò)處理,與蘋(píng)果截然不同。
在不久的將來(lái),谷歌可能被迫采取更小的步驟來(lái)改進(jìn)其語(yǔ)音識(shí)別技術(shù)。雖然實(shí)時(shí)翻譯引來(lái)了許多批評(píng),但對(duì)于行業(yè)分析師、Counterpoint 物聯(lián)網(wǎng)、移動(dòng)和生態(tài)系統(tǒng)研究主管尼爾·沙赫(Neil Shah)來(lái)說(shuō),擴(kuò)展它有益于谷歌參與競(jìng)爭(zhēng):“谷歌已經(jīng)獲得 20 億安卓用戶。隨著越來(lái)越多的用戶開(kāi)始在安卓手機(jī)上使用最新的語(yǔ)音交互,它能夠比競(jìng)爭(zhēng)對(duì)手更快地?cái)U(kuò)大規(guī)模,并接受大量輸入數(shù)據(jù)流的訓(xùn)練。”
格里森所也贊同這種看法。無(wú)論對(duì)實(shí)時(shí)翻譯的評(píng)論是否堅(jiān)持溫和嘲諷的基調(diào),谷歌的舉動(dòng)最終都會(huì)帶來(lái)顯著的改進(jìn)。就像所有的 AI 產(chǎn)品一樣,這個(gè)工具同樣需要學(xué)習(xí),它進(jìn)入市場(chǎng)的過(guò)程還沒(méi)有完成。格里森表示:“人們可能會(huì)說(shuō),谷歌的實(shí)時(shí)翻譯運(yùn)作方式與承諾的不一樣,但這是其實(shí)現(xiàn)目標(biāo)的唯一途徑。”口譯翻譯現(xiàn)在不必?fù)?dān)心他們會(huì)立馬丟掉工作。
?。?a href="http://m.jinteng090.cn">邯鄲網(wǎng)絡(luò)公司)
小米應(yīng)用商店發(fā)布消息稱 持續(xù)開(kāi)展“APP 侵害用戶權(quán)益治理”系列行動(dòng) 11:37:04
騰訊云與CSIG成立政企業(yè)務(wù)線 加速數(shù)字技術(shù)在實(shí)體經(jīng)濟(jì)中的落地和應(yīng)用 11:34:49
樂(lè)視回應(yīng)還有400多人 期待新的朋友加入 11:29:25
亞馬遜表示 公司正在將其智能購(gòu)物車擴(kuò)展到馬薩諸塞州的一家全食店 10:18:04
三星在元宇宙平臺(tái)推出游戲 玩家可收集原材料制作三星產(chǎn)品 09:57:29
特斯拉加州San Mateo裁減229名員工 永久關(guān)閉該地區(qū)分公司 09:53:13