本篇來自合作媒體 極客公園 ,INSIDE 經授權轉載。
隨著人工智慧技術的發展,機器隨著人工智慧技術的發展,機器翻譯已經取得了很大進步。然而在傳統方法中,需要數百萬字的逐句對照來教會機器如何翻譯。研究人員在 新論文 中表示,不需要平行文本(可以逐句對照閱讀的原文及其譯文),也可以讓其學會翻譯。
人類一直渴望溝通,早在 20 世紀 30 年代初,法國科學家 GB 阿爾楚尼提出了用機器進行翻譯的想法。經過幾十年的努力,人類終於逐漸學會用機器翻譯。這個過程經歷了很多階段:
起初是基於規則的翻譯。最簡單的翻譯方法是逐字翻譯。如將「我愛你」翻譯成「I love you」。隨著句子越來越複雜,語言學家們發現了越來越多的規則,可用程式實現。
下一個階段是用統計方法進行翻譯。專家把一句話分成很多塊,把每一塊所有可能的翻譯都找到,選擇機率最大的。最後將所有的句子生成,找到最有可能的。如「我愛你」,可能被翻譯成「I love you」、「I like you」,最終「I love you」最適合,被系統選擇。
建造這樣一個系統需要大量的數據用於訓練系統,我們需要平行文本,並至少被翻譯成兩種語言。但每當有一種新的語言,都需要專業人士進行調試和修整。
隨著科技進步,科學家發明了人工智慧神經網路技術來翻譯。以 Google 為例,他的翻譯系統非常強大,需要很多訓練數據和電腦資源才能實現,它使用了序列到序列技術(sequence to sequence)。這個技術的翻譯準確率已經超過了使用統計方法的機器翻譯系統。
然而,這些人工智慧系統通常需要大量的人工翻譯的內容供電腦學習,而現在有兩篇新的論文宣布,可以開發一個不依賴平行文本的系統。
來自西班牙巴斯克大學(UPV)的資訊科學家 Mikel Artetxe 表示,你給一個人很多的中文書籍和阿拉伯語書籍,二者沒有文字重合,在這種情況下,一個人學習將中文翻譯成阿拉伯文很難,但電腦可能不會。
他們用的是非監督學習方法。監督學習可以理解為數據有標籤,好比知道題目和答案,這意味著它會針對任何問題做出正確答案的嘗試,人類會告訴它是否正確,並根據需要修改。
在實際應用中,往往很難獲取到數據標籤,因此要選擇非監督學習。例如,不管在哪種語言中,「桌子」和「椅子」經常一起使用。系統透過找到每種語言中的這些關係,對其進行比較,就能理解哪些相關。
新論文中,提出的方法與此類似,還能翻譯完整的句子。
論文中使用了兩種策略:「反向翻譯」(Back Translation)和「去噪」(Denoising)。反向翻譯是把一種語言寫成的句子粗略翻譯成另一種語言,然後反向翻譯回來,如果結果不相同,則對系統進行調整。去噪也是類似的過程,但不是來回翻譯,而是向句子中添加單詞等「噪聲」。這些方法可以幫助機器更好地理解語言如何翻譯。
這兩個系統,一個是 UPV 開發的,另一個是 Facebook 資訊科學家 Guillaume Lample。那麼,如何評價者兩種系統呢?二者選擇比較英文和法文之間的雙向翻譯,其中包含了 3000 萬個句子,這是兩篇論文之間唯一能比較的結果。兩者用來衡量翻譯的準確性的評分均為 15 分,與 Google 翻譯的 40 分相比要低,人工翻譯則為 50 分。作者們均表示,這些系統能夠透過半監督學習的方式得到改進,即監督學習和非監督學習相結合。
此前,AlphaGo Zero 同樣也不需要人類的經驗,自行學會了棋譜。或許在未來,人工智慧可以在很多領域「無師自通」,也能成為擺脫人類思維定勢的很好方法。
from INSIDE 硬塞的網路趨勢觀察 http://ift.tt/2ATrHpe
沒有留言:
張貼留言