9/20/2018 9:36:00 AM
華為陳圣權:數據是機器翻譯發展的重要因素
在《圣經》中,人類聯合起來興建希望能通往天堂的高塔;為了阻止人類的計劃,上帝讓人類說不同的語言,使人類相互之間不能溝通,巴別塔計劃因此而終結,而巴別塔也成為語言障礙的一個代名詞。
而借助實現高效率、高質量的機器翻譯,我們卻有可能打破語言障礙,實現跨越語言的無障礙交流。
近日,ChinaIT.com獨家專訪了中國翻譯協會副會長、華為翻譯中心前主任陳圣權,他對于機器翻譯行業的發展、應用前景等方面提出了許多獨到的見解。
人工智能技術推動機器翻譯快速發展
作為計算語言學的一個分支,機器翻譯的發展依賴于人工智能技術的演進,特別是神經網絡等技術的出現,讓機器翻譯技術得到了突飛猛進的提升。
陳圣權認為,機器翻譯的進步首先體現在效率方面,依托于強大的運算能力,機器翻譯速度遠超過人工翻譯,可以做到“立等可取”;
其次,機器翻譯越來越沒有“翻譯腔”了,滿足了基本的可讀性和可用性的需求,讓人類可以擺脫簡單、機械的翻譯工作,投入到真正有創造性的翻譯工作上。
“跨國公司的內部交流、專業說明書翻譯、代碼注釋等場景是機器翻譯在企業內部常見的幾個應用場景,其不僅在速度上遠遠超過了人工翻譯,而且準確率也達到了很高的水平。
以華為為例,機器翻譯目前已經幫助華為大大加快了翻譯的交付速度,節約了30%的人力資源成本,還挖掘了不少翻譯需求。
目前,注冊華為機器翻譯系統的用戶達到9萬多人,每天翻譯的交付量達到5000萬-1億字符數。”陳圣權表示。
“作為人工智能的典型應用場景之一,機器翻譯現在已經相對較為成熟,在特定場景下,機器翻譯甚至能夠比人工翻譯的效果更好,”陳圣權表示,“隨著人工智能技術的進步,機器翻譯將會應用在更多場景中”。
數據成為機器翻譯的核心要素之一
機器翻譯技術與應用近年之所以得到了突飛猛進的進展,與人工智能的廣泛應用是分不開的,正是因為人工智能技術的發展,使得機器可以擺脫傳統的翻譯模式,從而“讀懂”不同的語言。
“與人工智能發展的要素相似,目前機器翻譯發展的要素也可以歸結為以下幾點:強大的計算能力、先進的算法模型、以及豐富的數據?!?/span>
其中,陳圣權特別提到了數據的重要性,他認為,在現階段的機器翻譯應用實踐中,計算能力并不是顯著的瓶頸,而且開源社區也提供了大量先進、且仍在不斷進化的機器翻譯算法模型,這讓機器翻譯的技術門檻大幅降低。
相比較之下,數據的重要性更加凸顯,數據量的大小和精準程度往往決定了機器翻譯引擎的效果,谷歌在機器翻譯領域下過一個論斷:數據集規模每翻一倍,它自動評價的指標就能夠提升0.5個百分點。
特別是在行業化場景的機器翻譯需求中,數據的掣肘就顯得明顯。面向公眾的機器翻譯系統尚可以依賴互聯網上的公開數據,滿足部分日常場景的翻譯需求,但是一旦涉及到專業領域或是企業內部的翻譯需求,這些數據就遠遠不夠了。
“由于數據保護、個人隱私、合規性等方面的考慮,很少有企業會向機器翻譯應用開放自己的數據,這一問題在很長時間內都將難以得到解決,如果得不到這些數據的支撐,機器翻譯的質量將會受到很大影響。
華為的機器翻譯實踐也表明,在內部文檔翻譯方面,自有平臺在翻譯質量方面顯著超過谷歌等機器翻譯平臺”,陳圣權表示,“因此,在行業應用方面,由通用型的機器翻譯平臺+企業自有訓練數據+定制化能力組成的機器翻譯解決方案,將會成為現階段企業擁抱機器翻譯的優先選擇。”
機器翻譯的未來可期
雖然機器翻譯的應用目前仍局限于特定場景中,但是機器翻譯的發展速度讓我們對于未來抱有非常樂觀的態度。
特別是在神經網絡取代統計學派成為翻譯領域的主流研究方法之后,機器翻譯的單詞錯誤率、詞匯錯誤和語法錯誤率都大幅降低,超過了過去幾十年所取得的成績。
可以預見,隨著神經網絡等技術的繼續提升,機器翻譯的準確率還將進一步提升。
就像陳圣權所說,“除了文學、藝術等比較優美,需要發揮人類創造力、融合人類情感的翻譯需求之外,機器翻譯將進一步替代人類翻譯,滿足不同語言的溝通需求?!?/span>
——選自:樂文翻譯
樂文翻譯目前是國內專業的翻譯機構之一,公司秉承“誠信 專業”的服務理念,為國內外客戶提供一流服務。了解更多信息:請發郵箱:abc@lewene.com或直接致電:400-895-6679咨詢。