9/14/2018 1:45:00 PM
機器翻譯質量的評估體系
運行基于人員的質量得分是一項重大任務,即使只有一家NMT供應商也是如此。它需要多達4000名審閱者處理數千個項目。
這個過程與每個NMT供應商都有關,他們想知道他們系統的真實價值,并獲得真實的人類對其翻譯產生的反饋。
當然,主要的挑戰在于發現,測試,篩選,培訓和監控數千名來自不同國家和語言的評論員 - 在他們同時處理數萬個項目的同時監控他們的工作。
更好的行業級質量得分
考慮更大的好處,真正需要的是行業使用的標準化NMT質量分數,使用相同的基準,字符串和評審員測量所有各種系統,以便比較類似的性能。由于NMT系統的性能在不同類型的材料和語言之間可能會有很大差異,所以使用同一組語言學家和相同的源材料進行真正的基于人的比較是產生真實比較結果的唯一方法。對于單個NMT供應商或用戶,以及最終用戶或LSP試圖決定使用哪個引擎,這樣的分數都是有用的。
在行業相關的層面上進行相同的測試是一項更大的任務。使用10個NMT引擎,10種類型的材料,10個語言對和40個審閱者,項目參數可概括如下:
假設評估前10個語言對,即EN> ES,FR,DE,PT-BR,AR,RU,CN,JP,IT和KR;
10種類型的材料 - 一般,法律,市場營銷,金融,游戲,軟件,醫療,技術,科學和旅游;
谷歌,微軟(Bing),亞馬遜,DeepL,Systran,百度,Promt,IBM Watson,Globalese和Yandex等10個領先的(基于網絡的)引擎;
40名評論者對每個項目進行評分
每個測試30個字符串;和
每個字符串平均12個字
這涉及總計40,000個單獨的測試(10個語言對×10種材料×10個NMT引擎×40個評論者),每個測試都至少有30個字符串,即1,200,000個字符串,每個12個字,導致約1440萬話。需要進行此評估才能創建一個真實的,比較性的,基于人的NMT質量指標的實例(?。?。
挑戰是顯而易見的:為了只產生一個真實可行且有用的NMT分數的實例,4000名語言學家需要評估1,200,000個字符串,等同于超過1400萬字!
該項目的規模,參與人數以及招聘,培訓和監督所有審核人員的要求,以及確保他們正確地做好工作,這些工作顯然是艱巨的任務,即使是大型NMT玩家,當然還有傳統的翻譯公司。
在合理的時間內(例如少于一天)完成整個過程,以便結果“新鮮”并且相關更加困難。
有很多翻譯機構沒有能力,技術和運營能力來定期開展這么大規模的項目。
這就是One Hour Translation(OHT)所擅長的。我們用超過50種語言招募,培訓和測試了數千名語言專家,并且已經為我們的客戶運行了超過1,000,000個NMT評級和測試項目。到2018年4月底,我們將發布首個以人為本的NMT質量指數(最初涵蓋多個引擎和領域,后來擴大),目標是促進整個行業使用NMT。
OHT是NMT開拓者,也是為數不多的需要部署“混合”模式的翻譯機構之一,將NMT和人員后期編輯相結合,以減少提供高質量商業翻譯所需的成本和時間。傳統人類翻譯領域的革命已經發生,創建NMT指數是OHT展示我們對NMT現象的承諾和體驗的方式。
關于未來的一句話
未來,可以使用相同技術構建更好的NMT質量指數NMT,即深度學習神經網絡。構建神經質量系統就像構建NMT系統一樣。所需的成分是高質量的翻譯,高容量和質量評價/反饋。
有了這些成分,就有可能建立一個深度學習,基于神經網絡的質量控制系統,該系統將讀取翻譯并像人一樣對其進行評分。一旦NMT系統工作順利,開發出可靠的,基于人的質量評分/反饋,下一步就是創建一個神經質量評分。
一旦獲得了神經質量評分,就有可能讓引擎相互改進,并通過將神經質量評分與NMT聯系起來創建一個自學習和自我完善的翻譯系統(顯然,它沒有任何意義一個閉環系統,因為如果沒有額外的外部數據它就無法改進)。
——選自:樂文翻譯
樂文翻譯目前是國內專業的翻譯機構之一,公司秉承“誠信 專業”的服務理念,為國內外客戶提供一流服務。了解更多信息:請發郵箱:abc@lewene.com或直接致電:400-895-6679咨詢。