北二外發布大語言模型翻譯質量評測報告
中新網北京6月23日電(記者 李京澤)6月23日,北京第二外國語學院發布《大語言模型翻譯質量評測報告 BISU-AiTQA(v1.0)》。
據悉,該評測突破國際現有評測以英語為核心的現狀,構建了以漢語為核心,覆蓋多語種、多領域的大語言模型翻譯質量評測體系,具有開創性意義,是促進中外人文交流,提升漢語全球表達力的積極探索。
基于多年的外語學科與教學積淀、結合前期翻譯評測研究成果,北二外集中英語、日語、俄語、法語、阿拉伯語五個語種師生力量,面向ChatGPT、Claude、Gemini、Grok、DeepSeek和通義千問六個國內外語言大模型,從當代文學、黨政文獻和外事新聞三個領域開展翻譯質量測評研究。
據了解,BISU-AiTQA(v1.0)以漢語為核心、以中國特色文本為基礎,從語言特征維度、神經網絡維度構建了包括詞匯多樣性、句法復雜度、篇章銜接度、語言可接受度等在內的六項指標體系,著重關注譯文的語言使用特性,可有效識別模型在詞法、句法和篇章銜接方面的能力,同時考察模型對語義的理解與語言表達能力。
這不僅實現了對大語言模型譯文的多維分析,更以實證方式檢驗了模型對中國話語、文化意涵與政策表述的處理能力,填補了“以漢語為核心”的多語種評測空白。
從評測結果來看,生成式人工智能目前不完全具備處理復雜語言的能力,在借助人工智能技術時,使用者必須具有判斷力,而培養這種判斷力正是外語教育重要的育人功能之一。
人工智能時代的外語學習,必要且必須。基于這樣的邏輯,BISU-AiTQA(v1.0)脫胎于文工交叉學科,又反哺語言教學,項目中的多語種多領域語料及翻譯評測指標可廣泛應用于翻譯課程、語言測試、語言分析等教學場景,為推動翻譯教育與語言研究的數字化轉型提供重要的實踐平臺。