東京工業大學和日本產業技術綜合研究所的一個研究小組發布了一種大規模語言模型“Swallow”,它是具有出色日語能力的生成式人工智慧的基礎。它是支援日語的最大的大規模語言模型,並且開放並可供商業使用。

 近年來,大規模語言模式的研發,如OpenAI的ChatGPT和GPT-4,以及Google的PaLM 2和Gemini,進展迅速。儘管在日語中較強的大規模語言模型的開發方面正在取得進展,但開放且高效能的大規模語言模型還很少。

 Meta AI開發的Llama 2系列在英語方面表現出色,但在日文讀寫方面表現較弱。因此,研究團隊基於 Llama 2 的多個模型建立了一個大規模語言模型「Swallow」。使用經過訓練的大規模語言模型進行額外預訓練(連續預訓練)的方法,證明了日語的高性能。

 另外,由於Llama 2是一個以英語為中心的模型,詞彙中不包含主要的日語單字和字符,文本被劃分為不自然的單元(token),文本用更多的token來表達,學習和生成效率下降和計算成本增加。透過加入日文字符和單字(語言模型可以處理的一組標記)等詞彙,日文文本的標記長度減少到 56.2%。

 此外,研究團隊還從非營利組織Common Crawl分發的檔案中獨立提取和提煉了日語文本,構建了包含約3,121億字符(約1.73億頁)的日語網絡語料庫。這是最大的商用日語模型訓練語料庫。

 強大且對日語開放的大規模語言模型的出現,將進一步推動日本大規模語言模型的研究、開發和利用,帶來進一步的產品開發和技術創新。

參考:【產業技術綜合研究所】發布擅長日語的大規模語言模型“Swallow” - 將日語教給擅長英語的大規模語言模型 -

東京工業大學

持續培養具有遠大志向和日本精神的理工科人才,掌握創造時代的知識,提高技能的理工大學的頂峰

東京工業大學成立於 1881 年(明治 14 年),前身為東京工業大學,當時迫切需要工業現代化。自成立以來,以優秀的理工科人才不斷創造優秀的研究成果,在日本理工科大學中依然名列前茅。東京工業大學不僅需要高度專業化,還需要文科 [...]

大學學報在線編輯部

這是大學期刊的在線編輯部。
文章由對大學和教育具有高水平知識和興趣的編輯人員撰寫。