東京工業大學與AIST發布日語能力較強的大規模語言模型“Swallow”

　東京工業大學和日本產業技術綜合研究所的一個研究小組發布了一種大規模語言模型“Swallow”，它是具有出色日語能力的生成式人工智慧的基礎。它是支援日語的最大的大規模語言模型，並且開放並可供商業使用。

　近年來，大規模語言模式的研發，如OpenAI的ChatGPT和GPT-4，以及Google的PaLM 2和Gemini，進展迅速。儘管在日語中較強的大規模語言模型的開發方面正在取得進展，但開放且高效能的大規模語言模型還很少。

　Meta AI開發的Llama 2系列在英語方面表現出色，但在日文讀寫方面表現較弱。因此，研究團隊基於 Llama 2 的多個模型建立了一個大規模語言模型「Swallow」。使用經過訓練的大規模語言模型進行額外預訓練（連續預訓練）的方法，證明了日語的高性能。

　另外，由於Llama 2是一個以英語為中心的模型，詞彙中不包含主要的日語單字和字符，文本被劃分為不自然的單元（token），文本用更多的token來表達，學習和生成效率下降和計算成本增加。透過加入日文字符和單字（語言模型可以處理的一組標記）等詞彙，日文文本的標記長度減少到 56.2%。

　此外，研究團隊還從非營利組織Common Crawl分發的檔案中獨立提取和提煉了日語文本，構建了包含約3,121億字符（約1.73億頁）的日語網絡語料庫。這是最大的商用日語模型訓練語料庫。

　強大且對日語開放的大規模語言模型的出現，將進一步推動日本大規模語言模型的研究、開發和利用，帶來進一步的產品開發和技術創新。

資訊