日本の生成AI開発力強化を掲げるGENIACプロジェクトの枠組みで開発された「Rakuten AI 3.0」が公開されました。日本語に最適化した約7,000億パラメータのMixture of Experts構成を採用し、日本固有知識や高度推論を含む複数の日本語ベンチマークで高いスコアを示しています。無償かつApache 2.0ライセンスで提供され、企業や技術者によるAIアプリケーション開発を後押しします。公開時点での各種スコアやコメント、提供形態、研究開発体制が明示されており、活用の具体像が見通せる内容です。日本市場の要件に合わせた言語理解と指示遵守の向上がうたわれ、実装現場での利用を想定した改良が進んでいます。
「Rakuten AI 3.0」の提供開始と位置づけ
楽天グループ株式会社は、経済産業省とNEDOが推進するGENIACの一環として開発した最新の大規模言語モデル「Rakuten AI 3.0」の提供を開始しました。発表によると、本モデルは2025年12月の発表以降にファインチューニングを重ねて改良され、複数の日本語ベンチマークで優れたスコアを示しました。提供形態はApache 2.0ライセンスで、楽天の公式リポジトリから無償ダウンロードが可能です。国内のAIアプリケーション開発を担う企業や技術者の支援を目的とし、オープンな配布で利用のハードルを下げています。ベンチマークの更新時刻が明示されており、評価の透明性に配慮した発表となっています。今後の国内AI開発の加速に資する公開といえます。
日本語ベンチマークでの主な成績
本モデルは、日本文化や歴史知識の理解、大学院レベルの推論、競技数学、指示遵守能力を測る複数の日本語ベンチマークで評価されています。JamC-QAでは76.9、MMLU-ProXの日本語版では71.7、MATH-100では86.9、M-IFEvalでは72.1を記録しました。比較として、gpt-4oはJamC-QAが74.7、MMLU-ProXが64.9、MATH-100が75.8、M-IFEvalが67.3とされています。さらに、GPT-OSS-Swallow-120B-RL-v0.1やABEJA-QwQ32b-Reasoning-v1.0、Stockmark-2-100B-Instructなど国内外の主要モデルも併記され、相対的な位置づけがわかる構成です。なお、GPT-OSS-Swallow-120B-RL-v0.1とABEJA-QwQ32b-Reasoning-Japanese-v1.0のMMLU-ProXとMATH-100のスコアは2026年3月18日10時時点で更新された旨が示されています。評価基準の出典も注で明示されており、測定範囲と指標が特定されています。
モデルの特徴と技術構成
Rakuten AI 3.0は、日本語に最適化された約7,000億パラメータのMixture of Expertsアーキテクチャを採用しています。複数のサブモデルが入力に応じて選択的に活性化される仕組みにより、汎用性と推論能力を両立させています。オープンソースコミュニティの最良モデルを基にしつつ、楽天独自の高品質なバイリンガルデータや研究成果を統合して開発されています。文章作成、コード生成、文書解析や抽出など幅広いタスクで強みを発揮し、従来のRakuten AI 7BやRakuten AI 2.0と比べて複雑なタスクの精度が大幅に向上したと説明されています。日本の言語的ニュアンスや文化、慣習の理解に注力した点が示され、日本語特化型の設計思想がうかがえます。研究開発の積み重ねによる適用範囲の拡大がポイントです。
研究開発体制とコメント
楽天グループのChief AI & Data Officerであるティン・ツァイ氏は、本モデルが高品質で費用対効果の高いLLMとして競争力を持ち、エンジニアリングと革新的アーキテクチャの組み合わせを実現したと述べています。オープンモデルの共有を通じて国内のAI開発を加速し、経済産業省と連携して協調的なAI開発コミュニティの構築を目指すとしています。次世代LLMの研究開発に向けて、楽天は2025年7月にGENIAC第3期公募に採択されており、本モデルの学習費用の一部はGENIACから計算資源の補助を受けています。現在は研究目的でLLMを開発しており、サービス提供の観点で多様な選択肢を評価検討していく方針です。オープンソースコミュニティへの貢献を目的にモデルを公開し、AIアプリケーションやLLMのさらなる開発の後押しを掲げています。AI-nizationをテーマとする全社的なAI活用の文脈でも、研究開発の位置づけが示されています。
活用のポイントと次のアクション
Apache 2.0ライセンスで無償提供されるため、検証から試験導入、商用展開準備までのフェーズに適した柔軟な利用が可能です。日本語の文化知識や高度推論におけるスコアが高いことから、FAQ応答や業務文書の要約、分析支援、コード支援などテキスト処理全般に適用余地があります。ベンチマークの特性に合わせた内部評価を行い、自社データでの性能検証を設計することが重要です。JamC-QAやMMLU-ProX、MATH-100、M-IFEvalの評価観点を参照し、対象業務に近いテストを用意すると効果検証が進みます。モデルの更新に合わせた再評価の体制を整え、GENIACの支援枠組みやオープンソースの進展を踏まえた計画策定が有効です。研究開発用途での公開方針を踏まえ、適切なガバナンスのもとで安全性や品質を検証しながら導入を進めていくことが求められます。
詳しくは「楽天グループ株式会社」の公式ページまで。レポート/DXマガジン編集部 權






















