楽天グループ株式会社は、日本の生成AI開発力強化を目的としたGENIACプロジェクトの一環で開発した最新AIモデル「Rakuten AI 3.0」の提供を開始しました。2026年3月17日に発表され、Apache 2.0ライセンスで無償ダウンロードが可能とされています。2025年12月の発表以降にファインチューニングされ、日本語に関する複数のベンチマークで高いスコアを記録しました。企業や技術者のAIアプリケーション開発を支援することを目的に、オープンソースとして広く活用を促す方針が示されています。モデルは日本語最適化と高性能を両立させ、文章作成からコード生成、文書解析まで幅広い用途を想定しています。国内におけるAI活用の裾野拡大に寄与する取り組みとして注目されます。
国内最大規模のモデル構成と日本語最適化の狙い
Rakuten AI 3.0は、約7,000億パラメータのMixture of Expertsアーキテクチャを採用した大規模言語モデルです。オープンソースコミュニティの良質なモデルを基に、楽天独自の高品質なバイリンガルデータや研究成果を組み合わせて開発されています。日本の言語特性や文化、慣習の理解を高めることに主眼が置かれ、日本語での指示遵守や推論精度の向上が図られました。テキスト処理全般に強みを持ち、文章作成やコード生成、文書解析や抽出の各タスクで性能を発揮します。これまでの楽天のモデルと比較して、特に複雑なタスクへの対応で精度が大幅に向上したと説明されています。大規模なMoEにより入力に応じて最適なエキスパートが選択されるため、汎用性と高度な推論を両立します。
複数ベンチマークで主要モデルを上回るスコア
本モデルは複数の日本語ベンチマークで評価され、総合的な優位性が示されています。JamC-QAでは76.9、MMLU-ProXでは71.7、MATH-100では86.9、M-IFEvalでは72.1を記録しました。比較対象として提示されたgpt-4oはJamC-QAが74.7、MMLU-ProXが64.9、MATH-100が75.8、M-IFEvalが67.3であり、Rakuten AI 3.0がいずれも上回る値が示されています。国内のオープンモデルに対しても、GPT-OSS-Swallow-120B-RL-v0.1やStockmark-2-100B-Instruct、ABEJA-QwQ32b-Reasoning-v1.0を各指標で凌駕する結果となりました。評価対象は日本固有の知識や歴史、大学院レベルの推論、競技数学、指示追従能力などで構成されています。こうした数値は、研究利用のみならずアプリケーション実装における初期選定の判断材料として有用です。公開スコアを踏まえた検証設計により、目的タスクとの適合性を早期に見極めることが可能になります。
オープン提供の意義とGENIAC支援の位置付け
モデルはApache 2.0ライセンスで提供され、楽天の公式リポジトリから入手できる無償公開が明言されています。企業や技術者が用途に応じて導入しやすい条件が整えられている点が特徴です。開発は経済産業省およびNEDOが推進するGENIACプロジェクトの支援を受けて進められ、学習費用の一部は同プロジェクトの補助により確保されたとされています。楽天はGENIAC第3期公募に2025年7月採択され、次世代LLMの研究開発を継続中です。オープンモデルの共有を通じて国内のAI開発を加速させ、協調的なコミュニティの構築を目指す方針が表明されています。研究目的の開発段階にあるとしつつも、顧客に快適なサービスを提供するために様々な選択肢を継続的に評価していく姿勢が示されました。
経営メッセージと「AI-nization」による全社展開
楽天グループのChief AI & Data Officerであるティン・ツァイは、本モデルが高品質かつ費用対効果の高い競争力あるLLMであると述べています。大規模データ、エンジニアリング、革新的アーキテクチャの組み合わせを強調し、国内のAI開発加速と協調的コミュニティ形成への貢献を目指す考えを示しました。楽天は「AI-nization」というテーマのもと、ビジネスのあらゆる側面でAIの活用を推進しています。オープンソースコミュニティへ貢献しながら、国内外の幅広い利用者に新たな価値創出を図る方針です。これまでのRakuten AI 7BやRakuten AI 2.0からの系譜を踏まえ、モデル規模と性能を段階的に拡張してきた経緯が確認できます。モデルの公開は、企業内外の開発者が迅速に評価と実装を進めるための基盤整備にもつながります。
実装に向けた活用ポイントと確認事項
活用を進めるにあたっては、まずApache 2.0ライセンスの条件を満たす運用を行うことが前提となります。提示された各種ベンチマークの数値を参考に、対象タスクが知識応答、推論、数学、指示追従のいずれに主要な重みがあるかを切り分け、目的に適した評価設計を行うことが重要です。日本語最適化の強みを生かすため、ドメイン固有データでの追加評価や必要に応じたファインチューニング計画を組み立てると有効です。コード生成や文書解析など具体的ユースケースでは、セキュリティや品質管理の観点から入出力ログの管理やプロンプト設計の標準化を進めると安定運用に寄与します。学習費用の一部が公的支援を受けている点にも触れられており、研究開発目的の検証を段階的に本番適用へ拡張するロードマップを準備すると移行が円滑になります。モデルの更新や派生版の公開に備え、評価基準と再現手順をドキュメント化しておくことも実務上の要点です。
詳しくは「楽天グループ株式会社」の公式ページまで。レポート/DXマガジン編集部






















