京橋のバイオインフォマティシャンの日常

南国のビーチパラソルの下で、Rプログラムを打ってる日常を求めて、、Daily Life of Bioinformatician in Kyobashi of Osaka

AI論文ジャーナルクラブ - 強化学習を用いて大規模言語モデルの推論能力を向上させるDeepSeek-R1とDeepSeek-R1-Zeroを紹介

はじめに

『AI論文ジャーナルクラブ』へようこそ。

この企画では最新の人工知能関連の論文を分かりやすく解説し、気になるポイントを考察していきます。

この企画では最新の人工知能関連の論文を分かりやすく解説し、気になるポイントを考察していきます。 AI論文ジャーナルクラブでは、雑多なAI論文を効率的に読み進めていきます。

Google NotebookLMなどのRAG技術を最大限活用しています。Google NotebookLMなどのRAG(Retrieval-Augmented Generation)技術を活用することで、膨大な文献から必要な情報を迅速かつ的確に抽出し、非常に効率的に要点を把握し、内容を整理しながら高い精度と深さで読み進めることができます。まさに革命的です。 記事の構成は読み進めることで、より理解が深まる構成にしています。 この論文の詳細に興味あれば、最後のざっくりサマリー・図表の解説まで読み進めてください。 最終的には、原著論文を読むときに事前知識やヘルプとなればと思います。

今回扱う論文記事では、強化学習を用いて大規模言語モデルの推論能力を向上させ、その知識を小規模モデルに蒸留するという点が重要なポイントです。

初心者向けの分野背景と事前知識

この論文記事をより深く理解するために必要な、初心者向けの分野背景と事前知識を以下に解説します。

  • 大規模言語モデル(LLM):大量のテキストデータで訓練された、文章生成や翻訳、質問応答が可能なAIモデル。
  • 強化学習(RL):エージェントが環境との相互作用を通じて報酬を最大化するように学習する機械学習の一手法。
  • Chain-of-Thought(CoT):複雑な問題解決のために、段階的な思考プロセスを生成する手法。
  • 蒸留:大規模モデルの知識を小規模モデルに転移させ、効率的な推論を可能にする技術。
  • 教師あり微調整(SFT):事前に学習させたモデルを、特定のタスクに適応させるために、ラベル付きデータで追加学習させること。
  • コールドスタート:モデルの初期学習段階で、少量の高品質データを与えることで、学習の安定化や性能向上を図る手法。
  • ベンチマーク:モデルの性能を客観的に評価するための標準的なデータセットやタスク。
  • 報酬モデル:強化学習において、モデルの行動に対する報酬を予測するモデル。
  • 勾配相対方策最適化(GRPO):強化学習の訓練コストを削減するため、クリティックモデルを使用せず、グループスコアからベースラインを推定する手法.
  • Aha moment:DeepSeek-R1-Zeroが初期アプローチを再評価し、より多くの思考時間を問題に割り当てることを学習する瞬間。

論文タイトルと簡単要約

  • タイトル(英語):DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
  • タイトル(日本語):DeepSeek-R1:強化学習によるLLMの推論能力の促進
  • 著者名(英語):DeepSeek-AI
  • 雑誌名:arxiv.org
  • 出版年:2024
  • 簡単要約(日本語):DeepSeek-R1は、強化学習を用いて大規模言語モデルの推論能力を向上させる研究です。特に、教師あり微調整なしで強化学習のみで訓練されたDeepSeek-R1-Zeroは、興味深い推論行動を自然に獲得します。DeepSeek-R1は、コールドスタートデータと多段階の訓練を経て、OpenAIのモデルに匹敵する性能を達成します。さらに、DeepSeek-R1から小規模モデルへの蒸留も探求されており、蒸留された小規模モデルが優れた性能を示すことが示されています。この研究は、言語モデルの推論能力を向上させるための新しい道を開くものです。

arxiv.org

主題、問題意識、手法、成果

  • 主題強化学習を用いて大規模言語モデル(LLM)推論能力を向上させる。特に教師あり微調整(SFT)なしでどこまでLLMが推論できるか。
  • 問題意識:従来のLLMは教師ありデータに依存しており、強化学習のみで推論能力をどこまで高められるか。また、生成される推論過程の可読性言語の一貫性をどのように確保するか。
  • 手法DeepSeek-R1-Zeroでは教師なし強化学習を行い、DeepSeek-R1ではコールドスタート多段階訓練を導入。蒸留により小規模モデルへ推論能力を転移。勾配相対方策最適化(GRPO)により訓練コストを削減。
  • 成果DeepSeek-R1-Zero教師なし強化学習のみで高い推論能力を獲得し、DeepSeek-R1OpenAI-o1-1217に匹敵する性能を達成。蒸留により小規模モデルも優れた性能を示す。

生成AI・数学的な観点

この論文記事におけるDeepSeek-R1の特徴を、生成AI的な観点と数学的な観点からそれぞれ解説します。

  • 生成AI的な観点
    • DeepSeek-R1は、強化学習によって自律的な推論能力を獲得する点が特徴です。特に、DeepSeek-R1-Zero教師ありデータなしで、reflection(内省)self-verification(自己検証)などの高度な推論行動を自然に獲得します。これは、従来の教師あり学習に頼らずとも、AIが創造的な問題解決を自ら学習できる可能性を示唆しています。また、蒸留によって、大規模モデルの推論パターンを小規模モデルに転移させ、効率的な推論を実現しています。
  • 数学的な観点
    • 強化学習における報酬関数の設計が重要です。この論文では、正解率フォーマットに基づいて報酬を与え、モデルが最適な推論戦略を学習するように促します。また、勾配相対方策最適化(GRPO)を用いることで、訓練コストを削減しています。GRPOは、クリティックモデルを使用せずにグループスコアからベースラインを推定することで、計算効率を高めます。数式(1)、(2)、(3)は、GRPO最適化目的関数を表しています。

以下は、論文記事で提案されているGroup Relative Policy Optimization (GRPO)の手法で用いられている数式とその概要を解説したものです。

ざっくりサマリー

DeepSeek-R1の論文の概要を説明します。この論文では、大規模言語モデル(LLM)の推論能力強化学習(RL)によって向上させる手法が提案されています。

  • DeepSeek-R1-Zero: 教師あり微調整(SFT)なしで、RLのみで訓練されたモデルです。DeepSeek-V3-Baseベースモデルとして使用し、GRPORLフレームワークとして採用しています。AIME 2024ベンチマークで高いpass@1スコアを達成し、RLだけでLLMの推論能力を向上できることを示しました。
  • DeepSeek-R1: コールドスタートデータ多段階訓練パイプラインを導入することで、DeepSeek-R1-Zeroの課題に対処し、さらなる推論性能の向上を目指したモデルです。DeepSeek-V3-Baseモデルをコールドスタートデータで微調整し、推論指向のRLを実行します。リジェクションサンプリングを通じて新しいSFTデータを作成し、DeepSeek-V3-Baseモデルを再訓練します。その結果、OpenAI-o1-1217に匹敵する性能を達成しました。
  • 蒸留: DeepSeek-R1推論能力をより小型のモデルに蒸留する手法も検討されています。Qwen2.5-32Bベースモデルとして使用し、DeepSeek-R1から直接蒸留することで、RLを適用するよりも高い性能が得られることが示されました。蒸留された14Bモデルは、state-of-the-artオープンソースモデルであるQwQ-32B-Previewを大幅に上回り、32Bおよび70Bモデルは、推論ベンチマーク新たな記録を樹立しました。

この論文では、RL蒸留がLLMの推論能力を向上させるための効果的な手法であることが示されています。特に、DeepSeek-R1は、AIME 2024MATH-500などのベンチマーク高い性能を達成し、教育コーディングなどの分野でその優位性を示しました。また、DeepSeek-R1推論データで微調整された小型のモデルは、既存のオープンソースモデルを上回る性能を達成しています。

図表の解説

  • Figure 1 | Benchmark performance of DeepSeek-R1:DeepSeek-R1と他のモデル(OpenAI-o1-1217、DeepSeek-R1-32Bなど)のベンチマーク性能を比較しています。AIME 2024、Codeforces、GPQA Diamond、MATH-500、MMLU、SWE-bench Verifiedなどのタスクにおける精度パーセンタイルを示し、DeepSeek-R1の優れた性能を強調しています。

  • Figure 2 | AIME accuracy of DeepSeek-R1-Zero during trainingRL訓練中のDeepSeek-R1-ZeroAIMEにおける精度の推移を示しています。訓練が進むにつれて精度着実に向上していることがわかります。

  • Figure 3 | The average response length of DeepSeek-R1-Zero on the training set during the RL processRLの過程におけるDeepSeek-R1-Zero平均応答長を示しています。推論タスクを解くために、モデルがより多くの思考時間を自然に学習していることを示唆しています。
  • Table 1 | Template for DeepSeek-R1-Zero: DeepSeek-R1-Zero訓練に使用されるテンプレートを示しています。モデルが推論プロセス最終的な答えを生成するように指示するシンプルな構成です。
  • Table 2 | Comparison of DeepSeek-R1-Zero and OpenAI o1 models on reasoning-related benchmarks: DeepSeek-R1-ZeroOpenAIo1モデル推論関連ベンチマークの比較です。AIME 2024MATH-500GPQA Diamondなどにおけるpass@1スコアを比較し、DeepSeek-R1-Zero教師あり微調整なしでも強力な推論能力を持つことを示しています。
  • Table 3 | An interesting “aha moment” of an intermediate version of DeepSeek-R1-Zero: DeepSeek-R1-Zero訓練中に見られた「アハモーメント」の例を示しています。モデルが自身のアプローチ再評価し、より多くの思考時間を問題に費やすことを学習する様子が示されています。
  • Table 4 | Comparison between DeepSeek-R1 and other representative models: DeepSeek-R1と他の代表的なモデル(Claude-3.5-Sonnet-1022, GPT-4o, DeepSeek-V3, OpenAI o1-mini, OpenAI o1-1217)との比較です。英語、コード、数学、中国語のタスクにおける性能を比較し、DeepSeek-R1総合的な能力を示しています。
  • Table 5 | Comparison of DeepSeek-R1 distilled models and other comparable models on reasoning-related benchmarks: DeepSeek-R1から蒸留されたモデルと、他の同等モデルとの推論関連ベンチマーク比較です。AIME 2024、MATH-500、GPQA Diamondなどにおける性能を比較し、蒸留によって小型モデル性能向上することを示しています。
  • Table 6 | Comparison of distilled and RL Models on Reasoning-Related Benchmarks: 蒸留モデル強化学習モデル推論関連ベンチマークの比較です。AIME 2024、MATH-500、GPQA Diamondなどにおける性能を比較し、蒸留強化学習よりも優れた性能を達成できることを示しています。