💻 ITパスポート | テクノロジ系(AI)

強化学習とは?

AIが「試行錯誤+報酬」で自分で学習していく機械学習の手法。
正解データは与えず、良い行動には報酬・悪い行動にはペナルティで学ぶ。

🎬 こんなシーンを想像
将棋AIが初めてゲームをプレイ。最初はランダムに指すが、勝てば「報酬+10点」・負ければ「報酬−10点」を受け取る。
何万回も試行錯誤を繰り返し、報酬が最大になる指し手を自分で学んでいく。
…正解を教えられず自分で学ぶ=強化学習!
🤖 機械学習の3種類 教師あり学習 正解ラベルで学習 「これが正解」と 教えながら訓練 例)スパム分類 教師なし学習 データの構造を発見 正解なしで パターン・グループを発見 例)顧客クラスタ分析 強化学習 ←今 報酬で試行錯誤 行動→結果→報酬で 自律的に最適化 例)囲碁AI・自動運転

教師あり

正解ラベルあり。分類・予測に使う。

教師なし

正解なし。パターン・グループ発見。

強化学習

報酬で自ら最適行動を学ぶ。

🔄 強化学習のループ
① エージェントが行動する
AIが環境に対して何らかの行動を選択する(例:将棋の次の一手を指す)。
② 環境から報酬を受け取る
良い行動なら報酬+、悪い行動なら報酬−(ペナルティ)を受け取る。
③ 報酬が最大になる行動を学習
繰り返しながら「どの状況でどう動けば報酬が最大になるか」を更新する。
④ ①に戻り何万回も繰り返す
人間が教えなくても、試行錯誤だけで最適な行動方針(ポリシー)が完成。
⚠️ ひっかけ注意ポイント
「正解データを与えて学習させる」は教師あり学習
強化学習は正解を教えない。報酬という「フィードバック」だけを手がかりに自分で学ぶ。混同しやすい。
「データのパターンを自動で見つける」は教師なし学習
教師なし学習はラベルなしデータのグループ化・構造発見が目的。強化学習は「行動→報酬」のループが本質。
「報酬」が登場したら強化学習のキーワード
「報酬を最大化」「試行錯誤して学習」「エージェントが行動」→ 強化学習の典型的な説明。この組み合わせで判断できる。
🧠 覚え方(無理やりゴロ)
犬のしつけ=強化学習
「お座り→ご褒美」「吠えたら叱られる」→
ほめる・叱るだけで犬は正解を教えられなくても学ぶ。

強化(ごほうびで行動を強める)=強化学習
報酬→行動強化→試行錯誤の繰り返しがセット
ITパスポート 詳細解説 / itp-reinforcement-learning