💻 ITパスポート｜テクノロジ系（AI）

強化学習とは？

AIが「試行錯誤＋報酬」で自分で学習していく機械学習の手法。
正解データは与えず、良い行動には報酬・悪い行動にはペナルティで学ぶ。

🎬 こんなシーンを想像

将棋AIが初めてゲームをプレイ。最初はランダムに指すが、勝てば「報酬＋10点」・負ければ「報酬−10点」を受け取る。
何万回も試行錯誤を繰り返し、報酬が最大になる指し手を自分で学んでいく。

…正解を教えられず自分で学ぶ＝強化学習！

🤖 機械学習の3種類

正解ラベルあり。分類・予測に使う。

正解なし。パターン・グループ発見。

報酬で自ら最適行動を学ぶ。

🔄 強化学習のループ

① エージェントが行動する

AIが環境に対して何らかの行動を選択する（例：将棋の次の一手を指す）。

▼

② 環境から報酬を受け取る

良い行動なら報酬＋、悪い行動なら報酬−（ペナルティ）を受け取る。

▼

③ 報酬が最大になる行動を学習

繰り返しながら「どの状況でどう動けば報酬が最大になるか」を更新する。

▼

④ ①に戻り何万回も繰り返す

人間が教えなくても、試行錯誤だけで最適な行動方針（ポリシー）が完成。

⚠️ ひっかけ注意ポイント

「正解データを与えて学習させる」は教師あり学習

強化学習は正解を教えない。報酬という「フィードバック」だけを手がかりに自分で学ぶ。混同しやすい。

「データのパターンを自動で見つける」は教師なし学習

教師なし学習はラベルなしデータのグループ化・構造発見が目的。強化学習は「行動→報酬」のループが本質。

「報酬」が登場したら強化学習のキーワード

「報酬を最大化」「試行錯誤して学習」「エージェントが行動」→ 強化学習の典型的な説明。この組み合わせで判断できる。

🧠 覚え方（無理やりゴロ）

犬のしつけ＝強化学習！
「お座り→ご褒美」「吠えたら叱られる」→
ほめる・叱るだけで犬は正解を教えられなくても学ぶ。

強化（ごほうびで行動を強める）＝強化学習
報酬→行動強化→試行錯誤の繰り返しがセット

ITパスポート詳細解説／ itp-reinforcement-learning