AIが「試行錯誤+報酬」で自分で学習していく機械学習の手法。正解データは与えず、良い行動には報酬・悪い行動にはペナルティで学ぶ。
正解ラベルあり。分類・予測に使う。
正解なし。パターン・グループ発見。
報酬で自ら最適行動を学ぶ。