📄 ITパスポート | テクノロジ系

OCR(光学文字認識)とは?

紙に書かれた文字を「画像」として読み取り、コンピュータが扱える「テキスト」に変換する技術。

🎬 こんなシーンを想像
倉庫に積み上がった数十年分の紙の請求書。これをデジタル化したい。スキャナで画像にしても、文字が「画像の点」のままではExcelに貼れない。
…OCRを使えば画像の文字をテキストデータに変換でき、検索・集計・編集が可能になる。
🔍 OCRの処理フロー 請求書 ①紙の文書 スキャン 画像データ (JPG/PNG) 文字は"点の集合" ②画像ファイル OCR処理 OCR パターン認識 AI学習 文字照合 ③認識エンジン テキスト 請求書 ¥50,000 田中太郎 ④テキストデータ
🗺️ OCR・ICR・OMRの違い
名前正式名称読み取るもの使用例
OCR 光学文字認識 印刷文字・活字 請求書・本のデジタル化
ICR 手書き文字認識 手書き文字 手書き申込書の自動入力
OMR 光学マーク認識 マーク(塗りつぶし) マークシート試験の採点

OCRは「印刷された文字」が対象。手書きはICR(OCRの上位互換として扱うこともある)、丸塗りマークはOMR。

紙書類のデジタル化

請求書・契約書・名刺をスキャンしてテキスト化。検索・編集が可能になる。

自動入力・RPA連携

紙の伝票をOCRで読み取り、システムに自動入力。人手入力を大幅削減。

翻訳アプリ

スマホカメラで外国語のメニュー等を読み取り、OCR→翻訳を即時実行。

番号プレート認識

駐車場・高速道路のETC/カメラがOCRでナンバープレートを読み取る。

⚠️ ひっかけ注意ポイント
OCRとOMRを混同しやすい
OCR=文字(Character)を読む。OMR=マーク(Mark)を読む。「マークシート試験の採点」→OMR、「請求書の文字認識」→OCR。
「画像のまま保存=OCRではない」
スキャンしただけでは画像データ(文字を検索できない)。OCRは「画像→テキスト変換」まで行う処理。スキャン=OCRというのは誤り。
OCRの認識精度は100%ではない
汚れ・手書き・特殊フォントなどで認識精度が下がることがある。試験では「必ず正確に読み取れる」という選択肢は誤り。
🧠 覚え方(無理やりゴロ)
OCR =「おじちゃんが紙を読む(Optical Character Recognition)」
O=おじちゃんが(Optical) C=紙の文字を(Character) R=読む(Recognition)

文字→OCR」「マーク→OMR」「手書き→ICR
何を読むか(Character・Mark・Ink)で三兄弟を区別!