OCR PDF 無料 — スキャン文書からテキストを抽出する方法

2026年3月12日 PDFGem

スキャンした契約書、撮影したレシート、文字を選択できない古いPDF。OCRはページ画像を読み取り、選択可能なテキストを別の結果として返します。

PDFGemのOCR PDFツールは認識した文字を画面に表示し、コピーまたはTXT保存できます。元のPDFを変更せず、隠しレイヤーも追加しないため、検索可能なPDFは作成しません。その処理にはPDFGemが現在提供していない別のツールが必要です。

OCRが実際に行うこと

OCRは、スキャン、写真、スクリーンショットなどの画像を分析し、文字、数字、記号の形を識別する技術です。IBMによると、OCRは画像の傾き補正やノイズ除去で画像をクリーニングし、文字の形を既知のパターンと照合することでテキスト画像を機械可読形式に変換します。

結果は画面に別表示され、コピーまたはTXT保存できます。画面やTXT内では検索できますが、元のPDFは画像のまま変更されません。

PDFにOCRが必要かどうかを判断する方法

PDFを開きます（ブラウザで問題ありません）。
テキストを選択してみてください。単語の上をクリック＆ドラッグします。
個々の単語をハイライトしてコピーできれば、PDFにはすでにテキストが含まれています。OCRは不要です。
何もハイライトされない場合、または領域の周りに四角形しか描けない場合、そのPDFは画像ベースでOCRが必要です。

もう一つのヒントは大きく拡大することです。文字がぼやけてピクセル化する場合はスキャン画像の可能性が高く、ネイティブテキストは通常シャープなままです。

ステップバイステップ：PDFGem OCRでテキストを抽出

OCR PDFツールを開きます — インストール不要、登録不要。スマートフォン・タブレット・パソコンどこからでもアクセスできます。
PDFを選択します。ファイル領域にドラッグするか、デバイス内から選びます。
ドキュメントの言語を選択します。日本語の文書の場合は「Japanese（日本語）」を選択してください。認識エンジンに使用する文字セットを指示します。PDFGemは16言語をサポートしています。
OCRボタンをクリックします。ブラウザ内で処理が始まり、進行状況が表示されます。所要時間はページ数、解像度、デバイスによって変わります。
抽出されたテキストを確認します。画面に表示されます。クリップボードにコピーするか、テキストファイルとしてダウンロードできます。

OCRが必要な場面：実用的なシナリオ

古い紙の記録をデジタル化

企業が紙の請求書を画像ベースのPDFとして保存している場合、PDFGem OCRで請求書番号や取引先名を抽出し、画面またはTXT内で検索できます。

スキャン契約書の文字を探す

認識後、画面の結果またはTXTで条項を探し、対応するスキャンページと照合します。元のPDFにCtrl+F検索は追加されません。

レシートからデータを抽出

フリーランサーや経理担当者は、経費のレシートをスキャンまたは撮影したPDFで受け取ることがよくあります。OCRが業者名、日付、金額を抽出し、Excelや会計ソフトにデータを貼り付けられるようにします。確定申告の際に大量のレシートを処理する必要がある場合、OCRは作業時間を大幅に短縮します。

マイナポータル書類の処理

行政機関から受け取ったスキャンPDFから文字を抽出し、結果内で項目を探したり、別の文書へコピーしたりする場合にも利用できます。

日本語OCRのポイント

日本語の文書には漢字・ひらがな・カタカナが混在しており、OCR処理には特有の課題があります。より良い認識結果を得るためのポイントをご紹介します。

印刷文字 vs 手書き文字 — OCRは印刷された文字に対して高い精度を発揮します。手書き文字、特に草書体や個人的な筆記スタイルは認識精度が低下することがあります。
フォントサイズ — 小さな文字は認識が難しくなります。より鮮明にスキャンするか、拡大コピーしてからスキャンすることを検討してください。
縦書き vs 横書き — 縦書きのレイアウトはOCRで処理した後、行の順序が正しく並ばない場合があります。縦書き文書を処理する際は、抽出されたテキストの順序を確認してください。
混在文書 — 日本語と英語が混在する文書（製品マニュアル、学術論文など）では、言語を「Japanese（日本語）」に設定すると日本語部分の精度が向上しますが、英語部分の認識に影響が出る場合があります。

最良のOCR結果を得るためのヒント

鮮明な画像を使用 — 小さな文字ほど、輪郭がはっきりしたスキャンが必要です。
ページをまっすぐに保つ — 傾いたスキャンは認識エラーの原因になります。スキャナーや撮影時に書類が傾かないように注意してください。
グレースケールを使用 — カラースキャンはファイルサイズが大きくなるだけで、テキスト認識は向上しません。グレースケールモードの方が処理が速く、認識精度も同等以上です。
コントラストを良好に保つ — 白い背景に暗いテキストが理想的です。淡い文字や蛍光ペンが多用された書類は認識精度が下がることがあります。
正しい言語を選択 — 日本語のドキュメントに「English」を使用すると、文字認識でエラーが多発します。必ず正しい言語を選択してください。

OCR後の次のステップ

スキャンPDFからテキストを抽出した後は、必要に応じて以下のステップに進むことができます。

TXTを利用 — OCR結果から直接保存し、確認、索引作成、翻訳、保管に使います。
Wordで編集 — 認識した文字を新しい文書へコピーし、見出し、段落、表などの書式を作り直します。
PDF圧縮 — 元のスキャンを別途圧縮し、処理後の可読性を確認します。

OCRとPDF検索可能化の違い

PDFGemのOCR PDFは文字抽出ツールです。検索可能なPDFの仕組みは関連ガイドで説明していますが、そのPDF作成機能は現在提供していません。

ツール	何をするか	出力	使うべき場面
OCR PDF	画像からテキストを抽出	テキストファイル	テキストをコピー・編集したいとき
検索可能PDF作成ツール（PDFGem未提供）	PDFに検索可能なテキストレイヤーを追加	検索可能なPDF	PDFとして保持しながら検索・コピーを可能にしたいとき

よくある問題と対処法

認識結果に文字化けが多い

言語の選択が正しいか確認してください。日本語の文書で「English」を選ぶと、ひらがなや漢字が誤認識されます。画像が粗い場合は、可能ならより鮮明に再スキャンしてください。

表のレイアウトが崩れる

OCRは文字を認識しますが、表の行や列を保持しません。必要な場合は、認識結果と元の表を照合して手動で構造を作り直してください。

縦書き文書の処理

日本語特有の課題として、縦書きレイアウトがあります。OCR処理後に行の順序が横書きとして認識される場合があります。縦書き文書を処理する際は、抽出されたテキストの順序を確認し、必要に応じて手動で修正してください。

ブラウザベースOCR：プライバシーが重要な理由

ほとんどのオンラインOCRツールでは、PDFをサーバーにアップロードする必要があります。スキャンした契約書、税務書類、個人情報を含む書類が第三者のインフラストラクチャを通過することになります。個人情報保護法の観点から、個人情報を含む書類を外部サーバーにアップロードすることにはリスクが伴います。マイナンバーや医療情報を含む書類は特に注意が必要です。

PDFGemのOCRはブラウザ内で動作し、選択したPDFをOCRサーバーへ送信しません。個人情報を含む文書でも、デバイス、ブラウザ、組織のセキュリティ要件を別途確認してください。

スキャンPDFからテキストを抽出する準備はできましたか？OCR PDFツールを開いてください — 無料、プライベート、完全にブラウザ内で動作します。

よくある質問

OCRとは何ですか？いつ必要ですか？

OCRは画像内の文字を認識し、選択可能なテキストを返す技術です。PDFGemは結果を別に表示し、元のPDFへ挿入したりファイルを変更したりしません。

PDFGemはPDFをサーバーにアップロードしますか？

いいえ。PDFGemのOCRはブラウザ内で完全にファイルを処理します。ドキュメントがデバイスから出ることはありません。

PDFGem OCRはどの言語に対応していますか？

英語、ポルトガル語、スペイン語、ドイツ語、フランス語、日本語、イタリア語、中国語（繁体字）、インドネシア語、ロシア語、韓国語、ベトナム語、トルコ語、タイ語、アラビア語、ポーランド語の16言語に対応しています。

OCRの精度を向上させるにはどうすればよいですか？

文字が鮮明な画像を使い、ドキュメントをまっすぐに保ち、テキストと背景のコントラストを良好にしてください。

ファイルサイズやページ数の制限はありますか？

100 MBまでのPDFを選択できます。実用上のページ数と速度は解像度、言語モデル、ブラウザのメモリ、デバイス性能によって変わります。

日本語のスキャン文書にも対応していますか？

はい。PDFGemのOCRは日本語に対応しており、漢字・ひらがな・カタカナが混在した文書でも処理できます。言語選択で「日本語」を選んでください。