スキャンPDFの文字、ちゃんと読めていますか？ ——OCRエンジンを最新GPT-4.1/GPT5に全面刷新しました

こんにちは。AILEX（エーアイレックス）開発チームです。

今回は、AILEXのOCR（光学文字認識）エンジンを最新のGPT-4.1に全面刷新したアップデートについてお伝えします。

「OCRってなに？」という方にも、「うちの事務所にどう関係あるの？」という方にもわかるように書きましたので、少しだけお付き合いください。

そもそもOCRとは

OCR（Optical Character Recognition）は、紙の書類をスキャンした画像から文字を読み取ってテキストデータに変換する技術です。

たとえば、相手方から届いた準備書面をスキャナで取り込んだとします。見た目はPDFですが、中身は「画像」です。文字を選択してコピーすることもできませんし、キーワードで検索することもできません。

ここでOCRが活躍します。画像の中に写っている文字を1文字ずつ認識して、コピーも検索もできるテキストデータに変換してくれるのです。

弁護士の日常にOCRが必要な理由

法律事務所には、毎日のように紙の書類が届きます。

裁判所からの決定書や判決文。相手方代理人からの書面。依頼者が持ち込む契約書や領収書の束。これらをスキャナで取り込んでPDF化するところまではやっている事務所も多いでしょう。

でも、「スキャンしただけのPDF」は、コンピュータから見れば単なる画像の集まりです。

全文検索ができない。AIに読ませられない。証拠説明書を作るときに、いちいち目視で内容を確認して手入力しなければならない。

2026年5月から始まるmintsでの電子提出でも、PDFにテキストレイヤーが含まれていることが求められます。スキャンしただけのPDFでは、mints提出時にも不便が生じます。

つまり、OCRは「あったら便利」ではなく「ないと困る」技術になりつつあるのです。

GPT-4.1で何が変わったのか

AILEXでは従来、OCR処理にOpenAI社のGPT-4を使用していました。今回、これを最新世代のGPT-4.1に全面移行しました。

一番大きな変化は、テキスト抽出精度の向上です。

従来のGPT-4では抽出精度が約95%でした。95%と聞くと十分に思えるかもしれませんが、100ページの裁判記録をOCRにかけると、約5ページ分は何かしらの読み取りミスが含まれている計算です。人名や日付、金額を1箇所でも間違えると、そこから作成する書面全体の信頼性に関わります。

GPT-4.1への移行後、この精度が99%まで向上しました。100ページの書類で修正が必要な箇所は、おおよそ1ページ分にまで減少しています。

法律文書の「読みにくさ」にも強くなりました

法律文書のOCRが難しいのには理由があります。

まず、縦書きです。判決文や古い契約書には縦書きのものが少なくありません。一般的なOCRは横書きを前提に設計されているため、縦書き文書では精度が著しく落ちることがあります。

次に、段組みです。裁判所書式には2段組みのものがあり、どちらの列を先に読むべきか、段の切れ目はどこか、機械が正しく判断するのは簡単ではありません。

さらに、和暦表記や証拠番号です。「令和6年（ワ）第1234号」「甲第3号証の2」といった法律特有の表記は、一般的なOCRでは誤認識されやすい典型例です。

GPT-4.1はこうした法律文書特有の書式に対する認識力が強化されており、AILEXの法律文書向けOCRプロンプトと組み合わせることで、より正確な読み取りを実現しています。

AILEXのOCRは「3段階方式」

少し技術的な話になりますが、AILEXのOCR処理は3つの段階を踏みます。

最初に、PDFに埋め込まれているテキスト情報をそのまま取り出します。WordやExcelから変換したPDFなど、テキスト選択ができるPDFはこの段階で処理が完了します。AIは使いませんので、一瞬で終わりますし、追加のコストもかかりません。

テキスト情報が埋め込まれていない場合——つまりスキャナで取り込んだPDFや、FAX受信をPDF化したものなどは、次の段階に進みます。ここでGPT-4.1によるAI OCR処理が実行されます。

この仕組みにより、「テキストが取れるPDFは高速・無料で処理し、スキャンPDFだけAIの力を借りる」という効率的な運用が可能です。

OCR精度の向上は、AILEXの全機能に波及します

OCRは、AILEX内のさまざまな機能の「土台」です。

OCRで抽出されたテキストは、AI事件分析の入力データになります。相手方書面のAI分析にも使われます。証拠説明書のAI自動生成でも、OCRテキストをもとに標目や立証趣旨を推定しています。セマンティックサーチ（意味ベースの文書横断検索）も、テキストデータがなければ機能しません。

つまり、OCR精度が上がるということは、AILEXのAI機能全体の精度が底上げされるということです。95%の精度で読み取ったテキストをもとにAIが分析するのと、99%の精度で読み取ったテキストをもとに分析するのとでは、結果の質が変わってきます。

コストは約84%削減、利用者への影響はありません

GPT-4.1はGPT-4と比較して、API利用コストが約84%削減されています。

OCR処理は画像データを大量に送信するため、もともとAPIコストが高くなりがちな処理です。今回のモデル移行により、この負担が大幅に軽減されました。

コスト削減分は、今後のサービス品質向上と新機能開発に充当してまいります。利用者の皆さまの料金プランへの影響はありません。

mints電子提出との連携

2026年5月に民事裁判手続きのIT化が施行され、裁判所への書類提出は「mints」（民事裁判書類電子提出システム）を通じて行うことになります。

mintsに提出するPDFには、テキストレイヤーが含まれていることが求められます。スキャナで取り込んだだけの証拠書類は、そのままでは不十分です。

AILEXでは、OCR処理からmints提出パッケージの生成までをワンストップで対応しています。

書類をアップロードすると、テキストレイヤーのないPDFには自動的にOCRが実行され、そのテキストをもとにAIが証拠説明書を自動生成し、mints準拠の8項目チェックを経て、提出用ZIPパッケージが完成します。

mints完全対応のAI法務SaaSは、現時点で国内にAILEX以外にありません。

守秘義務への配慮

「スキャンした書類をAIに送って大丈夫なの？」

この疑問は当然です。弁護士には守秘義務がありますから、依頼者の書類を外部のAIサービスにそのまま送信するわけにはいきません。

AILEXでは、外部AIへのデータ送信前に、個人情報（氏名・住所・電話番号など）を自動的にマスキングする独自技術を搭載しています。この処理はシステム内部で自動的に行われるため、依頼者への個別の同意取得は不要です。

また、AILEXが利用するすべてのAI API（Claude・GPT-4.1・Perplexity）には「学習利用なし」オプションを適用しており、入力データがAIモデルの再学習に使われることはありません。

使い方

OCR機能は、特別な操作なしでお使いいただけます。

案件にPDFをアップロードすると、テキストレイヤーの有無を自動判定します。テキストが含まれていなければ、「🔍 OCR実行」ボタンが表示されます。ボタンを押すだけで、数秒から十数秒でテキスト抽出が完了します。

mintsパッケージ画面からは、案件内の全PDFを一括でOCR処理することも可能です。

抽出されたテキストは文書に自動保存され、以降はAI分析やセマンティックサーチなど、AILEXのすべての機能で活用されます。

まとめ

今回のアップデートをまとめると、こうなります。

OCRエンジンをGPT-4からGPT-4.1へ全面刷新。テキスト抽出精度が95%から99%に向上。法律文書特有の縦書き・段組み・和暦・証拠番号への対応力が強化。処理コストは84%削減。mints電子提出との連携もさらにスムーズに。

「スキャンしたPDFが読めない」「OCRの精度が悪くて結局手入力している」——そんなストレスが、少しでも軽くなれば幸いです。

AILEXは今後も、弁護士の実務に本当に役立つアップデートを続けてまいります。

AILEX（エーアイレックス）
AI法務支援SaaS — 🔐 検証可能なAIリーガルOS

公式サイト：https://ailex.co.jp
SaaS：https://users.ailex.co.jp
お問い合わせ：info@ailex.co.jp
公式LINE：https://lin.ee/P9JAWZp

AILEX合同会社
〒150-0043 東京都渋谷区道玄坂1-10-8 渋谷道玄坂東急ビル
事業責任者：山川慎太郎
顧問弁護士事務所：弁護士法人えそら

※ AILEXは弁護士の業務効率化を支援するツールであり、弁護士法第72条に基づく法律事務を行うものではありません。AI生成物は参考情報であり、最終的な確認・修正・判断は弁護士が行ってください。
※ 本記事に記載の抽出精度は、当社テスト環境における代表的な法律文書での測定値であり、文書の状態や書式により結果が異なる場合があります。