スキャンPDFの文字、ちゃんと読めていますか? ——OCRエンジンを最新GPT-4.1/GPT5に全面刷新しました

こんにちは。AILEX(エーアイレックス)開発チームです。

今回は、AILEXのOCR(光学文字認識)エンジンを最新のGPT-4.1に全面刷新したアップデートについてお伝えします。

「OCRってなに?」という方にも、「うちの事務所にどう関係あるの?」という方にもわかるように書きましたので、少しだけお付き合いください。

そもそもOCRとは

OCR(Optical Character Recognition)は、紙の書類をスキャンした画像から文字を読み取ってテキストデータに変換する技術です。

たとえば、相手方から届いた準備書面をスキャナで取り込んだとします。見た目はPDFですが、中身は「画像」です。文字を選択してコピーすることもできませんし、キーワードで検索することもできません。

ここでOCRが活躍します。画像の中に写っている文字を1文字ずつ認識して、コピーも検索もできるテキストデータに変換してくれるのです。

弁護士の日常にOCRが必要な理由

法律事務所には、毎日のように紙の書類が届きます。

裁判所からの決定書や判決文。相手方代理人からの書面。依頼者が持ち込む契約書や領収書の束。これらをスキャナで取り込んでPDF化するところまではやっている事務所も多いでしょう。

でも、「スキャンしただけのPDF」は、コンピュータから見れば単なる画像の集まりです。

全文検索ができない。AIに読ませられない。証拠説明書を作るときに、いちいち目視で内容を確認して手入力しなければならない。

2026年5月から始まるmintsでの電子提出でも、PDFにテキストレイヤーが含まれていることが求められます。スキャンしただけのPDFでは、mints提出時にも不便が生じます。

つまり、OCRは「あったら便利」ではなく「ないと困る」技術になりつつあるのです。

GPT-4.1で何が変わったのか

AILEXでは従来、OCR処理にOpenAI社のGPT-4を使用していました。今回、これを最新世代のGPT-4.1に全面移行しました。

一番大きな変化は、テキスト抽出精度の向上です。

従来のGPT-4では抽出精度が約95%でした。95%と聞くと十分に思えるかもしれませんが、100ページの裁判記録をOCRにかけると、約5ページ分は何かしらの読み取りミスが含まれている計算です。人名や日付、金額を1箇所でも間違えると、そこから作成する書面全体の信頼性に関わります。

GPT-4.1への移行後、この精度が99%まで向上しました。100ページの書類で修正が必要な箇所は、おおよそ1ページ分にまで減少しています。

法律文書の「読みにくさ」にも強くなりました

法律文書のOCRが難しいのには理由があります。

まず、縦書きです。判決文や古い契約書には縦書きのものが少なくありません。一般的なOCRは横書きを前提に設計されているため、縦書き文書では精度が著しく落ちることがあります。

次に、段組みです。裁判所書式には2段組みのものがあり、どちらの列を先に読むべきか、段の切れ目はどこか、機械が正しく判断するのは簡単ではありません。

さらに、和暦表記や証拠番号です。「令和6年(ワ)第1234号」「甲第3号証の2」といった法律特有の表記は、一般的なOCRでは誤認識されやすい典型例です。

GPT-4.1はこうした法律文書特有の書式に対する認識力が強化されており、AILEXの法律文書向けOCRプロンプトと組み合わせることで、より正確な読み取りを実現しています。

AILEXのOCRは「3段階方式」

少し技術的な話になりますが、AILEXのOCR処理は3つの段階を踏みます。

最初に、PDFに埋め込まれているテキスト情報をそのまま取り出します。WordやExcelから変換したPDFなど、テキスト選択ができるPDFはこの段階で処理が完了します。AIは使いませんので、一瞬で終わりますし、追加のコストもかかりません。

テキスト情報が埋め込まれていない場合——つまりスキャナで取り込んだPDFや、FAX受信をPDF化したものなどは、次の段階に進みます。ここでGPT-4.1によるAI OCR処理が実行されます。

この仕組みにより、「テキストが取れるPDFは高速・無料で処理し、スキャンPDFだけAIの力を借りる」という効率的な運用が可能です。

OCR精度の向上は、AILEXの全機能に波及します

OCRは、AILEX内のさまざまな機能の「土台」です。

OCRで抽出されたテキストは、AI事件分析の入力データになります。相手方書面のAI分析にも使われます。証拠説明書のAI自動生成でも、OCRテキストをもとに標目や立証趣旨を推定しています。セマンティックサーチ(意味ベースの文書横断検索)も、テキストデータがなければ機能しません。

つまり、OCR精度が上がるということは、AILEXのAI機能全体の精度が底上げされるということです。95%の精度で読み取ったテキストをもとにAIが分析するのと、99%の精度で読み取ったテキストをもとに分析するのとでは、結果の質が変わってきます。

コストは約84%削減、利用者への影響はありません

GPT-4.1はGPT-4と比較して、API利用コストが約84%削減されています。

OCR処理は画像データを大量に送信するため、もともとAPIコストが高くなりがちな処理です。今回のモデル移行により、この負担が大幅に軽減されました。

コスト削減分は、今後のサービス品質向上と新機能開発に充当してまいります。利用者の皆さまの料金プランへの影響はありません。

mints電子提出との連携

2026年5月に民事裁判手続きのIT化が施行され、裁判所への書類提出は「mints」(民事裁判書類電子提出システム)を通じて行うことになります。

mintsに提出するPDFには、テキストレイヤーが含まれていることが求められます。スキャナで取り込んだだけの証拠書類は、そのままでは不十分です。

AILEXでは、OCR処理からmints提出パッケージの生成までをワンストップで対応しています。

書類をアップロードすると、テキストレイヤーのないPDFには自動的にOCRが実行され、そのテキストをもとにAIが証拠説明書を自動生成し、mints準拠の8項目チェックを経て、提出用ZIPパッケージが完成します。

mints完全対応のAI法務SaaSは、現時点で国内にAILEX以外にありません。

守秘義務への配慮

「スキャンした書類をAIに送って大丈夫なの?」

この疑問は当然です。弁護士には守秘義務がありますから、依頼者の書類を外部のAIサービスにそのまま送信するわけにはいきません。

AILEXでは、外部AIへのデータ送信前に、個人情報(氏名・住所・電話番号など)を自動的にマスキングする独自技術を搭載しています。この処理はシステム内部で自動的に行われるため、依頼者への個別の同意取得は不要です。

また、AILEXが利用するすべてのAI API(Claude・GPT-4.1・Perplexity)には「学習利用なし」オプションを適用しており、入力データがAIモデルの再学習に使われることはありません。

使い方

OCR機能は、特別な操作なしでお使いいただけます。

案件にPDFをアップロードすると、テキストレイヤーの有無を自動判定します。テキストが含まれていなければ、「🔍 OCR実行」ボタンが表示されます。ボタンを押すだけで、数秒から十数秒でテキスト抽出が完了します。

mintsパッケージ画面からは、案件内の全PDFを一括でOCR処理することも可能です。

抽出されたテキストは文書に自動保存され、以降はAI分析やセマンティックサーチなど、AILEXのすべての機能で活用されます。

まとめ

今回のアップデートをまとめると、こうなります。

OCRエンジンをGPT-4からGPT-4.1へ全面刷新。テキスト抽出精度が95%から99%に向上。法律文書特有の縦書き・段組み・和暦・証拠番号への対応力が強化。処理コストは84%削減。mints電子提出との連携もさらにスムーズに。

「スキャンしたPDFが読めない」「OCRの精度が悪くて結局手入力している」——そんなストレスが、少しでも軽くなれば幸いです。

AILEXは今後も、弁護士の実務に本当に役立つアップデートを続けてまいります。


AILEX(エーアイレックス)
AI法務支援SaaS — 🔐 検証可能なAIリーガルOS

公式サイト:https://ailex.co.jp
SaaS:https://users.ailex.co.jp
お問い合わせ:info@ailex.co.jp
公式LINE:https://lin.ee/P9JAWZp

AILEX合同会社
〒150-0043 東京都渋谷区道玄坂1-10-8 渋谷道玄坂東急ビル
事業責任者:山川 慎太郎
顧問弁護士事務所:弁護士法人えそら

※ AILEXは弁護士の業務効率化を支援するツールであり、弁護士法第72条に基づく法律事務を行うものではありません。AI生成物は参考情報であり、最終的な確認・修正・判断は弁護士が行ってください。
※ 本記事に記載の抽出精度は、当社テスト環境における代表的な法律文書での測定値であり、文書の状態や書式により結果が異なる場合があります。

求人
engage
最新記事
おすすめ
人気記事
  1. 【AILEX新機能】AI法律相談チャットにPDF・画像・Word添付機能を実装 — 資料を読み込ませた相談が可能に

  2. 【AILEX新機能】業務リスクを先回り検知する「プロアクティブAIアラート」と相談受付AI自動分析機能を実装 — mints義務化まで56日、弁護士の「見落としゼロ」を支援

  3. 【AILEX新機能】事務員の事件情報編集権限を開放。弁護士と事務員の役割分担に対応し、事務所チーム機能を拡充。

  4. 【AILEX新機能】控訴審対応を大幅強化。当事者呼称の自動切替・控訴審専用AIテンプレート6種・AI生成量1.5倍を実装。

  5. AI法務SaaS「AILEX」、AI利用統計ダッシュボードを強化~ どのAIモデルが何回・何トークン使われたかを可視化し、法律事務所のAIガバナンスを支援 ~

  6. AI法務SaaS「AILEX」、交通事故・示談交渉の案件管理に「依頼者側保険会社」フィールドを追加。保険代理人業務を行う法律事務所の実務フローに対応、当事者情報の一元管理を強化。

  7. 「弁護士と事務員の画面が連動しない」を解消しました — 事務所チーム機能のご紹介

  8. mintsに提出するPDF、ちゃんと開けますか? — AILEX PDF生成エンジン全面刷新の裏側

  9. 第79期司法修習生が直面する「2つの歴史的変化」— mints義務化とAI時代の実務をどう乗り越えるか

  10. 弁護士のためのAIエージェント完全ガイド — 2026年、法律事務所の業務はどう変わるのか

  1. AILEXの民事裁判IT化(2026年6月完全施行)への対応強化ロードマップ

  2. ファクトチェック(法務チェックAI)でAI回答の正確性を検証する方法

  3. 【AILEX新機能】弁護士の「今、本当に困っていること」から生まれた懲戒請求対応など5つの新機能

  4. 【AILEX新機能】受任したら30秒 — 委任契約書AIクイック生成と着手金請求書の自動連動

  5. 【新機能追加】AILEXに相談管理機能を追加。統計情報も表示可能。紛争予防に。

  6. スキャンPDFの文字、ちゃんと読めていますか? ——OCRエンジンを最新GPT-4.1/GPT5に全面刷新しました

  7. 日弁連情報セキュリティ規程とAILEX—— 2024年施行の新規程に、弁護士向けAI SaaSはどう応えるか ——

  8. 【AILEX新機能】控訴審対応を大幅強化。当事者呼称の自動切替・控訴審専用AIテンプレート6種・AI生成量1.5倍を実装。

  9. 【AILEX新機能】AILEX、弁護士の声をもとに案件管理カテゴリを29種類へ大幅拡充。企業法務・専門分野16カテゴリを新設、各カテゴリ専用のフェーズ管理を搭載。

  10. AILEX(エーアイレックス)完全ガイド — 弁護士のための統合型AI法務プラットフォーム

  1. 【徹底解説】mintsの次に来る「TreeeS」とは何か — 30億円超の開発遅延、二重移行問題、そしてAILEXの対応戦略

  2. 弁護士のためのAIエージェント完全ガイド — 2026年、法律事務所の業務はどう変わるのか

  3. 第79期司法修習生が直面する「2つの歴史的変化」— mints義務化とAI時代の実務をどう乗り越えるか

  4. 【mints完全対応】証拠番号スタンプ・画像PDF変換・準拠チェック — AILEXのPDF出力エンジンを大幅強化

  5. 【2026年5月義務化】mints完全対応13機能を徹底解説 — AILEXが実現する「電子提出の全自動化」

  6. 【AILEX新機能】控訴審対応を大幅強化。当事者呼称の自動切替・控訴審専用AIテンプレート6種・AI生成量1.5倍を実装。

  7. AILEXの民事裁判IT化(2026年6月完全施行)への対応強化ロードマップ

  8. 【新機能追加】事件の全体像を、30秒で可視化。AI事件分析 — 関係図・請求構造・時系列・弱点をワンクリックで。

  9. 【AILEX新機能】事務員の事件情報編集権限を開放。弁護士と事務員の役割分担に対応し、事務所チーム機能を拡充。

  10. 【2026年最新】ChatGPTに依頼者の個人情報を入力していませんか? —— 世界7か国の規制動向から読み解く、弁護士のAI利用リスクと対策

AILEXにログイン

関連記事