スキャンPDFの文字、ちゃんと読めていますか? ——OCRエンジンを最新GPT-4.1/GPT5に全面刷新しました

こんにちは。AILEX(エーアイレックス)開発チームです。

今回は、AILEXのOCR(光学文字認識)エンジンを最新のGPT-4.1に全面刷新したアップデートについてお伝えします。

「OCRってなに?」という方にも、「うちの事務所にどう関係あるの?」という方にもわかるように書きましたので、少しだけお付き合いください。

そもそもOCRとは

OCR(Optical Character Recognition)は、紙の書類をスキャンした画像から文字を読み取ってテキストデータに変換する技術です。

たとえば、相手方から届いた準備書面をスキャナで取り込んだとします。見た目はPDFですが、中身は「画像」です。文字を選択してコピーすることもできませんし、キーワードで検索することもできません。

ここでOCRが活躍します。画像の中に写っている文字を1文字ずつ認識して、コピーも検索もできるテキストデータに変換してくれるのです。

弁護士の日常にOCRが必要な理由

法律事務所には、毎日のように紙の書類が届きます。

裁判所からの決定書や判決文。相手方代理人からの書面。依頼者が持ち込む契約書や領収書の束。これらをスキャナで取り込んでPDF化するところまではやっている事務所も多いでしょう。

でも、「スキャンしただけのPDF」は、コンピュータから見れば単なる画像の集まりです。

全文検索ができない。AIに読ませられない。証拠説明書を作るときに、いちいち目視で内容を確認して手入力しなければならない。

2026年5月から始まるmintsでの電子提出でも、PDFにテキストレイヤーが含まれていることが求められます。スキャンしただけのPDFでは、mints提出時にも不便が生じます。

つまり、OCRは「あったら便利」ではなく「ないと困る」技術になりつつあるのです。

GPT-4.1で何が変わったのか

AILEXでは従来、OCR処理にOpenAI社のGPT-4を使用していました。今回、これを最新世代のGPT-4.1に全面移行しました。

一番大きな変化は、テキスト抽出精度の向上です。

従来のGPT-4では抽出精度が約95%でした。95%と聞くと十分に思えるかもしれませんが、100ページの裁判記録をOCRにかけると、約5ページ分は何かしらの読み取りミスが含まれている計算です。人名や日付、金額を1箇所でも間違えると、そこから作成する書面全体の信頼性に関わります。

GPT-4.1への移行後、この精度が99%まで向上しました。100ページの書類で修正が必要な箇所は、おおよそ1ページ分にまで減少しています。

法律文書の「読みにくさ」にも強くなりました

法律文書のOCRが難しいのには理由があります。

まず、縦書きです。判決文や古い契約書には縦書きのものが少なくありません。一般的なOCRは横書きを前提に設計されているため、縦書き文書では精度が著しく落ちることがあります。

次に、段組みです。裁判所書式には2段組みのものがあり、どちらの列を先に読むべきか、段の切れ目はどこか、機械が正しく判断するのは簡単ではありません。

さらに、和暦表記や証拠番号です。「令和6年(ワ)第1234号」「甲第3号証の2」といった法律特有の表記は、一般的なOCRでは誤認識されやすい典型例です。

GPT-4.1はこうした法律文書特有の書式に対する認識力が強化されており、AILEXの法律文書向けOCRプロンプトと組み合わせることで、より正確な読み取りを実現しています。

AILEXのOCRは「3段階方式」

少し技術的な話になりますが、AILEXのOCR処理は3つの段階を踏みます。

最初に、PDFに埋め込まれているテキスト情報をそのまま取り出します。WordやExcelから変換したPDFなど、テキスト選択ができるPDFはこの段階で処理が完了します。AIは使いませんので、一瞬で終わりますし、追加のコストもかかりません。

テキスト情報が埋め込まれていない場合——つまりスキャナで取り込んだPDFや、FAX受信をPDF化したものなどは、次の段階に進みます。ここでGPT-4.1によるAI OCR処理が実行されます。

この仕組みにより、「テキストが取れるPDFは高速・無料で処理し、スキャンPDFだけAIの力を借りる」という効率的な運用が可能です。

OCR精度の向上は、AILEXの全機能に波及します

OCRは、AILEX内のさまざまな機能の「土台」です。

OCRで抽出されたテキストは、AI事件分析の入力データになります。相手方書面のAI分析にも使われます。証拠説明書のAI自動生成でも、OCRテキストをもとに標目や立証趣旨を推定しています。セマンティックサーチ(意味ベースの文書横断検索)も、テキストデータがなければ機能しません。

つまり、OCR精度が上がるということは、AILEXのAI機能全体の精度が底上げされるということです。95%の精度で読み取ったテキストをもとにAIが分析するのと、99%の精度で読み取ったテキストをもとに分析するのとでは、結果の質が変わってきます。

コストは約84%削減、利用者への影響はありません

GPT-4.1はGPT-4と比較して、API利用コストが約84%削減されています。

OCR処理は画像データを大量に送信するため、もともとAPIコストが高くなりがちな処理です。今回のモデル移行により、この負担が大幅に軽減されました。

コスト削減分は、今後のサービス品質向上と新機能開発に充当してまいります。利用者の皆さまの料金プランへの影響はありません。

mints電子提出との連携

2026年5月に民事裁判手続きのIT化が施行され、裁判所への書類提出は「mints」(民事裁判書類電子提出システム)を通じて行うことになります。

mintsに提出するPDFには、テキストレイヤーが含まれていることが求められます。スキャナで取り込んだだけの証拠書類は、そのままでは不十分です。

AILEXでは、OCR処理からmints提出パッケージの生成までをワンストップで対応しています。

書類をアップロードすると、テキストレイヤーのないPDFには自動的にOCRが実行され、そのテキストをもとにAIが証拠説明書を自動生成し、mints準拠の8項目チェックを経て、提出用ZIPパッケージが完成します。

mints完全対応のAI法務SaaSは、現時点で国内にAILEX以外にありません。

守秘義務への配慮

「スキャンした書類をAIに送って大丈夫なの?」

この疑問は当然です。弁護士には守秘義務がありますから、依頼者の書類を外部のAIサービスにそのまま送信するわけにはいきません。

AILEXでは、外部AIへのデータ送信前に、個人情報(氏名・住所・電話番号など)を自動的にマスキングする独自技術を搭載しています。この処理はシステム内部で自動的に行われるため、依頼者への個別の同意取得は不要です。

また、AILEXが利用するすべてのAI API(Claude・GPT-4.1・Perplexity)には「学習利用なし」オプションを適用しており、入力データがAIモデルの再学習に使われることはありません。

使い方

OCR機能は、特別な操作なしでお使いいただけます。

案件にPDFをアップロードすると、テキストレイヤーの有無を自動判定します。テキストが含まれていなければ、「🔍 OCR実行」ボタンが表示されます。ボタンを押すだけで、数秒から十数秒でテキスト抽出が完了します。

mintsパッケージ画面からは、案件内の全PDFを一括でOCR処理することも可能です。

抽出されたテキストは文書に自動保存され、以降はAI分析やセマンティックサーチなど、AILEXのすべての機能で活用されます。

まとめ

今回のアップデートをまとめると、こうなります。

OCRエンジンをGPT-4からGPT-4.1へ全面刷新。テキスト抽出精度が95%から99%に向上。法律文書特有の縦書き・段組み・和暦・証拠番号への対応力が強化。処理コストは84%削減。mints電子提出との連携もさらにスムーズに。

「スキャンしたPDFが読めない」「OCRの精度が悪くて結局手入力している」——そんなストレスが、少しでも軽くなれば幸いです。

AILEXは今後も、弁護士の実務に本当に役立つアップデートを続けてまいります。


AILEX(エーアイレックス)
AI法務支援SaaS — 🔐 検証可能なAIリーガルOS

公式サイト:https://ailex.co.jp
SaaS:https://users.ailex.co.jp
お問い合わせ:info@ailex.co.jp
公式LINE:https://lin.ee/P9JAWZp

AILEX合同会社
〒150-0043 東京都渋谷区道玄坂1-10-8 渋谷道玄坂東急ビル
事業責任者:山川 慎太郎
顧問弁護士事務所:弁護士法人えそら

※ AILEXは弁護士の業務効率化を支援するツールであり、弁護士法第72条に基づく法律事務を行うものではありません。AI生成物は参考情報であり、最終的な確認・修正・判断は弁護士が行ってください。
※ 本記事に記載の抽出精度は、当社テスト環境における代表的な法律文書での測定値であり、文書の状態や書式により結果が異なる場合があります。

求人
engage
最新記事
おすすめ
人気記事
  1. 【機能追加】債務整理の申立準備がさらに簡単に — AIワークフローガイド機能をリリース

  2. AILEX独自調査:mints義務化と弁護士の準備状況に関する包括的実態調査レポート

  3. スキャンPDFの文字、ちゃんと読めていますか? ——OCRエンジンを最新GPT-4.1/GPT5に全面刷新しました

  4. 【AILEX新機能】AILEX、弁護士の声をもとに案件管理カテゴリを29種類へ大幅拡充。企業法務・専門分野16カテゴリを新設、各カテゴリ専用のフェーズ管理を搭載。

  5. 【AILEX新機能】「相談したのに連絡が来ない」をゼロに。AILEXに受任パイプライン管理3機能を追加しました

  6. 弁護士が「本当に困っていること」から生まれた5つの新機能——マネロン対策(KYC/AML)チェックリストなどAILEXが現場の声を形にした理由

  7. 【AILEX新機能】「報酬の記録が、いちばん面倒」を解決する ── AILEX タイムチャージ管理 5つの新機能

  8. AIの「判断」を暗号で証明する ― IETF Internet-Draft VAP/LAP -02 で何が変わったのか

  9. 「報告が遅れてトラブルに…」弁護士の声から生まれた、経過報告リマインダー機能

  10. AILEX、24時間体制のAIバグ・品質・セキュリティチェックを実施開始 — Claude Coworkによる品質の全面検証

  1. 【新機能追加】AILEXに相談管理機能を追加。統計情報も表示可能。紛争予防に。

  2. スキャンPDFの文字、ちゃんと読めていますか? ——OCRエンジンを最新GPT-4.1/GPT5に全面刷新しました

  3. AILEXが採用する多層的コンプライアンス設計の全容

  4. 【新機能追加】事件の全体像を、30秒で可視化。AI事件分析 — 関係図・請求構造・時系列・弱点をワンクリックで。

  5. 【AILEX活用ガイド】請求書機能の使い方 — 報酬記録から送付まで、5分で完了

  6. 弁護士が「本当に困っていること」から生まれた5つの新機能——マネロン対策(KYC/AML)チェックリストなどAILEXが現場の声を形にした理由

  7. 【新機能追加】AILEX【2026年5月義務化】mints提出をAIが全面サポート — AILEXの6つのAI強化機能を徹底解説

  8. 事件管理の基本 — AILEXで案件情報を一元管理する方法

  9. 【2026年5月義務化】mints完全対応13機能を徹底解説 — AILEXが実現する「電子提出の全自動化」

  10. 【AILEX新機能】弁護士の「今、本当に困っていること」から生まれた懲戒請求対応など5つの新機能

  1. 【徹底解説】mintsの次に来る「TreeeS」とは何か — 30億円超の開発遅延、二重移行問題、そしてAILEXの対応戦略

  2. 【2026年最新】ChatGPTに依頼者の個人情報を入力していませんか? —— 世界7か国の規制動向から読み解く、弁護士のAI利用リスクと対策

  3. 「使いにくい」を、翌日には直す — AILEX に管理者直通ホットラインを設置しました

  4. 【AILEX新機能】mints提出の「あと一歩」を埋める4つの新機能

  5. 【mints完全対応】証拠番号スタンプ・画像PDF変換・準拠チェック — AILEXのPDF出力エンジンを大幅強化

  6. 「事務員を雇うか、AILEXを入れるか」── 3人の弁護士が選んだ答え

  7. 【施行まで残り3か月】mints実務を完全サポート — AILEX新機能「送達期限管理・手数料計算・当事者CSV・提出ステータス」を徹底解説

  8. AILEX独自調査:mints義務化と弁護士の準備状況に関する包括的実態調査レポート

  9. draft-ailex-vap-legal-ai-provenance-01 改訂報告書

  10. スキャンPDFの文字、ちゃんと読めていますか? ——OCRエンジンを最新GPT-4.1/GPT5に全面刷新しました

AILEXにログイン

関連記事