こんにちは。AILEX(エーアイレックス)開発チームです。
今回は、AILEXのOCR(光学文字認識)エンジンを最新のGPT-4.1に全面刷新したアップデートについてお伝えします。
「OCRってなに?」という方にも、「うちの事務所にどう関係あるの?」という方にもわかるように書きましたので、少しだけお付き合いください。
そもそもOCRとは
OCR(Optical Character Recognition)は、紙の書類をスキャンした画像から文字を読み取ってテキストデータに変換する技術です。
たとえば、相手方から届いた準備書面をスキャナで取り込んだとします。見た目はPDFですが、中身は「画像」です。文字を選択してコピーすることもできませんし、キーワードで検索することもできません。
ここでOCRが活躍します。画像の中に写っている文字を1文字ずつ認識して、コピーも検索もできるテキストデータに変換してくれるのです。
弁護士の日常にOCRが必要な理由
法律事務所には、毎日のように紙の書類が届きます。
裁判所からの決定書や判決文。相手方代理人からの書面。依頼者が持ち込む契約書や領収書の束。これらをスキャナで取り込んでPDF化するところまではやっている事務所も多いでしょう。
でも、「スキャンしただけのPDF」は、コンピュータから見れば単なる画像の集まりです。
全文検索ができない。AIに読ませられない。証拠説明書を作るときに、いちいち目視で内容を確認して手入力しなければならない。
2026年5月から始まるmintsでの電子提出でも、PDFにテキストレイヤーが含まれていることが求められます。スキャンしただけのPDFでは、mints提出時にも不便が生じます。
つまり、OCRは「あったら便利」ではなく「ないと困る」技術になりつつあるのです。
GPT-4.1で何が変わったのか
AILEXでは従来、OCR処理にOpenAI社のGPT-4を使用していました。今回、これを最新世代のGPT-4.1に全面移行しました。
一番大きな変化は、テキスト抽出精度の向上です。
従来のGPT-4では抽出精度が約95%でした。95%と聞くと十分に思えるかもしれませんが、100ページの裁判記録をOCRにかけると、約5ページ分は何かしらの読み取りミスが含まれている計算です。人名や日付、金額を1箇所でも間違えると、そこから作成する書面全体の信頼性に関わります。
GPT-4.1への移行後、この精度が99%まで向上しました。100ページの書類で修正が必要な箇所は、おおよそ1ページ分にまで減少しています。
法律文書の「読みにくさ」にも強くなりました
法律文書のOCRが難しいのには理由があります。
まず、縦書きです。判決文や古い契約書には縦書きのものが少なくありません。一般的なOCRは横書きを前提に設計されているため、縦書き文書では精度が著しく落ちることがあります。
次に、段組みです。裁判所書式には2段組みのものがあり、どちらの列を先に読むべきか、段の切れ目はどこか、機械が正しく判断するのは簡単ではありません。
さらに、和暦表記や証拠番号です。「令和6年(ワ)第1234号」「甲第3号証の2」といった法律特有の表記は、一般的なOCRでは誤認識されやすい典型例です。
GPT-4.1はこうした法律文書特有の書式に対する認識力が強化されており、AILEXの法律文書向けOCRプロンプトと組み合わせることで、より正確な読み取りを実現しています。
AILEXのOCRは「3段階方式」
少し技術的な話になりますが、AILEXのOCR処理は3つの段階を踏みます。
最初に、PDFに埋め込まれているテキスト情報をそのまま取り出します。WordやExcelから変換したPDFなど、テキスト選択ができるPDFはこの段階で処理が完了します。AIは使いませんので、一瞬で終わりますし、追加のコストもかかりません。
テキスト情報が埋め込まれていない場合——つまりスキャナで取り込んだPDFや、FAX受信をPDF化したものなどは、次の段階に進みます。ここでGPT-4.1によるAI OCR処理が実行されます。
この仕組みにより、「テキストが取れるPDFは高速・無料で処理し、スキャンPDFだけAIの力を借りる」という効率的な運用が可能です。
OCR精度の向上は、AILEXの全機能に波及します
OCRは、AILEX内のさまざまな機能の「土台」です。
OCRで抽出されたテキストは、AI事件分析の入力データになります。相手方書面のAI分析にも使われます。証拠説明書のAI自動生成でも、OCRテキストをもとに標目や立証趣旨を推定しています。セマンティックサーチ(意味ベースの文書横断検索)も、テキストデータがなければ機能しません。
つまり、OCR精度が上がるということは、AILEXのAI機能全体の精度が底上げされるということです。95%の精度で読み取ったテキストをもとにAIが分析するのと、99%の精度で読み取ったテキストをもとに分析するのとでは、結果の質が変わってきます。
コストは約84%削減、利用者への影響はありません
GPT-4.1はGPT-4と比較して、API利用コストが約84%削減されています。
OCR処理は画像データを大量に送信するため、もともとAPIコストが高くなりがちな処理です。今回のモデル移行により、この負担が大幅に軽減されました。
コスト削減分は、今後のサービス品質向上と新機能開発に充当してまいります。利用者の皆さまの料金プランへの影響はありません。
mints電子提出との連携
2026年5月に民事裁判手続きのIT化が施行され、裁判所への書類提出は「mints」(民事裁判書類電子提出システム)を通じて行うことになります。
mintsに提出するPDFには、テキストレイヤーが含まれていることが求められます。スキャナで取り込んだだけの証拠書類は、そのままでは不十分です。
AILEXでは、OCR処理からmints提出パッケージの生成までをワンストップで対応しています。
書類をアップロードすると、テキストレイヤーのないPDFには自動的にOCRが実行され、そのテキストをもとにAIが証拠説明書を自動生成し、mints準拠の8項目チェックを経て、提出用ZIPパッケージが完成します。
mints完全対応のAI法務SaaSは、現時点で国内にAILEX以外にありません。
守秘義務への配慮
「スキャンした書類をAIに送って大丈夫なの?」
この疑問は当然です。弁護士には守秘義務がありますから、依頼者の書類を外部のAIサービスにそのまま送信するわけにはいきません。
AILEXでは、外部AIへのデータ送信前に、個人情報(氏名・住所・電話番号など)を自動的にマスキングする独自技術を搭載しています。この処理はシステム内部で自動的に行われるため、依頼者への個別の同意取得は不要です。
また、AILEXが利用するすべてのAI API(Claude・GPT-4.1・Perplexity)には「学習利用なし」オプションを適用しており、入力データがAIモデルの再学習に使われることはありません。
使い方
OCR機能は、特別な操作なしでお使いいただけます。
案件にPDFをアップロードすると、テキストレイヤーの有無を自動判定します。テキストが含まれていなければ、「🔍 OCR実行」ボタンが表示されます。ボタンを押すだけで、数秒から十数秒でテキスト抽出が完了します。
mintsパッケージ画面からは、案件内の全PDFを一括でOCR処理することも可能です。
抽出されたテキストは文書に自動保存され、以降はAI分析やセマンティックサーチなど、AILEXのすべての機能で活用されます。
まとめ
今回のアップデートをまとめると、こうなります。
OCRエンジンをGPT-4からGPT-4.1へ全面刷新。テキスト抽出精度が95%から99%に向上。法律文書特有の縦書き・段組み・和暦・証拠番号への対応力が強化。処理コストは84%削減。mints電子提出との連携もさらにスムーズに。
「スキャンしたPDFが読めない」「OCRの精度が悪くて結局手入力している」——そんなストレスが、少しでも軽くなれば幸いです。
AILEXは今後も、弁護士の実務に本当に役立つアップデートを続けてまいります。
AILEX(エーアイレックス)
AI法務支援SaaS — 🔐 検証可能なAIリーガルOS
公式サイト:https://ailex.co.jp
SaaS:https://users.ailex.co.jp
お問い合わせ:info@ailex.co.jp
公式LINE:https://lin.ee/P9JAWZp
AILEX合同会社
〒150-0043 東京都渋谷区道玄坂1-10-8 渋谷道玄坂東急ビル
事業責任者:山川 慎太郎
顧問弁護士事務所:弁護士法人えそら
※ AILEXは弁護士の業務効率化を支援するツールであり、弁護士法第72条に基づく法律事務を行うものではありません。AI生成物は参考情報であり、最終的な確認・修正・判断は弁護士が行ってください。
※ 本記事に記載の抽出精度は、当社テスト環境における代表的な法律文書での測定値であり、文書の状態や書式により結果が異なる場合があります。
