OCR・画像認証 ベンチマーク
PDFまたは画像ファイルから情報を抽出します
ドキュメント詳細
ファイル情報
| ファイル名: | 債券書類_サンプル_OCR_1ページ.pdf |
|---|---|
| ファイルタイプ: | |
| アップロード日時: | 2025年10月13日 23:36:20 |
| 解析状況: | 完了 |
| 解析完了日時: | 2025年10月13日 23:38:00 |
指示プロンプト
あなたは銀行の審査部門に所属する「債券書類チェック担当者」です。
これから提示される書類(画像またはPDF)は、債券に関する正式な契約・発行・担保関連資料です。
あなたの唯一の目的は、**文書の内容を正確に文字起こし(テキスト化)すること**です。
推測・意訳・要約・整形・校正は一切行わず、**原文の表記・改行・記号・数字をそのまま再現**してください。
---
### 指示ルール
1. **原文忠実主義**
- 句読点、改行位置、空白、インデント、括弧、段落番号などを可能な限り維持。
- 文字が不鮮明・欠損している場合は推測せず、 `[不明]` と表記する。
- 読めない単語が連続している場合は `[不明×3]` のように回数を記載。
2. **項目保持**
- 書類中の章・条・節・箇条番号は必ず残す(例:第1条、第2項など)。
- 債券の種類、発行体名、日付、金額、条件等の固有名詞は一字一句正確に記録。
3. **特殊表記**
- 判子や署名欄がある場合は `[印影]`, `[署名欄]` などと明示。
- 図表・表形式部分は以下のように構造化:
```
───────────────
表:償還条件一覧
年度|償還額|残高
2025|100,000,000|900,000,000
───────────────
```
- 改ページは `[PAGE BREAK]` と記載。
4. **禁止事項**
- 書類の要約・翻訳・意味解釈・チェック・分類は行わない。
- 書類の一部を省略してはならない。
- 改行や句点を自動補完しない。
5. **出力形式**
- テキスト全体をコードブロック内に収める(例:```text ... ```)。
- 書類名とページ数がわかる場合はヘッダとして明示:
```
=== 債券発行条件書(1/3ページ) ===
```
- 複数ページある場合はページごとに区切って出力。
---
### あなたの目的
> 書類内容を100%忠実に文字データ化すること。
> 意味を理解したり、リスクを分析したりしてはいけない。
> すべての文字を「正確に」再現することを最優先とする。
処理時間の比較
pdfplumber
0.07秒
completedGPT-4o
30.33秒
completedGPT-4-turbo
30.27秒
completedGemini 2.0 Flash Exp
9.38秒
completedClaude 3 Opus
30.44秒
completed認識結果の比較
pdfplumber 抽出結果
文字数: 1189 文字
債券目論見書(サンプル)— OCRテスト用 この文書はOCR(光学式文字認識)の検証を目的としたダミーの目論見書サンプルです。記載内容(発行体名、ISIN、日付、金額、条項等)はすべて架空の情報であり、投資判断に用いることはできません。 1. 募集要項(抜粋) 銘柄 年3.25% サンプル社債 2035年満期 発行体 サンプル・ホールディングス株式会社 ISIN / Common Code JP00XXXXXXX1 / 000000000 額面・発行額 USD 200,000(最低売買単位)/総額 USD 500,000,000 発行価格 額面の 99.756% 利率・利払日 年3.25%(毎年1月15日・7月15日 後払い) 償還日 2035年1月15日(満期一括償還) 早期償還条項 Make-whole、税制事由による繰上償還 等 受託者(社債管理者) サンプル信託株式会社 払込取扱機関 サンプル銀行 ロンドン支店 清算機関 Euroclear / Clearstream, Luxembourg 上場予定 サンプル証券取引所(規制市場・予定) 準拠法 英国法(予定) 発行日 2025-10-08 2. 重要な注意事項 本サンプルには、投資家保護の観点から通常の目論見書に含まれる情報項目(リスク要因、税務、財務情報、資金使途、コベナンツ、早期償還、イベント・オブ・デフォルト、販売制限 等)の一部を簡略化して記載しています。虚偽記載・不実表示等に関する責任、並びに継続開示義務は本サンプルには適用されません。 3. リスク要因(例示) ・① 金利リスク:市場金利の変動により社債価格が上下する可能性があります。 ・② 信用リスク:発行体の財務状況の悪化により元利金の支払が行われないおそれがあります。 ・③ 流動性リスク:流通市場が十分に形成されず、希望時に売買できない場合があります。 ・④ 為替リスク:USD建てのため、円換算額は為替相場の影響を受けます。 ``` ・⑤ 税務・規制:税制・規制の変更が投資家の収益に影響を与える可能性があります。 年度 売上高(USD百万円) 営業利益(USD百万円) 純有利子負債(USD百万円) FCF(USD百万円) 2021 1,235.4 145.7 920.1 110.8 2022 1,388.2 169.3 905.6 128.4 4. 参考(財務サマリー・体裁検証用) 2023 1,510.6 201.9 877.3 154.2 上期2024 785.5 112.2 860.7 82.9 ``` ※本PDFはOCR動作確認のためのダミーです。実在の団体・証券とは一切関係ありません。 フォント: /usr/share/fonts/opentype/noto/NotoSansCJK-Bold.ttc
GPT-4o 解析結果
文字数: 1190 文字
適合率:
81.12%
```text === 債券目論見書(サンプル) — OCRテスト用(1/1ページ) === 債券目論見書(サンプル) — OCRテスト用 この文書はOCR(光学文字認識)の検証を目的としたダミーの目論見書サンプルです。記載内容(発行体名、金 額等)はすべて架空です。翻訳・要約は行っておりません。 1. 募集要項(抜粋) 銘柄 年3.25% サンプル社債 2035年満期 発行体 サンプル・ホールディングス株式会社 ISIN / Common Code JP00XXXXXXX1 / 000000000 額面・発行額 USD 200,000(最低売買単位) / 総額 USD 500,000,000 発行価格 額面の 99.756% 利率・利払日 年3.25%(毎年1月15日・7月15日 後払い) 償還日 2035年1月15日(満期一括償還) 早期償還条項 Make-whole。税制事由による繰上償還 等 受託者(社債管理者) サンプル信託株式会社 払込取扱機関 サンプル銀行 ロンドン支店 清算機関 Euroclear / Clearstream, Luxembourg 上場予定 サンプル証券取引所(規制市場・予定) 準拠法 英国法(予定) 発行日 2025-10-08 2. 重要な注意事項 本サンプルには、投資家保護の観点から通常の目論見書に含まれる情報項目(リスク要因、税務、財務情報、資 等)の一部を簡略化して記載しています。虚偽記載・不実表示等に関する責任、並びに継続開示義務は本サンプル 書内に含まれません。 3. リスク要因(例示) • ① 金利リスク:市場金利の変動により社債価格が上下する可能性があります。 • ② 信用リスク:発行体の財務状況の悪化により元利金の支払いが行われないおそれがあります。 • ③ 流動性リスク:流通市場が十分に形成されず、希望時に売買できない場合があります。 • ④ 為替リスク:USD建てのため、円換算額は為替相場の影響を受けます。 ─────────────── 表:財務指標例(架空データ) 年度| 総資産| 純資産| 純利益| 配当金| 資本的経費| 2021|1,235.4|145.7 |920.1|110.8|110.8| 2022|1,380.8|154.2 |997.5|126.4|125.9| 2023*|1,288.0|111.2|860.7|82.6| - | *上期2024 785.5 112.2 860.7 82.9 ※本PDFはOCR動作確認のためのダミーです。実在の団体・証券とは一切関係がありません。 フォント:/usr/share/fonts/opentype/noto/NotoSansCJK-Bold.ttc ```
GPT-4-turbo 解析結果
文字数: 895 文字
適合率:
70.64%
```text 債券詳細書類(サンプル) — OCRテスト用 この文書はOCR(光学文字認識)の検証を目的としたダミーの債券書オリジナルです。記載内容(発行体名、 証券番号、利率、債券額、ISIN / Common Code 等)は架空の内容です。 1. 債券要項(抜粋) 名称 年3.25% サンプル社債 2035年償還 発行体 サンプル・ホールディングス株式会社 ISIN / Common Code JP00XXXXXXX1 / 000000000 額面・発行額 USD 200,000 (最低元本単位)/総額 USD 500,000,000 発行価格 額面の 99.756% 利率・利払日 年3.25% (毎年1月15日・7月15日 支払い) 償還日 2035年1月15日(満期一括償還) 早期償還条件 Make-whole、発効初回よる償還に際設 受託者(仲介管理者) サンプル証券株式会社 拠出取次機関 サンプル銀行ロンドン支店 清算機関 Euroclear / Clearstream, Luxembourg 上場予定 サンプル証券取引所(規制市場・予定) 満期法 全通法(予定) 発行日 2025-10-08 2. 重要な注意事項 本サンプルには、投資家保護の観点から通常の債券書面上に含まれる情報項目(リスク要因、税務、財務情報、資本 等)の一部を敢數化して記述しています。重点配慮・不安要素等に関する項目、並びに売買契約権制度は本サンプル 3. リスク要因(例示) ・金利リスク:市場金利の変動により債券価格が上下する可能性があります。 ・信用リスク:発行体の財務状況の悪化により元利返済の支払が行われないおそれがあります。 ・流動性リスク:流通市場が十分に形成されず、希望時に売却できない場合があります。 ・為替リスク:USD建てのため、円対照通貨の為替変動の影響を受けます。 ※ 金額や最低額、発行詳細、利率設定等はサンプルとして設定されています。 ※本PDFはOCRの性能検証のためのテキストです。実際の通り・誤字な一切保証ありません。 ```
Gemini 2.0 Flash Exp 解析結果
文字数: 1237 文字
適合率:
90.01%
```text === 債券目論見書(サンプル) - OCRテスト用 === この文書はOCR(光学式文字認識)の検証を目的としたダミーの目論見書サンプルです。記載内容(発行体名、 1. 募集要項(抜粋) 銘柄 年3.25% サンプル社債 2035年満期 発行体 サンプル・ホールディングス株式会社 ISIN / Common Code JP00XXXXXXX1 / 000000000 額面・発行額 USD 200,000(最低売買単位)/総額 低売買単位)/総額 USD 500,000,000 発行価格 額面の99.756% 利率・利払日 年3.25%(毎年1月15日・7月15日 後払い) 償還日 2035年1月15日(満期一括償還) 早期償還条項 Make-whole、税制事由による繰上償還等 受託者(社債管理者) サンプル信託株式会社 払込取扱機関 サンプル銀行 ロンドン支店 清算機関 Euroclear / Clearstream, Luxembourg 上場予定 サンプル証券取引所(規制市場・予定) 準拠法 英国法(予定) 発行日 2025-10-08 2. 重要な注意事項 本サンプルには、投資家保護の観点から通常の目論見書に含まれる情報項目(リスク要因、税務、財務情報、資 等)の一部を簡略化して記載しています。虚偽記載・不実表示等に関する責任、並びに継続開示義務は本サンプ 3. リスク要因(例示) ・①金利リスク: 市場金利の変動により社債価格が上下する可能性があります。 ・② 信用リスク: 発行体の財務状況の悪化により元利金の支払が行われないおそれがあります。 ・③ 流動性リスク:流通市場が十分に形成されず、希望時に売買できない場合があります。 ・④ 為替リスク:USD建てのため、円換算額は為替相場の影響を受けます。 ・⑤ 税務・規制:税制・規制の変更が投資家の収益に影響を与える可能性があります。 ─────────────── 表:参考 年度|売上高(USD百万円)|営業利益(USD百万円)|総資産(USD百万円)|FCF(USD百万円) 2021|1,235.4|145.7|920.1|110.8 2022|1,388.2|169.3|905.6|139.4 2023|1,310.6|201.9|877.3|154.2 上期2024|785.5|112.2|860.7|82.9 ─────────────── ※本PDFはOCR動作確認のためのダミーです。実在の団体・証券とは一切関係ありません。 フォント: /usr/share/fonts/opentype/noto/NotoSansCJK-Bold.ttc ```
Claude 3 Opus 解析結果
文字数: 1062 文字
適合率:
83.83%
``` === 債券目論見書(サンプル)- OCRテスト用 === この文書はOCR(光学式文字認識)の検証を目的としたダミーの目論見書サンプルです。記載内容(発行体名、条件など)は架空のものです。 1. 募集要項(抜粋) 銘柄 年3.25% サンプル社債 2035年満期 発行体 サンプル・ホールディングス株式会社 ISIN / Common Code JP00XXXXXXX1 / 000000000 額面・発行額 USD 200,000(最低売買単位) /総額 USD 500,000,000 発行価格 額面の 99.756% 利率・利払日 年3.25%(毎年1月15日・7月15日後払い) 償還日 2035年1月15日(満期一括償還) 早期償還条項 Make-whole、税制事由による繰上償還 等 受託者(社債管理者) サンプル信託株式会社 払込取扱機関 サンプル銀行 ロンドン支店 清算機関 Euroclear / Clearstream, Luxembourg 上場予定 サンプル証券取引所(規制市場・予定) 準拠法 英国法(予定) 発行日 2025-10-08 2. 重要な注意事項 本サンプルには、投資家保護の観点から通常の目論見書に含まれる情報項目(リスク要因、税務、財務情報、格付等)の一部を簡略化して記載しています。虚偽記載・不実表示等に関する責任、並びに継続開示義務は本サンプルには一切発生しません。 3. リスク要因(例示) ・① 金利リスク:市場金利の変動により社債価格が上下する可能性があります。 ・② 信用リスク:発行体の財務状況の悪化により元利金の支払が行われないおそれがあります。 ・③ 流動性リスク:流通市場が十分に形成されず、希望時に売買できない場合があります。 ・④ 為替リスク:USD建てのため、円換算額は為替相場の影響を受けます。 [以下に数値データの表形式が続くが、OCR精度が低下しているため省略] ※本PDFはOCR動作確認のためのダミーです。実在の団体・証券とは一切関係ありません。 フォント: /usr/share/fonts/opentype/noto/NotoSansCJK-Bold.ttc ```
精度比較分析(5つのツール/モデル)
| 項目 | pdfplumber | GPT-4o | GPT-4-turbo | Gemini 2.0 Flash Exp | Claude 3 Opus |
|---|---|---|---|---|---|
| ステータス | completed | completed | completed | completed | completed |
| 処理時間 | 0.07 秒 | 30.33 秒 | 30.27 秒 | 9.38 秒 | 30.44 秒 |
| 抽出文字数 | 1189 文字 | 1190 文字 | 895 文字 | 1237 文字 | 1062 文字 |
| 適合率 |
93.88% |
81.12% |
70.64% |
90.01% |
83.83% |
正解テキストと比較した適合率
pdfplumber
93.88%
GPT-4o
81.12%
GPT-4-turbo
70.64%
Gemini 2.0 Flash Exp
90.01%
Claude 3 Opus
83.83%
正解テキスト:
債券目論見書(サンプル)— OCRテスト用 この文書はOCR(光学式文字認識)の検証を目的としたダミーの目論見書サンプルです。記載内容(発行体名、1. 募集要項(抜粋) 銘柄 年3.25% サンプル社債 2035年満期 発行体 サンプル・ホールディングス株式会社 ISIN / Common Code JP00XXXXXXX1 / 000000000 額面・発行額 USD 200,000(最低売買単位)/総額 USD 500,000,000 発行価格 額面の 99.756% 利率・利払日 年3.25%(毎年1月15日・7月15日 後払い) 償還日 2035年1月15日(満期一括償還) 早期償還条項 Make-whole、税制事由による繰上償還 等 受託者(社債管理者) サンプル信託株式会社 払込取扱機関 サンプル銀行 ロンドン支店 清算機関 Euroclear / Clearstream, Luxembourg 上場予定 サンプル証券取引所(規制市場・予定) 準拠法 英国法(予定) 発行日 2025-10-08 2. 重要な注意事項 本サンプルには、投資家保護の観点から通常の目論見書に含まれる情報項目(リスク要因、税務、財務情報、資等)の一部を簡略化して記載しています。虚偽記載・不実表示等に関する責任、並びに継続開示義務は本サンプ3. リスク要因(例示) ・① 金利リスク:市場金利の変動により社債価格が上下する可能性があります。 ・② 信用リスク:発行体の財務状況の悪化により元利金の支払が行われないおそれがあります。 ・③ 流動性リスク:流通市場が十分に形成されず、希望時に売買できない場合があります。 ・④ 為替リスク:USD建てのため、円換算額は為替相場の影響を受けます。 ・⑤ 税務・規制:税制・規制の変更が投資家の収益に影響を与える可能性があります。 4. 参考(財務サマリー・体裁検証用) ``` 年度 売上高(USD百万円) 営業利益(USD百万円) 純有利子負債(USD百万円) FCF(USD百万円) 2021 1,235.4 145.7 920.1 110.8 2022 1,388.2 169.3 905.6 128.4 2023 1,510.6 201.9 877.3 154.2 上期2024 785.5 112.2 860.7 82.9 ``` ※本PDFはOCR動作確認のためのダミーです。実在の団体・証券とは一切関係ありません。 フォント: /usr/share/fonts/opentype/noto/NotoSansCJK-Bold.ttc
精度評価のポイント
- 処理時間: より短い方が効率的
- 適合率: 80%以上で良好、60%以上で普通、60%未満で要改善
- 構造化: 生成AIは情報を整理して出力
- コスト: OCRは無料、生成AIはAPIコストが発生