リコー 生成AIの推論性能を測る独自ベンチマークを無償公開
リコー 2026年5月29日発表
リコーは、図表を含む日本語ドキュメント理解におけるAIの推論(リーズニング)性能を評価するベンチマークツール「JDocQA Reasoning Benchmark」を開発し、5月29日より無償公開した。
本件は、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」基盤モデル開発第3期における取り組みの一環である。
本ベンチマークは、図表を含む日本語業務文書に対して、単なる情報抽出にとどまらず、計算・比較・傾向分析など複数段階の推論能力を評価できる点が特徴である。リコーは、本ベンチマークを無償公開することで、生成AIの実用化に向けた技術基盤の高度化に寄与する。
■「JDocQA Reasoning Benchmark」の特徴
(1) 図表理解と多段階推論に特化した独自QAを新規付与
視覚とテキストの両方の情報を活用する日本語の質問応答データセットであるJDocQAのテスト画像のうち、棒グラフ・折れ線グラフ・財務諸表・路線図など20種類以上の図表を含むサブセットを対象に、リコーが独自に一問一答形式のQAアノテーションを新規で付与した。全1,287問で構成している。QAは図表に含まれる内容に関する質問に限定し、以下の多様なタスクを設計することで、図表の読み取り能力と推論能力の多角的な評価が可能である。
抽出:図表やフローに示された情報をそのまま取り出す
計算:抽出値をもとに四則演算・比率・統計的集約などの数値処理を行う
比較:複数の値や要素を対比し関係性を明らかにする
補完:欠落データを既存要素から推定・再構成する
(2) オープンソースでの公開
本データセットは、評価コードをApache License 2.0、QAアノテーション部分をCC BY-SA 4.0で公開しており、商用・非商用を問わず幅広く利用できる。

