リコー、生成AIの推論性能を評価する独自ベンチマークツール「JDocQA Reasoning Benchmark」を無償公開

最終更新日:2026/06/15

リコー AI推論評価ツール無償公開

リコーは図表を含む日本語業務文書のAI推論性能を評価するベンチマークツール「JDocQA Reasoning Benchmark」を開発しました。さらに本ベンチマークを無償公開し、AI開発基盤の高度化に貢献します。

このニュースのポイント

リコーが、図表を含む業務文書の推論性能を評価するベンチマークツール「JDocQA Reasoning Benchmark」を開発、無償公開
計算や比較、傾向分析など多段階推論の評価に対応し、生成AIの高度化を支援
20種類以上の図表を用いた全1,287問のQAデータを収録し、生成AIの高度化を支援

株式会社リコーは、図表を含む日本語ドキュメント理解におけるAIの推論性能を評価するベンチマークツール「JDocQA Reasoning Benchmark」を開発し、無償公開しました。

本件は、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構が実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC」基盤モデル開発第3期の一環として実施されたものです。

本ベンチマークは、情報抽出だけで終わらず、計算・比較・傾向分析など複数段階の推論能力を図表を含む日本語業務文書に対して評価できる点が特徴です。無償公開することによって、生成AIの実用化に向けた技術基盤の高度化に寄与します。

近年、生成AIの普及に伴い、AIが複雑な情報を含む非構造化データを正確に理解し、論理的に推論する能力が重視されています。しかし、日本語ドキュメント特有の図表を含む情報を正確に解析・評価することは依然として難しい課題です。

こうした背景から、同社はGENIAC第3期において、図表を含む多様なドキュメントを高精度に読み取り推論できるマルチモーダル大規模言語モデル「Qwen3-VL-Ricoh-32B-20260227」、および「Qwen3-VL-Ricoh-8B-20260227」を開発し、その性能を適切に評価するための基盤整備として、本ベンチマークを整備しました。

「JDocQA Reasoning Benchmark」の特徴は、棒グラフや折れ線グラフ、財務諸表、路線図など20種類以上の図表を対象に図表の内容に特化した全1,287問のQAデータを収録しています。情報抽出や計算、比較、補完などのタスクを通じて、読み取り能力と推論能力の多角的な評価が可能です。

本データセットは、評価コードをApache License 2.0、QAアノテーション部分をCC BY-SA 4.0で公開しており、商用・非商用を問わず幅広く利用できます。

リコーは、本ベンチマークの無償公開を通じて、生成AIの推論性能向上と実用化を支援し、企業におけるデータ活用の高度化に貢献していくと述べています。

出典：株式会社リコー