リコー GENIACでマルチモーダルLLMの基本モデルを開発完了 図表を含む文書に対応 7月に無償公開

リコー 2025年6月10日発表


 リコーは、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」において、マルチモーダル大規模言語モデル(LMM)の開発に取り組んできた。このほど、リコーは、日本企業の図表を含むドキュメントの読み取りに対応したLMMの基本モデルの開発を完了したと、6月10日に発表した。
 視覚とテキストの両方の情報を活用する日本語の質問応答データセットであるJDocQAおよび独自ベンチマークツールによる検証の結果、他のモデルと比較しても優れた性能を示すことが確認された(2025年4月24日時点)。リコーは、7月29日から開催される画像の認識・理解シンポジウム 「MIRU2025」にて論文を発表し、本基本モデルおよび独自に開発したベンチマークツールを無償で公開する。

 LMMとは、テキスト・画像・音声・動画など複数の種類のデータを同時に処理できるAI技術のことである。
 企業内で蓄積されるドキュメントには、テキストだけでなく、図や表組、画像なども含まれている。既存のLLM/LMMでは、きめ細かな画像認識を必要とするビジネス文書の読解精度に課題があり、リコーはGENIACにおいて、日本企業で活用できるLMMの開発に取り組んでいた。

 なお、今回の取り組みにおいて、基本モデルをチューニングして個社の業務に合わせて精度を向上させる手法も確立した。具体的には、損害保険ジャパン(損保ジャパン)が保有する保険の引受規定が記載された図表などを含むマニュアルを用い、同社の保険業務に対応するように学習(ファインチューニング)を行ったプライベートなモデルは、基本モデルに比べて顕著に性能が向上した。今後、同社がトライアル運用する保険業務に関する規定、マニュアル、Q&Aデータなどを学習させ、社内外からの照会内容に対して最適な回答案を自動生成するシステム「おしそんLLM」に適用を検討していく予定である。