リコー 「Qwen2.5-VL-32B-Instruct」ベースのマルチモーダルLLMを開発 図表を含む企業内文書の高度な利活用に
リコー 2026年1月8日発表
リコーは、中国のアリババクラウドが開発・提供する大規模言語モデル(LLM)ファミリーの「Qwen2.5-VL-32B-Instruct」をベースに、日本企業の図表を含むドキュメントの読み取りに対応したマルチモーダル大規模言語モデル(LMM)を開発した。
リコーは、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」第2期において、LMMの開発に取り組み、独自開発した700億パラメータの基本モデルを無償公開している。
このたびリコーは、顧客から基本モデルに対して寄せられたフィードバックをもとに、サービング(実行可能な状態で提供する)環境の構築の容易さや利活用のしやすさを目指し、よりコンパクトで高性能、かつアプリケーションとの親和性の高いLMMを開発した。合わせて、4bit量子化モデルも提供する。
本モデルの開発にあたっては、文字、円グラフ、棒グラフ、フローチャートなど、ビジネス文書で活用される視覚データ約60万枚を自社で開発したチューニングデータとして用い、LMMに学習させている。視覚情報とテキスト情報の双方を活用する日本語の質問応答データセット「JDocQA」などのベンチマークツールによる検証の結果、他のモデルと比較しても優れた性能を示すことを確認した(2025年12月17日時点)。
本LMMは、顧客の要望に応じて個別提供が可能である。さらに、今後「RICOH オンプレLLMスターターキット」に搭載し、リコージャパンから提供予定である。

