リコー LLM出力の有害判別に対応 リコー製ガードレールモデルをアップデート
リコー 2025年12月25日発表
リコーは、米Meta Platforms社が提供する「Meta-Llama-3.1-8B」の日本語性能を向上させた「Llama-3.1-Swallow-8B-Instruct-v0.5」をベースモデルに、LLMからの有害情報の出力を検知する自社開発のガードレール機能を組み込んだLLM(セーフガードモデル)を開発した。
本開発では、従来対応していた有害なプロンプト入力の判別に加え、LLMが生成する有害情報の出力の検知にも対応できるようになった。ベンチマーク評価の結果、他社製ガードレールモデルと比較して、高いF1スコアを示した。
本セーフガードモデルは、生成AIの安全な利活用を支援するため、2024年10月にリコーが立ち上げたLLMに対する社内の安全性対策プロジェクトから生まれたものである。2025年8月に、有害なプロンプト入力を対象とした判別機能をまずリリースし、リコージャパンが提供する「RICOH オンプレLLMスターターキット」に標準搭載することで、顧客の安全な生成AI活用を支援してきた。今回、出力判別にも対応したことで、より多層的で強固な安全対策を実現する。
■セーフガードモデルについて
本セーフガードモデルは、LLMに対するガードレールとして機能し、プロンプト入力されたテキスト、およびLLMから出力された回答を監視して、不適切・有害な内容を自動で検出する。具体的には、暴力や犯罪、差別、プライバシー侵害など14種類のラベルに分類された、リコー独自構築の数千件のデータを学習させることで、これらに該当する入出力情報を判別する。これにより、LLMへの有害情報の入力、またはLLMから出力された有害回答を検知し、ブロックすることが可能となる。
また、一般的な有害表現だけでなく、「業務に無関係な内容をブロックしたい」といった顧客のニーズに応じたカスタマイズ対応も検討している。
本セーフガードモデルは、リコー独自の量子化技術により小型・軽量化を実現した。今後、リコージャパンが提供する、高セキュリティなオンプレミス環境向け生成AI活用ソリューション「RICOH オンプレLLMスターターキット」に標準搭載される予定である。

