リコー　インストラクションチューニング済みの130億パラメータの日本語LLMを開発

2024年6月5日 2024年6月5日

OAライフ

リコー　2024年6月3日発表

　リコーは、国立研究開発法人理化学研究所革新知能統合研究センター言語情報アクセス技術チーム（以下、理研AIP）が主催する日本語インストラクションデータ作成プロジェクトに参画している。リコーは、同チームとの共同開発で得られたインストラクションデータをリコー製130億パラメータの日本語LLMに追加学習させ、LLMの指示追従性能が向上するという結果を得た。また、リコー独自開発のインストラクションデータを追加学習させた結果においても、指示追従性能の向上を確認し、要約タスクでの優位性を確認した。

　今回、インストラクションデータ「ichikara-instruction」（10,329件）を用いてリコー製LLMにインストラクションチューニングを行なった。結果、複雑な指示・タスクを含む代表的なベンチマーク「ELYZA-tasks-100」において、チューニング前と比較し、指示追従性能の大幅なスコア向上が確認できた。また、リコーが独自開発した3,556件のインストラクションデータを用いたチューニング結果でも、同ベンチマークにおいて、同様にスコアが大きく向上した。
　これらの結果から、「ichikara-instruction」はインストラクションデータとして高品質なデータセットであること、また、リコー製インストラクションデータにおいても高スコアが得られたことから、LLMの性能向上にはデータ量だけでなく、データの品質が重要だということが示唆された。(表1)

　また、要約タスクを独自評価したところ、特に長文要約においては、リコー製データセットの優位性を確認できた。(表2)
　AIによる要約生成は顧客のニーズが高く、リコーが強化していく領域としている。リコーは継続的にデータ開発を進めており、2024年5月末時点では、5,000件超のインストラクションデータの開発を完了している。今後、これらをリコーが提供するさまざまなAIソリューションに活用することで、より高品質なサービスの提供を目指す。

カテゴリー: 業界トピック

リコー　インストラクションチューニング済みの130億パラメータの日本語LLMを開発

サイボウズ　クラウドサービスの価格改定　大規模導入向け新コース開始

キヤノン　令和6年度全国発明表彰「朝日新聞社賞」を受賞

サイボウズ クラウドサービスの価格改定 大規模導入向け新コース開始

キヤノン 令和6年度全国発明表彰「朝日新聞社賞」を受賞

サイボウズ　クラウドサービスの価格改定　大規模導入向け新コース開始

キヤノン　令和6年度全国発明表彰「朝日新聞社賞」を受賞