クレディセゾンがAIで目指すCSAX
クレディセゾンは2021年9月に、DX推進のアクションプランを「クレディセゾンのデジタルトランスフォ...

ではなぜ、三菱UFJニコスは社内文書検索回答サービスを実装したのか。
道家氏は「社内規程やマニュアルなどはデータ化され、社内ポータルサイトに格納されているので、社員がいつでも参照できるようになってはいるが、検索性が低いために、キーワードを入力しても欲しい情報になかなかたどり着けない場面もあった。問合せを受ける所管部門の社員も負荷が大きかった。専門性の高い事柄に関する、正確な知識が求められるし、所管部門も膨大な量のドキュメントから当該箇所を探し出さなくてならなかった。生成AIでこのような問題を解決できないかと検討を始めた」とその理由を説明する。
そこで、三菱UFJニコスは23年度上期に自力でRAGの開発にチャレンジする。だが、検索精度は期待するレベルではなかった。既存のドキュメントをそのままRAGが検索できるようにして、キーワードで検索しても、正しい回答が返ってくるのは2~3割程度で、「全く使い物にならなかった」(白滝次長)という。
そこで、三菱UFJニコスは23年度の下期に入ると、大和総研とRAGの共同研究を開始する。三菱UFJニコスが業務課題やユースケースを提供し、大和総研がAIに関する技術力、スキルの高い人材を提供する形で共同研究は進められた。
主な研究内容は三つあったという。第一はデータ・前処理の研究。ワードはテキストを検索・抽出しやすいし、見出しや段落もあるので、インデックス化しやすく、RAG適性が高い。
とはいえ、社内ドキュメントはワード、PDF、パワーポイント、エクセルなど、さまざまなファイル形式で保存・管理されている。RAGの検索精度を高めるには、ファイル形式を変換したり、データを加工したりする必要がある場合がある。だが、ドキュメントによってその難易度は異なるため、どこまで変換・加工が可能かなどを検討する必要があるという。
データ加工方法では、チャンク化と呼ばれる手法を研究する必要もあったという。チャンク化とはRAGに検索させるドキュメントを小さな単位(チャンク)に区切る処理を意味する。チャンクに分けることで、生成AIが検索しやすくなり、正確な回答を導きだせるようになる。 一文ごとに区切るセンテンス単位、段落ごとに区切るパラグラフ単位、意味のまとまりごとに区切るセマンティックチャンクなどの手法があり、中には一定の文字数ごとに区切る場合もある。どのような形でチャンク化すると検索精度が高まるか、研究を繰り返した。
最新情報などを配信中!!