チェックリストの質問項目
QA4AIガイドラインに示されているチェックリストの質問項目は、具体的になっており、回答することでチェックリストを満たしているかを確認することができます。例えば、学習データの量の十分性であれば、以下の質問項目から構成されています。
(a.i) 想定する学習手法の適用前提や統計的観点から十分な量のデータがあるか。
(a.ii) 想定する要求・適用環境において、希少な状況や分類クラスの偏りがある場合であっても、それらに対して十分な量のデータがあるか。
(a.iii) データ量が少ない場合、「かさ増し」(人工的なデータ生成など)で補完が可能か。
各チェックリストに対して1つから4つの質問項目が設定されています。質問項目はいずれも具体的ですが、担当者の習熟度によっては理解が難しい部分もあります。そこで、元の質問の意図をより明確にするための質問や解説の追加を行うことが必要な場合があります。これについては第2回にて詳しく述べますが、例えば、System Qualityの中の「事故発生の回避性」には次のようなチェック項目があります。
十分な安全機能や耐攻撃性を提供しているか
システムの安全性に通じていれば問題なく理解できる内容ですが、その知見がないと「十分」という言葉の解釈を誤る可能性があります。QA4AIガイドラインを用いる際はチェックリストを使う担当者の知識レベルを想定した上で、組織ごとに解説を追加することをお勧めします。
チェックリストの評価
QA4AIガイドラインには、5軸とそのチェックリストの評価結果が例示されており、評価結果を顧客の期待とのバランス、開発フェーズ別のサイズの双方に着目して判断しています(図表2)。全ての軸が高評価となることが良いプロダクトというわけではなく、フェーズやシステムの特性によって満点は変わります。つまり、レーダーチャートを可能な限り大きくすることが必ずしもその時点での正しいアプローチではないということです。ガイドラインを用いてAIプロダクトを評価する際はこの性質をよく理解しておく必要があります。
おわりに
今回は、AIの品質が注目されている理由と現状の取り組み等を解説し、取り組みの一つの事例であるQA4AIガイドラインの概要の紹介をしました。また、QA4AIガイドラインを現場で適用する際の留意点についても軽く触れておきました。少しでも参考になると感じられた方は、QA4AIガイドラインの原本を読んでみてはいかがでしょうか。
第2回ではより詳しく現場で適用する際の具体例を示しますので、ご興味がある方は読んでいただければと思います。
参考文献
- [1] Sean Mcgregor, “When AI Systems Fail: Introducing the AI Incident Database”, 2020
- [2] JETRO, ビジネス短信 2021/4/23版
- [3] 日経新聞, “米でAI規制強化、摘発事例も 利用企業に説明責任”
- [4] JETRO, ビジネス短信 2022/10/5 版
- [5] QA4AIコンソーシアム, AIプロダクト品質保証ガイドライン2022.07版
- [6] Stable Diffusion
- [7] OSTP, “Blueprint for an AI Bill of Rights,” 2022