ISO25010の品質特性を拡張する時が来た
実際に従来型のテストと、AIとロボットに対するテストは何が異なるのでしょうか? セッション参加者からは、以下のような答えがでてきました。
- 期待値が1つに定まらない(学習の状態に依存する)
- 中身(White box)を理解するのが難しい
- 学習プロセスそのものをテストする必要がある
特に、1つ目の答えはとても難しい課題です。なぜなら、期待値が1つではないため、何をテストすればいいのかが特定できません。
しかしながら、以下のような戦略をとることができます。
- 期待値の幅を定義する
- 入力をコントロールする
- 意図した環境でテストする
- 新しい品質特性でテストする
このチュートリアルでは、「新しい品質特性でテストする」という点に着目し、従来型ではなく、新しいアプローチやテストのアイデアを考えていきました。
テストのアイデアを考えるときに、ISO25010の品質特性(Qualiry Characteristics)を考えますか? 機能性、信頼性、使用性、効率性、保守性、移植性などなど、AIとロボットにおいても、これら品質モデルは変わらず重要です、しかし、残念ですがこれだけでは足りません。
例えば、工業機械に使われるAIとロボットだと、人間に怪我をさせてはならないといった、ヒューマンフレンドリな考え方が求められます。チャットボットでは、多少のユーモアが求められるケースもあるでしょう。
こういった「足りない部分」に対し、氏は以下のような3つの品質特性を追加することを提唱しています。
- インテリジェントな動作 (学習しやすさ、選択の透明性)
- モラル (エチケット、プライバシー、フレンドリー)
- パーソナリティ (雰囲気、ユーモア)
ここまでの情報をふまえて、テスト対象としてオランダの航空会社KLMのチャットボットを選び、ワークショップを進めていきます。
テスト対象1:チャットボット
まずはじめに、私のグループでは、品質特性とアイデアを洗い出しました。1つめの品質特性として出てきたのは「自然なやり取り(Natual Interaction)」です。例えば、「明日」と答えると明日の日付(2018/11/11といったフォーマット)として解釈できるかという観点です。
2つめの品質特性は「エチケット」です。例えば、行儀の悪い言葉を使われた場合に、うまく無視するためのものです。
3つめは「ヒューマンフレンドリ」。挨拶などに自然に答えられるかどうかです。
これらの品質特性に対して、入力、期待値、そして実際にテストした結果を記入し、そこから観察できる内容を洗い出していきます。
私のグループでは、「ASAP(as soon as possible "できるだけ早く"の略)」という入力に対して、直近のフライトを提案してくれることを期待していました。しかしながら、チャットボットは理解してくれず、「Go to hell (地獄へいけ)」と聞くと「ヘルシンキ空港ですか?」という返答が返ってくるため、回答にとまどってしまいました。