ストーリーを大切にしたカタログは人にもAIにもやさしい
続いて、残りの2つのステップについても見ていこう。
(3)カタログ作成
ここでいうカタログとは、データの定義や構造、流れを説明する“データの取扱説明書”のようなものである。現場の利用者が迷わずデータを活用するためのガイドとなる。そのため、カタログは誰が見ても理解できるものでなければならない。
そこで斎藤氏はユーザーに公開するテーブル名やカラム名をすべて日本語で記述すると決定した。現場の利用者が普段から慣れ親しんでいる言葉に合わせることで、直感的に理解できるようにするためだ。英語表記にするケースもよくあるが、英語にすることで名前をつける際に表記揺れが生じたり、英語から日本語に解釈するタイミングで誤解が生じたりする危険がある。そうしたリスクを排除する狙いがあった。
もうひとつ工夫したのは、データのリネージュ(生成されてから利用されるまでの流れや依存関係)を追跡して整理するのではなく、実際に現場で使われている申し込み画面を見せてもらったり、紙のPDFからどのようにデータを入力しているのかを見せてもらったりしながら、“データの本質を理解する”ことだ。これらの活動により、複数のシステムを逐一遡って調査するコストが省けるだけでなく、カタログの内容は本質的なものだけが残ることになる。
また、カタログを書く際には、データを点ではなく線で捉え、流れがストーリーとして見えるように意識した。以下が良い例と悪い例である。
× 契約の識別のために付与する番号で、12桁の数値で構成する。
◯ 代理店保険の受付システムに登録後に被保険者向けの保険証券へ付与するユニークな番号。12桁の数値で構成する。
このようなストーリーを重視した書き方は、利用者の理解を高めるだけでなく、生成AIによる文脈理解にも有効であり、応用の幅が広がるのだという。
(4)データマート公開
最後のステップとなる「データマート公開」では、分析目的に応じて整理・整形したデータセットを利用者に提供する。その際、単に提供して終わりではなく、現場に即したガバナンスとガイドラインをしっかりと整備しておくことが重要だ。
たとえば個人情報を含むデータ分析のプロジェクトにおいては、すべての判断を個別のプロジェクトに委ねるのではなく、一定の共通ルールをあらかじめ用意しておく。つまり、ガバナンスという法律の範囲内において、プロジェクトごとに条例のような独自ルールを定めて活用できるようにしている。
加えて、これまで一度作ったらおしまいになりがちだったデータマートの運用にも、リリースサイクルの考え方を導入した。データは素早く変化し続けるものであるからこそ、定期的なリリースサイクルや、変更がある場合の移行期間、移行の方法を明示しておくことで、データエンジニアが「このデータマートの品質は、自分が責任をもって担保し続けるぞ」というオーナーシップを持つきっかけとしたのである。

こうした4つのステップに沿った「唯一の“源泉”」創りを、斎藤氏は「カタログ駆動開発」と呼んでいる。
「今回の取り組みによって、課題の解像度が劇的に向上した。これまで漠然と『なんかダメそうだ』と認識されていた事柄に対して、『ここがこうなっているからダメだ』と具体的な根拠とともに説明できるようになったのは、大きな進歩だった」と振り返る斎藤氏。「今後は、汎用的なデータマートの拡充に加え、確率論的マッチングの導入や、カタログをもとにドメイン知識をグラフとして可視化する取り組みも視野に入れている」と明かし、セッションを締めくくった。
なお、SOMPOホールディングスでは、データ分析基盤の構築からデータガバナンスの確立までを担うデータプロフェッショナルを募集している。興味のある方はぜひ採用サイトまで。