Developers Summit 2025 Summer セッションレポート（AD）

ＳＯＭＰＯホールディングスはデータにどう向き合うのか？データ統合プロジェクトのリアルに迫る

【17-B-8】唯一の“源泉”を創るデータ統合プロジェクトのリアル

野本纏花[著] / 丸毛透[写] / CodeZine編集部[編]

2025/09/24 12:00

ポスト

データの本質を理解するには現場の業務プロセスの理解が不可欠

　斎藤氏は、「（1）データ／品質の調査（2）パイプライン作成（3）カタログ作成（4）データマート公開」の4つのステップでプロジェクトを進めていったという。最初の2ステップを詳しく紹介する。

（1）データ／品質の調査

　斎藤氏が「プロジェクトの成否を左右する最も大事なステップ」と語るのが、この「データ／品質の調査」だ。これは単なるデータの正誤チェックではなく、各部門で実際に使われているデータの意味や背景（≒ドメイン知識）を深く理解する作業とも言える。

　このなかで、斎藤氏がまず取り組んだのが、「外部整合性のチェック」である。たとえばA部門とB部門がそれぞれ保有する火災のデータを突き合わせたところ、700万件中2万件で、親データが存在しない「オーファンレコード」が見つかったという。こうしたケースでは、アスタリスクのような記号の混入や入力ミスの可能性を疑い、各部門の担当者へのヒアリングなどを通じて、原因を解明していく。

　ある程度データの整理が進んだら、実際のデータと想定される「期待値」を比較して、ズレがあればその要因を掘り下げていく。処理ロジックの誤りなのか、データの欠落や偏りなのか——地道な原因究明作業が続くのである。

　さらには、メタデータの整備も並行して進めながら、決定論的マッチングによるデータの名寄せも行った。「データ分析基盤の『データプロファイリング機能』によってデータの分布や異常値を効率的に把握できたことが、作業効率を大きく高めた」と斎藤氏は振り返る。

　こうした作業は、一度で完結するものではない。何度も試行錯誤を重ねながら、地道にデータの“素性”を明らかにしていったという。

（2）パイプライン作成

　次のステップである「パイプラインの作成」では、複数のデータソースから取得したデータを、分析や共有が可能な形式に加工していく。ここで斎藤氏が強く意識したのは、「表記のばらつきや特殊なデータ構造といった元データ特有の制約をできるだけ排除して、カタログに記述する内容をできるだけシンプルにすること」だった。

　これにより、利用者は元データのクセを意識することなく、直感的にデータにアクセスできるようになるし、カタログやパイプラインの保守性も高まるという。

　また、データ基盤の設計では、柔軟性と再現性を重視している。具体的にいうと、同社が利用しているPalantir Foundryには「Ontology」というセマンティックレイヤーがあり、そこからAPI経由で集計を行うことが可能だ。そのため、データに複雑な計算ロジックを持たせず、後段のレイヤーに処理を委ねる方針を採用している。

　本来であれば、セマンティックレイヤーを通じてデータを提供するのが望ましいが、今回のプロジェクトでは時間的な制約があったため、暫定的にスタースキーマを用いてデータを正規化し、Silver層で品質チェックをしたうえで、ワイドテーブル形式で提供する形とした。

次のページ
ストーリーを大切にしたカタログは人にもAIにもやさしい

関連リンク: データエンジニア - SOMPO Digital Lab 採用情報

データアプリエンジニア - SOMPO Digital Lab 採用情報

データサイエンティスト - SOMPO Digital Lab 採用情報

この記事は参考になりましたか？

印刷用を表示

ポスト

Developers Summit 2025 Summer セッションレポート連載記事一覧: WordPressをもっと安心・安全に使うために──スパイラルが示す“守れるサイト”のつく...

知的財産の流出、生成物の信頼性、レビューの限界——AI導入の懸念にGitLabはどう向き合...

生成AIサービスの「運用」ってどうしてる？「Langfuse」国内パートナーが解説するL...

もっと読む

この記事の著者: 野本纏花（ノモトマドカ）

　フリーライター。IT系企業のマーケティング担当を経て2010年8月からMarkeZine（翔泳社）にてライター業を開始。2011年1月からWriting&Marketing Company 518Lab（コトバラボ）として独立。共著に『ひとつ上のFacebookマネジメント術~情報収集・人脈づくり...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; 丸毛透（マルモトオル）

インタビュー（人物）、ポートレート、商品撮影、料理写真をWeb雑誌中心に活動。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事