データ基盤とは？ざっくり基礎知識

データ関連

しばらく生成AIチャレンジばかり投稿していたので、息抜きにデータに関する記事を書いていきたいと思います！

データ基盤とは？

データ基盤とは、
データを「集める・ためる・整える・分析する」ための土台 のことです。

もう少しちゃんと言うと、

一連のデータライフサイクル（収集〜活用まで）を管理する中央ハブ、と定義されることが多いです。

ここでは、よく出てくる

を、データの流れに合わせてざっくり押さえていきます。

データの流れに合わせたざっくりなイメージ図がこちらになります。

データレイクは、
「とりあえず何でも放り込める大きなストレージ」です。

イメージとしては、
社内外の生データがどんどん流れ込む大きな池です。

次のステップが DWH（データウェアハウス） です。

データレイクから必要なデータを取り出して加工し、
「分析向けのきちんとした倉庫」に並べるイメージです。

データマートは、DWHにあるデータの一部を

など、目的別に小さく切り出したテーブル群です。

現場の人がすぐ使えるように、

といった形になっていることが多いです。

3つの箱のイメージがついたところで、
データ基盤のパーツをざっくり並べると、次のようになります。

データソース
- 既存システムのDB、SaaS、ログなど「データの出どころ」。
データ連携（ETL／ELT）
- ETL：Extract（抽出）→ Transform（変換）→ Load（書き込み）
- ELT：Extract → Load → Transform
  データレイクやDWHへデータを運ぶためのパイプラインです。
保存層
- 生データ：データレイク
- 整理済みデータ：DWH
- 利用目的別のデータ：データマート
分析・可視化（BIツール）
- BI（Business Intelligence）は、
  データを分析・見える化して意思決定に役立てる考え方・ツールのこと。
- Tableau、Looker、Power BI などが代表的です。
ガバナンス・セキュリティ
- 誰がどのデータを見られるか
- 個人情報の扱い
- データ品質チェック・監視など

クラウドでは、例えば次のような構成をよく見かけます。

すべてを一気にそろえる必要はなく、
「まずは小さなデータマートを作ってみる」 ところから始める企業も多いです。

部署が多い会社の場合、部署ごとにデータ基盤を構築してしまうケースがあります。ルールが定まっていない中で構築が進んでしまうと、後々でデータが連携できない、煩雑になって管理が大変、などの問題が起きてしまいます。このような状態を「データのサイロ化」と呼びます。

データ基盤を作る前に、組織の中で横断的なルールを敷くなどガバナンスをしっかり定めて運用していくことが求められます。

今回はデータ基盤についてざっくりまとめてみました。

今後もデータに関する記事を取り上げようと思うので、お楽しみに〜