しばらく生成AIチャレンジばかり投稿していたので、息抜きにデータに関する記事を書いていきたいと思います!
データ基盤とは?
データ基盤とは、
データを「集める・ためる・整える・分析する」ための土台 のことです。
もう少しちゃんと言うと、
- 社内外のさまざまなデータを集約し
- 保存・加工し
- 分析や可視化、AI などで活用できるようにする
一連のデータライフサイクル(収集〜活用まで)を管理する中央ハブ、と定義されることが多いです。
データの流れで見る3つの箱
ここでは、よく出てくる
- データレイク
- DWH(データウェアハウス)
- データマート
を、データの流れに合わせてざっくり押さえていきます。
データの流れに合わせたざっくりなイメージ図がこちらになります。

1. データレイク:生データをためる「大きな池」
データレイクは、
「とりあえず何でも放り込める大きなストレージ」です。
- 形式はバラバラ(CSV、ログ、JSON、画像 など)
- あまり加工せず 生のまま 保存
- 後から必要なときに取り出して加工する
イメージとしては、
社内外の生データがどんどん流れ込む大きな池です。
2. DWH:分析しやすく整えた「倉庫」
次のステップが DWH(データウェアハウス) です。
- よく使うデータを選び、きれいな形式に整えて保存
- 集計・分析のクエリに強い
- 売上、顧客、商品など、業務単位で整理されたテーブル
データレイクから必要なデータを取り出して加工し、
「分析向けのきちんとした倉庫」に並べるイメージです。
3. データマート:目的別に小さく切り出した「売り場」
データマートは、DWHにあるデータの一部を
- マーケティング向け
- 経営ダッシュボード向け
- プロダクト分析向け
など、目的別に小さく切り出したテーブル群です。
現場の人がすぐ使えるように、
- 指標が事前に計算されている
- 不要な項目が省かれている
といった形になっていることが多いです。
データ基盤の主な構成要素
3つの箱のイメージがついたところで、
データ基盤のパーツをざっくり並べると、次のようになります。
- データソース
- 既存システムのDB、SaaS、ログなど「データの出どころ」。
- データ連携(ETL/ELT)
- ETL:Extract(抽出)→ Transform(変換)→ Load(書き込み)
- ELT:Extract → Load → Transform
データレイクやDWHへデータを運ぶためのパイプラインです。
- 保存層
- 生データ:データレイク
- 整理済みデータ:DWH
- 利用目的別のデータ:データマート
- 分析・可視化(BIツール)
- BI(Business Intelligence)は、
データを分析・見える化して意思決定に役立てる考え方・ツールのこと。 - Tableau、Looker、Power BI などが代表的です。
- BI(Business Intelligence)は、
- ガバナンス・セキュリティ
- 誰がどのデータを見られるか
- 個人情報の扱い
- データ品質チェック・監視 など
クラウドで組むとどうなる?
クラウドでは、例えば次のような構成をよく見かけます。
- データレイク:オブジェクトストレージ(例:S3 や GCS)
- DWH:BigQuery、Snowflake など
- データマート:DWH内の目的別テーブル
- 連携:専用のSaaSツールやバッチ処理
- BI:Looker Studio、Power BI など
すべてを一気にそろえる必要はなく、
「まずは小さなデータマートを作ってみる」 ところから始める企業も多いです。
データのサイロ化
部署が多い会社の場合、部署ごとにデータ基盤を構築してしまうケースがあります。ルールが定まっていない中で構築が進んでしまうと、後々でデータが連携できない、煩雑になって管理が大変、などの問題が起きてしまいます。このような状態を「データのサイロ化」と呼びます。
データ基盤を作る前に、組織の中で横断的なルールを敷くなどガバナンスをしっかり定めて運用していくことが求められます。
まとめ
今回はデータ基盤についてざっくりまとめてみました。
- データ基盤は、データを 集める・ためる・整える・分析する土台。
- データの流れは、データレイク(生データ) → DWH(整理された倉庫) → データマート(目的別の売り場)という3つの箱でイメージ。
- この上に、ETL/ELTのパイプラインやBIツール、ガバナンスの仕組みを組み合わせて、企業のデータ活用を支える「データ基盤」が出来上がります。
今後もデータに関する記事を取り上げようと思うので、お楽しみに〜