• 加工前の生データと加工後のクエリ可能なデータとを同一のシステム上に持つ、データアーキテクチャ
    • 昔は生データ(レイク)と加工後データ(ウェアハウス)とで保存するシステムを分けていたが、近年ではこちらが主流

メリット

  • データの重複排除: 1つのシステムで完結するため、データをコピーしたりする必要がない
    • レイクのデータをウェアハウスにコピーして、、、という手間が要らない
  • リアルタイム性: 1つのシステムで完結するため、届いた生データを届いた瞬間にETL処理できる
    • レイクとウェアハウスで別れていた場合は、生データが届いてから解析結果を見るまで、バッチ処理を待つ必要があった
  • 機械学習との親和性: 加工後の定形データだけでなく加工前の不定形データも学習に利用できる

Ref

2026/02/07

  • Geminiとの会話より