- 加工前の生データと加工後のクエリ可能なデータとを同一のシステム上に持つ、データアーキテクチャ
- 昔は生データ(レイク)と加工後データ(ウェアハウス)とで保存するシステムを分けていたが、近年ではこちらが主流
メリット
- データの重複排除: 1つのシステムで完結するため、データをコピーしたりする必要がない
- レイクのデータをウェアハウスにコピーして、、、という手間が要らない
- リアルタイム性: 1つのシステムで完結するため、届いた生データを届いた瞬間にETL処理できる
- レイクとウェアハウスで別れていた場合は、生データが届いてから解析結果を見るまで、バッチ処理を待つ必要があった
- 機械学習との親和性: 加工後の定形データだけでなく加工前の不定形データも学習に利用できる
Ref
2026/02/07
- Geminiとの会話より