データレイクハウスとデータウェアハウスの違いについて話す前に、まずそれぞれの定義と大規模な組織がそれらをどのように利用しているかについてお話しましょう。
大規模な組織におけるデータストレージ管理に関係する「データウェアハウス」という用語をよく耳にしますが、それはどういう意味ですか?組織のビジネス活動にとって、それはどの程度重要ですか?
データウェアハウス(DWH)とは、CRMシステム(顧客関係管理)、在庫、および販売取引など、複数のシステムやソースからデータを統合する大規模なデータ管理システムです。現在および過去のデータの時系列データをデータセンターとして保存し、それらを活用して徹底的な分析を行い、組織内の異なる部門間で情報を共有します。
データウェアハウスの特徴
- サブジェクトごとに編成されていること(Subject Oriented): データは特定のサブジェクトに基づいて分類および保管されるため、データ分析のための迅速な検索が可能になります。
- データが統合されていること(Integration): データウェアハウスは、保管前に同じ形式で統合されて構造化された様々なソースからのデータで構成されます。
- 時系列データを持つこと(Timevariant): データウェアハウスに収集された過去のデータと最新のデータは、特定の期間で識別されます。つまり、データウェアハウスはデータを収集する際にタイムスタンプも記録します。
- データが永続すること(Non-Volatile): データウェアハウスに保存されているデータは分析のみを目的としています。データがインポートされると、変更や修正はできません。
異なるシステムやデータベースから取得されるデータを一箇所に集約することで、いつでも簡単かつ迅速に使用できるようになります。データウェアハウスは、通常、構造化データを保存し、ストレージとコンピューティングであるサーバーにインストールします。データがデータ ウェアハウスに保存されると、BI ツールでデータセットを分析し、分析結果をダッシュボードに表示することができます。
より多くの人がオンラインで交流するようになるにつれて、ストリーミングデータ、ソーシャルメディア、IoTなど、生成されるデータ量が急激に増加しました。これにより、「ビッグデータ」という概念が生まれました。これらのデータタイプは、半構造化 (XML、HTML、JSON など) と非構造化 (テキストファイル、画像ファイル、音声ファイルなど)です。結果的には、データウェアハウスではこれらのデータタイプをサポートできません。
したがって、「データレイク」と呼ばれる別のプラットフォームが開発され、このようなデータタイプをサポートします。そして、より多くのビジネスニーズに対応するためにデータウェアハウスと組み合わせて使用されます。 データレイクは、様々なソースからの生のデータを整理せずに格納する仕組みです。徹底的な分析が必要な場合は、それらが構造化データに変換され、データウェアハウスに格納されます。さらに、データサイエンティストやデータアナリストは、データ構造を再編成することでリアルタイムのデータ分析モデルを作成できます。
データレイクは様々なデータ型をサポートできますが、ビジネスインテリジェンス (BI)とビジネス分析の適用といったいくつかの制限があります。最初にデータを分析せずに、すべてのデータを構造化形式に変換してデータウェアハウスに格納する必要があるため、クエリが困難になり、データレイクとデータウェアハウスの間でデータの冗長性が生じます。また、データは同じファイルに格納されるため、一定期間でデータの挿入、更新、削除などの作業が難しいです。
データレイクの制限により、これらの問題に対処するために「データレイクハウス」プラットフォームが開発されました。
データレイクハウスとは、データウェアハウスのデータ構造とデータ管理機能を、データレイクのストレージに直接実装することで、データレイクとデータ ウェアハウスの利点を組み合わせたストレージ技術です。データレイクはデータウェアハウスよりも柔軟性が高いです。
データレイクハウスの特徴
- クラウドオブジェクトストレージ: データレイクハウスは通常、MicrosoftのAzure Blob Storageや Google Cloud Storageなどの低コストでスケーラブルなクラウド上にデータをオブジェクトとして格納します。
- メタデータレイヤー: データレイクの取り込み能力により、データの管理とデータウェアハウスでのデータガバナンスの実装が容易になります。レイクハウスのアーキテクチは、送信されるデータの正確性を確保するために、ACIDトランザクション(不可分性、一貫性、独立性、耐久性)もサポートしています。
- データ最適化: データレイクハウスは、クラスタリング、キャッシング、およびインデックスなどの手法により、より高速な分析のためにデータを最適化することもできます。
- データへの同時読み取りおよび書き込み: 同時に複数のデータの読み取りと書き込みを行うことができます。
- オープンなデータストレージ形式とAPI: データレイクハウスは、データストレージ技術と直接データにアクセスできるようにAPIを提供します。
- 様々データタイプとワークロード: データレイクハウスはデータを様々なデータ型で格納し、BIツールや機械学習で利用できます。
- エンドツーエンドのストリーミング: これにより、同じストレージ下でリアルタイムのレポート作成と分析が可能になります。
データウェアハウスとデータレイクハウスの比較
データウェアハウス | データレイクハウス | |
データ | 取引、操作、および業務実績の構造化データ | データレイクを介して、画像、音声、動画などのあらゆる種類のデータを、半構造化および非構造化の形式でインポートします。 |
データ形式 | データ構造を再編成する必要がある。 | データ構造を再編成する必要はない。 |
データ品質 | 格納前にデータ処理を行い、重複したデータや未使用データを排除し、データ分析が容易になる。 | 重複したデータや未使用データが含まれる可能性のあるファイル全体をインポートする。 構造化データに変換する必要があるため、データの分析に時間がかかる。 |
データアクセス | SQLのみ | Open API, SQL, Python |
目的 | ビジネスアナリストは過去と現在のデータを分析して、将来発生するビジネスパターンを予測する。そして、BI を活用して徹底的な分析を行う。 | ビジネスアナリストは過去と現在のデータを分析して、将来発生するビジネスパターンを予測する。そして、機械学習を活用して徹底的な分析を行う。 |
パフォーマンス | 構造化データなのですぐに利用でき、検索や更新の時間が短縮され、わかりやすい。 | 使用前にデータを構造化データに変換するのに時間がかかる。 データをファイルに保存することで、様々な場面で活用できる。 |
コスト | 処理スペースと保管スペースを多く必要とするため、コストが高くなる。 データの変換に時間がかかる。 | 低コストで、格納前にデータを変換する必要がなく、データに柔軟性がある。 |
ユーザー | ビジネスアナリスト、データサイエンティスト、データアナリスト | データサイエンティスト |
データ分析プラットフォームにはそれぞれ異なる点がありますが、新しく登場したプラットフォームが古いプラットフォームを常に置き換えられるということではありません。それは、各組織の様々なコンポーネントを含むビジネスの適切な使用に依存します。
参照元:
https://ntcloudsolutions.ntplc.co.th/knowledge/data-warehouse/
https://www.databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html
https://yuthakarn.medium.com/what-is-data-a-lakehouse-55728ee4ced2
https://www.qlik.com/us/data-lake/data-lakehouse
https://www.systemsltd.com/blogs/connected-lakehouse-the-future-of-modern-data-warehousing-analytics