Oracle の移行に加えて、Microsoft Azure に最新のデータウェアハウスを実装する

[アーティクル]
06/01/2023

この記事は、Oracle から Azure Synapse Analytics に移行する方法に関するガイダンスを提供する 7 つのパートから成るシリーズのパート 7 です。この記事では、最新のデータウェアハウスを実装するためのベストプラクティスに焦点を当てます。

Azure へのデータウェアハウスの移行を超えて

既存のデータウェアハウスを Azure Synapse Analytics に移行する主な理由は、グローバルにセキュリティで保護された、スケーラブルで低コストのクラウドネイティブな従量課金制分析データベースを利用することです。 Azure Synapse では、移行したデータウェアハウスを完全な Microsoft Azure 分析エコシステムと統合して、その他の Microsoft テクノロジを活用したり、移行したデータウェアハウスを最新化したりできます。これらのテクノロジには、次のものがあります。

コスト効果の高いデータインジェスト、ステージング、クレンジング、変換のための Azure Data Lake Storage。 Data Lake Storage によって、急速に増加するステージングテーブルによって占有されるデータウェアハウス容量を解放できます。
クラウドやオンプレミスのデータソースやストリーミングデータへのコネクタを備え、IT との連携やセルフサービスによるデータ統合を実現する Azure Data Factory。
以下のような複数のテクノロジで一貫した信頼できるデータを共有する Common Data Model。
- Azure Synapse
- Azure Synapse Spark
- Azure HDInsight
- Power BI
- Adobe Customer Experience Platform
- Azure IoT
- Microsoft ISV パートナー
以下を含む Microsoft のデータサイエンステクノロジ。
- Azure Machine Learning Studio
- Azure Machine Learning
- Azure Synapse Spark (サービスとしての Spark)
- Jupyter Notebooks
- RStudio
- ML.NET
- .NET for Apache Spark。これにより、データサイエンティストが Azure Synapse データを使用して大規模に機械学習モデルをトレーニングできます。
PolyBase を使用して論理データウェアハウスを作成することで、大量のデータを処理し、ビッグデータを Azure Synapse データと結合するための Azure HDInsight。
Azure Synapse からのライブストリーミングデータと統合するための Azure Event Hubs、Azure Stream Analytics、および Apache Kafka。

ビッグデータの増加により、Azure Synapse で使用するためにカスタム構築されたトレーニング済みの機械学習モデルを実現するための機械学習の需要が急激に増加しています。機械学習モデルにより、データベース内分析をバッチ、イベントドリブン、およびオンデマンドで大規模に実行できるようになります。また、複数の BI ツールやアプリケーションから Azure Synapse のデータベース内分析を利用できるため、一貫性のある予測と推薦事項が保証されます。

さらに、Azure Synapse を Azure 上の Microsoft パートナーツールと統合すれば、価値を生み出すまでの時間を短縮することもできます。

これらをより詳しく見ていく中で、Azure Synapse に移行した後に、Microsoft の分析エコシステムの技術を活用してデータウェアハウスを最新化する方法について理解していきましょう。

Data Lake Storage と Data Factory へのオフロードデータステージングと ETL 処理

デジタル変革により、キャプチャして分析すべき新しいデータが大量に生み出されたことで、企業にとって重要な課題が発生しています。良い例として、モバイルデバイスからのサービスアクセスのために、オンライントランザクション処理 (OLTP) システムを開いて作成されたトランザクションデータがあります。このデータの多くはデータウェアハウスに入り、OLTP システムが主なソースとなります。従業員よりも顧客の方がトランザクション率を上昇させる要因となっている現在、データウェアハウスのステージングテーブルのデータは急速に増加しています。

企業へのデータの急速な流入に加え、モノのインターネット (IoT) などの新しいデータソースもあるため、企業はデータ統合の ETL 処理をスケールアップする必要があります。 1 つの方法が、データウェアハウスの最新化プログラムの一環として、データインジェスト、データクレンジング、変換、統合をデータレイクにオフロードし、そこで大規模に処理する方法です。

データウェアハウスを Azure Synapse に移行すれば、Microsoft では Data Lake Storage にデータを取り込みステージングを行うことで、ETL 処理を最新化できます。その後、Data Factory を使用して大規模なデータをクリーニング、変換、統合してから、PolyBase を使用して Azure Synapse に並列で読み込むことができます。

ELT 戦略では、データボリュームや頻度の増加に合わせて簡単にスケーリングできるように、ELT 処理を Data Lake Storage にオフロードすることを検討してください。

Microsoft Azure Data Factory

Azure Data Factory は、高度にスケーラブルな ETL および ELT 処理のための従量課金制のハイブリッドデータ統合サービスです。 Data Factory には、コードなしでデータ統合パイプラインを構築するための Web ベースの UI が用意されています。 Data Factory を使用して、以下を実行できます。

コードなしでスケーラブルなデータ統合パイプラインを構築します。
大規模なデータを簡単に取得できます。
使用した分だけ支払えばよいのです。
オンプレミス、クラウド、SaaS ベースのデータソースに接続します。
クラウドおよびオンプレミスのデータを大規模に取り込み、移動、クリーニング、変換、統合、分析します。
オンプレミスとクラウドの両方のデータストアにまたがるパイプラインをシームレスに作成、監視、管理します。
顧客の増加に合わせた従量課金制のスケールアウトを実現します。

これらの機能をコードを記述せずに使用したり、Data Factory パイプラインにカスタムコードを追加したりできます。次のスクリーンショットは、Data Factory パイプラインの 1 例を示しています。

ヒント

Data Factory を使用すると、スケーラブルなデータ統合パイプラインをコードなしで構築できます。

次のようなあらゆる場所から、Data Factory パイプライン開発を実装します。

Microsoft Azure portal。
Microsoft Azure PowerShell。
複数言語 SDK を使用して .NET と Python からプログラムで実行する。
Azure Resource Manager (ARM) テンプレート。
REST API。

ヒント

Data Factory では、オンプレミス、クラウド、SaaS のデータに接続できます。

コードを記述することを好む開発者やデータサイエンティストは、Java、Python、.NET のプログラミング言語で使用できるソフトウェア開発キット (SDK) を使用して、これらの言語で Data Factory パイプラインを簡単に作成できます。 Data Factory パイプラインは、オンプレミスのデータセンター、Microsoft Azure、その他のクラウド、SaaS オファリングのデータの接続、取り込み、クリーニング、変換、分析を行うことができるため、ハイブリッドデータパイプラインにすることができます。

データを統合および分析する Data Factory パイプラインを開発した後、それらのパイプラインをグローバルに展開し、バッチで実行するようにスケジュールしたり、サービスとしてオンデマンドで呼び出したり、イベントドリブンベースでリアルタイムで実行したりできます。 Data Factory パイプラインは、1 つまたは複数の実行エンジン上で実行し、実行を監視してパフォーマンスを確保し、エラーを追跡することもできます。

ヒント

Azure Data Factory では、データの統合と分析はパイプラインで制御します。 Data Factory は、ビジネスユーザー向けのデータラングリング機能を備えた IT プロフェッショナル向けのエンタープライズクラスのデータ統合ソフトウェアです。

ユースケース

Data Factory では、次のような複数のユースケースがサポートされています。

クラウドおよびオンプレミスのデータソースからデータを準備、統合、エンリッチし、Microsoft Azure Synapse 上に移行したデータウェアハウスやデータマートのデータを充実させる。
機械学習モデルの開発や分析モデルの再トレーニングに使用するトレーニングデータを生成するために、クラウドおよびオンプレミスのデータソースからデータを準備、統合、およびエンリッチする。
データ準備と分析のオーケストレーションを行い、センチメント分析など、バッチ処理でデータを処理および分析するための予測および模範的な分析パイプラインを作成する。分析結果に基づいて対策を講じるか、データウェアハウスに分析結果を追加する。
Azure Cosmos DB などの運用データストアを基に、Azure クラウド上で動作するデータドリブンのビジネスアプリケーションデータを用のデータを準備、統合、リッチ化する。

ヒント

データサイエンスでトレーニングデータセットを構築して、機械学習モデルを開発します。

データソース

Data Factory では、クラウドとオンプレミスの両方のデータソースのコネクタを使用できます。 "セルフホステッド統合ランタイム" と呼ばれるエージェントソフトウェアによって、オンプレミスのデータソースに安全にアクセスし、セキュリティで保護されたスケーラブルなデータ転送をサポートしています。

Azure Data Factory を使用してデータを変換する

Data Factory パイプライン内で、取り込み、クリーンアップ、変換、統合を行い、これらのソースから任意の種類のデータを分析します。データは、構造化、JSON や Avro などの半構造化、または非構造化にすることができます。

プロの ETL 開発者は、Data Factory のマッピングデータフローを使用することで、データのフィルター処理、分割、いくつかの型の結合、ルックアップ、ピボット、ピボット解除、並べ替え、和集合、集計を、コードを一切記述することなく行うことができます。さらに、Data Factory では、代理キーや、挿入、アップサート、更新、テーブルの再作成、テーブルの切り捨てなどの複数の書き込み処理オプション、および複数の種類のターゲットデータストア (シンクとも呼ばれます) がサポートされています。 ETL 開発者は、データ列にウィンドウを配置する必要がある時系列集計などの集計を作成することもできます。

ヒント

プロの ETL 開発者は、Data Factory のマッピングデータフローを使用して、コードを記述することなく、データのクリーンアップ、変換、統合を行うことができます。

Data Factory パイプラインでデータをアクティビティとして変換するマッピングデータフローを実行でき、必要に応じて 1 つのパイプラインに複数のマッピングデータフローを含めることができます。このようにして、困難なデータ変換と統合タスクを、組み合わせることができる小さなマッピングデータフローに分割することで、複雑さに対処できます。また、必要に応じてカスタムコードを追加できます。この機能に加えて、Data Factory マッピングデータフローには次の機能があります。

データのクリーニングと変換、集計の計算、データのエンリッチを行う式を定義します。たとえば、これらの式で、日付フィールドに特徴エンジニアリングを実行して、複数のフィールドに分割して、機械学習モデルの開発時にトレーニングデータを作成できます。数学、テンポラル、分割、マージ、文字列連結、条件、パターン一致、置換、およびその他の多くの関数を含む豊富な関数セットから式を構築できます。
データ変換パイプラインがデータソースのスキーマ変更の影響を受けないように、スキーマドリフトを自動的に処理します。この機能は、デバイスがアップグレードされるか、IoT データを収集するゲートウェイデバイスの読み取りミスがあった場合に、予告なくスキーマが変更される可能性があるストリーミング IoT データにとって特に重要です。
データをパーティション分割して、大規模に並列で変換を実行できるようにします。
ストリーミングデータを検査して、変換するストリームのメタデータを表示します。

ヒント

Data Factory では、受信データ (ストリーミングデータなど) のスキーマ変更を自動的に検出して管理する機能がサポートされています。

次のスクリーンショットは、Data Factory マッピングデータフローの例を示しています。

データエンジニアは、開発時にデバッグ機能を有効にしておくことで、データ品質をプロファイリングし、個々のデータ変換の結果を表示できます。

ヒント

Data Factory では、ETL 処理を大規模に実行できるようにデータをパーティション分割することもできます。

必要な場合、コードを含むリンクサービスをパイプラインに追加することで、Data Factory の変換機能と分析機能を拡張できます。たとえば、Azure Synapse Spark プールノートブックには、トレーニングされたモデルを使用して、マッピングデータフローによって統合されたデータをスコア付けできる Python コードが含まれていることがあります。

統合データと、Data Factory パイプライン内部の分析からのあらゆる結果を、Data Lake Storage、Azure Synapse、HDInsight の Hive テーブルなどの 1 つ以上のデータストアに格納できます。また、Data Factory 分析パイプラインによって生成された分析情報に基づいて動作する他のアクティビティを呼び出すこともできます。

ヒント

Data Factory では、独自のコードを記述してパイプラインの一部として実行することができるため、Data Factory パイプラインには拡張性があります。

Spark を使用してデータ統合をスケーリングする

Data Factory は実行時に、Azure Synapse Spark プール (Microsoft のサービスとしての Spark オファリング) を内部的に利用して、Azure クラウド内のデータをクリーンアップして統合しています。大量かつ高速なデータ (クリックストリームデータなど) を大規模にクリーンアップ、統合、分析できます。 Microsoft の目的は、他の Spark ディストリビューションでも Data Factory パイプラインを実行することです。 Data Factory を使用すると、Spark 上で ETL ジョブを実行できるだけでなく、Pig スクリプトや Hive クエリを呼び出して、HDInsight に保存されているデータにアクセスし、変換することができます。

ラングリングデータフローを使用してセルフサービスデータ準備と Data Factory ETL 処理をリンクする

データラングリングにより、ビジネスユーザー (シティズンデータインテグレーターやデータエンジニアとも呼ばれます) は、このプラットフォームを利用して、コードを記述せずに大規模なデータを視覚的に検出、探索、準備できます。この Data Factory 機能は使いやすく、セルフサービスビジネスユーザーがドロップダウン変換を含むスプレッドシートスタイルの UI を使用してデータを準備し統合できる、Microsoft Excel Power Query または Microsoft Power BI データフローに似ています。次のスクリーンショットは、Data Factory ラングリングデータフローの例を示しています。

Excel や Power BI とは異なり、Data Factory ラングリングデータフローでは、Power Query を使用して M コードを生成した後、クラウド規模で実行するために超並列メモリ内 Spark ジョブに変換します。 Data Factory のマッピングデータフローとラングリングデータフローの組み合わせにより、プロの ETL 開発者とビジネスユーザーは共同作業を行い、一般的なビジネス目的のためにデータを準備、統合、分析できます。前述の Data Factory マッピングデータフロー図は、Data Factory と Azure Synapse Spark プールノートブックの両方を同じ Data Factory パイプラインで組み合わせる方法を示しています。 Data Factory でのマッピングデータフローとラングリングデータフローの組み合わせにより、IT ユーザーとビジネスユーザーは、それぞれが作成したデータフローを把握し、データフローの再利用をサポートして、再発明を最小限に抑え、生産性と一貫性を最大限に高めます。

ヒント

Data Factory では、ラングリングデータフローとマッピングデータフローの両方がサポートされているため、ビジネスユーザーと IT ユーザーは共通のプラットフォームでデータを共同で統合できます。

分析パイプラインでデータと分析をリンクする

データのクリーニングと変換に加えて、Data Factory では同じパイプラインにデータ統合と分析を組み合わせることができます。 Data Factory を使用して、データ統合と分析の両方のパイプラインを作成できます。後者は前者の拡張機能です。分析モデルをパイプラインにドロップして、予測または推奨事項のためのクリーンで統合されたデータを生成する分析パイプラインを作成できます。その後、予測または推奨事項にすぐに対応するか、これらをデータウェアハウスに格納して、BI ツールで表示できる新しい分析情報と推奨事項を提供できます。

データのバッチスコアリングを行うために、Data Factory パイプライン内でサービスとして呼び出す分析モデルを開発できます。 Azure Machine Learning スタジオでコードを使わずに、または Azure Synapse Spark プールノートブックや RStudio で R を使って Azure Machine Learning SDK で、分析モデルを開発できます。 Azure Synapse Spark プールノートブックで Spark 機械学習パイプラインを実行すると、分析は大規模に行われます。

統合データと、あらゆる Data Factory 分析パイプライン結果を、Data Lake Storage、Azure Synapse、HDInsight の Hive テーブルなどの 1 つ以上のデータストアに格納できます。また、Data Factory 分析パイプラインによって生成された分析情報に基づいて動作する他のアクティビティを呼び出すこともできます。

データ統合セットアップの主な目的は、データを 1 回統合し、データウェアハウスだけでなく、あらゆる場所で再利用できることです。たとえば、統合データをデータサイエンスで使用できます。再利用により、再発明が回避され、誰もが信頼できる一貫性のある一般的に理解されるデータが確保されます。

Common Data Model では、企業全体で共有および再利用できるコアデータエンティティについて説明します。再利用を実現するために、Common Data Model では、論理データエンティティを記述する一連の共通データ名と定義が確立されます。一般的なデータ名の例としては、Customer (顧客)、Account (取引先企業)、Product (製品)、Supplier (仕入れ先)、Orders (受注)、Payments (支払い)、Returns (返品) などがあります。 IT プロフェッショナルとビジネスプロフェッショナルは、データ統合ソフトウェアを使用して、共通データ資産を作成して保存し、最大限に再利用し、あらゆる場所で一貫性を高めることができます。

Azure Synapse では、レイク内のデータの標準化に役立つ業界固有のデータベーステンプレートを提供しています。レイクデータベーステンプレートは、定義済みのビジネス領域向けにスキーマを提供し、構造化された方法でデータをレイクデータベースに読み込むことができるようにします。この機能は、データ統合ソフトウェアを使用してレイクデータベースの共通データ資産を作成するときに利用され、その結果、アプリケーションや分析システムで使用できる自己記述的な信頼できるデータとなります。 Data Factory を使用して、Data Lake Storage に共通のデータ資産を作成できます。

ヒント

Data Lake Storage は、Microsoft Azure Synapse、Azure Machine Learning、Azure Synapse Spark、HDInsight を支える共有ストレージです。

Power BI、Azure Synapse Spark、Azure Synapse、Azure Machine Learning では、共通のデータ資産を使用できます。次の図は、Azure Synapse でレイクデータベースを使用できる方法を示しています。

Azure Synapse でレイクデータベースを使用できる方法を示すスクリーンショット。

ヒント

共通データ資産を最大限に再利用するには、データを統合して、共有ストレージにレイクデータベース論理エンティティを作成してください。

Azure での Microsoft データサイエンステクノロジとの統合

データウェアハウスを最新化する際のもう 1 つの重要な目的は、競争上の優位性を得るための分析情報を生成することです。移行したデータウェアハウスを、Azure の Microsoft およびサードパーティのデータサイエンステクノロジと統合することで、分析情報を生成できます。次のセクションでは、Microsoft が提供する機械学習とデータサイエンステクノロジについて説明し、これらを最新のデータウェアハウス環境で Azure Synapse とともにどのように使用できるかを見ていきます。

Azure のデータサイエンスのための Microsoft テクノロジ

Microsoft からは、高度な分析をサポートするさまざまなテクノロジが提供されています。これらのテクノロジを使用すると、機械学習を使用して予測分析モデルを構築したり、ディープラーニングを使用して非構造化データを分析したりできます。このテクノロジには、次のものがあります。

Azure Machine Learning Studio
Azure Machine Learning
Azure Synapse Spark プールノートブック
ML.NET (API、CLI、または ML.NET Model Builder for Visual Studio)
.NET for Apache Spark

データサイエンティストは、RStudio (R) と Jupyter Notebook (Python) を使用して分析モデルを開発することも、Keras や TensorFlow などのフレームワークを使用することもできます。

ヒント

コードなしまたはコード量が少ないアプローチを使用するか、Python、R、.NET などのプログラミング言語を使用して、機械学習モデルを開発します。

Azure Machine Learning Studio

Azure Machine Learning Studio は、ドラッグアンドドロップによる Web ベースの UI を介して、予測分析を構築、デプロイ、共有できるフルマネージドクラウドサービスです。次のスクリーンショットは、Azure Machine Learning Studio の UI を示しています。

Azure Machine Learning

Azure Machine Learning には、データを速やかに準備し、機械学習モデルをトレーニングしてデプロイするのに役立つ、Python 用の SDK とサービスが用意されています。 Azure Machine Learning は、Jupyter Notebook を使用する Azure Notebooks で使用でき、PyTorch、TensorFlow、scikit-learn、Spark MLlib (Spark 用機械学習ライブラリ) などのオープンソースフレームワークを使用できます。 Azure Machine Learning は、モデル開発を迅速に行うために、複数のアルゴリズムを自動的にテストして最も正確なアルゴリズムを識別する AutoML 機能を備えています。

ヒント

Azure Machine Learning には、いくつかのオープンソースフレームワークを使用して機械学習モデルを開発するための SDK が用意されています。

また、Azure Machine Learning を使用して、エンドツーエンドのワークフローを管理し、プログラムによってクラウドでスケーリングし、クラウドとエッジの両方にモデルをデプロイする機械学習パイプラインを構築することもできます。 Azure Machine Learning には、Azure portal でプログラムまたは手動によって作成できる論理スペースであるワークスペースが含まれています。これらのワークスペースは、コンピューティングターゲット、実験、データストア、トレーニング済みの機械学習モデル、Docker イメージ、デプロイ済みのサービスをすべて 1 か所に保持して、チームが共同で作業できるようにします。 Azure Machine Learning は、Visual Studio for AI 拡張機能を備えた Visual Studio から使用できます。

ヒント

関連するデータストア、実験、トレーニング済みモデル、Docker イメージ、およびデプロイ済みのサービスをワークスペースに整理して管理します。

Azure Synapse Spark プールノートブック

Azure Synapse Spark プールノートブックは、Azure に最適化された Apache Spark サービスです。 Azure Synapse Spark プールノートブックでは、次のことが可能です。

データエンジニアは、Data Factory を使用してスケーラブルなデータ準備ジョブを構築して実行できます。
データサイエンティストは、Scala、R、Python、Java、SQL などの言語で記述されたノートブックを使用して大規模な機械学習モデルを構築して実行し、結果を視覚化できます。

ヒント

Azure Synapse Spark は、Microsoft によって提供された、動的にスケーラブルなサービスとしての Spark であり、データ準備のスケーラブルな実行、モデル開発、デプロイ済みモデル実行を提供します。

Azure Synapse Spark プールノートブックで実行されているジョブでは、Azure Blob Storage、Data Lake Storage、Azure Synapse、HDInsight、および Apache Kafka などのストリーミングデータサービスから大規模にデータを取得、処理、分析できます。

ヒント

Azure Synapse Spark では、Azure 上のさまざまな Microsoft 分析エコシステムデータストア内のデータにアクセスできます。

Azure Synapse Spark プールノートブックでは、総保有コスト (TCO) を削減するために自動スケーリングと自動終了がサポートされています。データサイエンティストは、MLflow オープンソースフレームワークを使用して機械学習ライフサイクルを管理できます。

ML.NET

ML.NET は、Windows、Linux、macOS 用のオープンソースでクロスプラットフォームの機械学習フレームワークです。 Microsoft は、.NET 開発者が ML.NET Model Builder for Visual Studio などの既存のツールを使用してカスタム機械学習モデルを開発し、それらを .NET アプリケーションに統合できるように ML.NET を作成しました。

ヒント

Microsoft は、その機械学習機能を .NET 開発者まで拡張しました。

.NET for Apache Spark

.NET for Apache Spark は、Spark のサポートを、R、Scala、Python、Java を超えて .NET まで拡張し、すべての Spark API で .NET 開発者が Spark にアクセスできるようにすることを目的としています。 .NET for Apache Spark は現在、HDInsight の Apache Spark でのみ使用できますが、Microsoft では、.NET for Apache Spark を Azure Synapse Spark プールノートブックで使用できるようにする予定です。

データウェアハウスで Azure Synapse Analytics を使用する

機械学習モデルを Azure Synapse と組み合わせるために、次のことができます。

ストリーミングデータに対してバッチモードまたはリアルタイムで機械学習モデルを使用して、新しい分析情報を生成し、それらの分析情報を Azure Synapse で既知のものに追加します。
Azure Synapse のデータを使用して、他のアプリケーションなどの別の場所にデプロイするための新しい予測モデルを開発およびトレーニングします。
データウェアハウス内のデータを分析し、新しい事業価値を推進するために、他のあらゆる場所でトレーニングされたモデルを含む機械学習モデルを Azure Synapse にデプロイします。

ヒント

Azure Synapse のデータを使用して、Azure Synapse Spark プールノートブックで機械学習モデルを大規模にトレーニング、テスト、評価、実行します。

データサイエンティストは、RStudio、Jupyter Notebook、Azure Synapse Spark プールノートブックを Azure Machine Learning と共に使用して、Azure Synapse のデータを使用して Azure Synapse Spark プールノートブックで大規模に実行される機械学習モデルを開発できます。たとえば、データサイエンティストはさまざまなマーケティングキャンペーンを推進するために、顧客をセグメント化する教師なしモデルを作成できます。教師あり機械学習を使用してモデルをトレーニングし、顧客のチャーンの傾向を予測したり、顧客が価値を高めるために次のベストなオファーを推奨したりするなど、特定の結果を予測します。次の図は、Azure Synapse を Azure Machine Learning に利用する方法を示しています。

Azure Synapse のトレーニングと予測モデルのスクリーンショット。

別のシナリオでは、ソーシャルネットワークデータやレビュー Web サイトデータを Data Lake Storage に取り込み、自然言語処理を使用してデータを Azure Synapse Spark プールノートブックで大規模に準備および分析し、製品やブランドに関する顧客のセンチメントをスコアリングできます。その後、それらのスコアをデータウェアハウスに追加できます。ビッグデータ分析を使用して、製品の売上に対する否定的なセンチメントの影響を理解することで、データウェアハウス内の既知の内容に追加します。

ヒント

Azure の機械学習を使用して新しい分析情報をバッチまたはリアルタイムで生成し、データウェアハウスで既知のものに追加します。

ライブストリーミングデータを Azure Synapse Analytics に統合する

最新のデータウェアハウス内のデータを分析する場合は、ストリーミングデータをリアルタイムで分析し、データウェアハウス内の履歴データと結合できる必要があります。例として、IoT データと製品または資産データを組み合わせることがあります。

ヒント

データウェアハウスを IoT デバイスまたはクリックストリームからのストリーミングデータと統合します。

データウェアハウスを Azure Synapse に正常に移行したら、Azure Synapse の追加機能を利用して、データウェアハウスの最新化演習の一環としてライブストリーミングデータ統合を導入できます。そのためには、Event Hubs、Apache Kafka などの他のテクノロジ、または可能ならば既存の ETL ツール (ストリーミングデータソースをサポートしている場合) を使用して、ストリーミングデータを取り込みます。データを Data Lake Storage に格納します。次に、PolyBase を使用して Azure Synapse に外部テーブルを作成し、Data Lake Storage にストリーミングされるデータにそれをポイントして、リアルタイムストリーミングデータへのアクセスを提供する新しいテーブルがデータウェアハウスに含まれるようにします。 Azure Synapse にアクセスできる任意の BI ツールの標準 T-SQL を使用して、データがデータウェアハウスにあるかのように、この外部テーブルに対してクエリを実行します。また、ストリーミングデータを履歴データを含む他のテーブルに結合し、ライブストリーミングデータを履歴データに結合するビューを作成して、ビジネスユーザーが簡単にデータにアクセスできるようにすることもできます。

ヒント

Event Hubs または Apache Kafka から Data Lake Storage にストリーミングデータを取り込み、PolyBase 外部テーブルを使用して Azure Synapse からデータにアクセスします。

次の図では、Azure Synapse 上のリアルタイムデータウェアハウスが、Data Lake Storage 内のストリーミングデータと統合されています。

Data Lake Storage 内にストリーミングデータを持つ Azure Synapse のスクリーンショット。

PolyBase を使用して論理データウェアハウスを作成する

PolyBase を使用すると、多数の分析データストアへのユーザーアクセスを簡素化する論理データウェアハウスを作成できます。多くの企業では、データウェアハウスに加えて、過去数年にわたって "ワークロード最適化" 分析データストアを採用しています。 Azure 上の分析プラットフォームには、次のものがあります。

ビッグデータ分析用の Azure Synapse Spark プールノートブック (サービスとしての Spark) を備える Data Lake Storage。
同様にビッグデータ分析用の HDInsight (サービスとしての Hadoop)。
Azure Cosmos DB で実行できるグラフ分析用の NoSQL Graph データベース
移動中のデータのリアルタイム分析用の Event Hubs と Stream Analytics。

また、これらのプラットフォームの Microsoft 以外の同等製品や、顧客、サプライヤー、製品、資産などに関する一貫した信頼できるデータを得るためにアクセスする必要があるマスターデータ管理 (MDM) システムがある場合もあります。

ヒント

PolyBase により、Azure 上の多数の基になる分析データストアへのアクセスが簡素化され、ビジネスユーザーがアクセスしやすくなります。

これらの分析プラットフォームは、企業の内部と外部の新しいデータソースが急増し、新しいデータをキャプチャして分析したいというビジネスユーザーの要求のために出現しました。新しいデータソースには次のようなものがあります。

IoT センサーデータやクリックストリームデータなど、マシンによって生成されたデータ。
ソーシャルネットワークデータ、レビュー Web サイトデータ、顧客の受信メール、画像、ビデオなどの人間が生成したデータ。
その他の外部データ (公開されている政府のデータや気象データなど)。

この新しいデータは、通常はデータウェアハウスにフィードする構造化トランザクションデータやメインデータソースの範囲を超え、多くの場合は次のものが含まれています。

JSON、XML、Avro などの半構造化データ。
テキスト、音声、画像、動画などの非構造化データ。処理と分析がより複雑になります。
大量のデータ、高速データ、またはその両方。

その結果、自然言語処理、グラフ分析、ディープラーニング、ストリーミング分析、大量の構造化データの複雑な分析など、より複雑な新しい種類の分析が発生しています。これらの種類の分析は、一般に、データウェアハウスでは発生しないため、この図に示すように、さまざまな種類の分析ワークロード用のさまざまな分析プラットフォームが見られるのは驚くべきことではありません。

Azure Synapse でのさまざまな種類の分析ワークロード用のさまざまな分析プラットフォームのスクリーンショット。

ヒント

複数の分析データストア内のデータがすべて 1 つのシステム内にあるように見せ、それを Azure Synapse に結合する機能は、論理データウェアハウスアーキテクチャと呼ばれます。

これらのプラットフォームでは新しい分析情報が生成されるため、新しい分析情報を Azure Synapse で既知のものと組み合わせる要件が発生することは当然のことであり、PolyBase を使うとそれが可能です。

Azure Synapse 内で PolyBase のデータ仮想化を使用することで、論理データウェアハウスを実装できます。それにより、Azure Synapse 内のデータは、HDInsight などの他の Azure やオンプレミスの分析データストア内のデータ、Azure Cosmos DB 内のデータ、または Stream Analytics や Event Hubs から Data Lake Storage に流れ込むストリーミングデータに結合されます。この方法により、ユーザーに対する複雑さが低下します。ユーザーは、Azure Synapse で外部テーブルにアクセスし、アクセスしているデータが複数の基になる分析システムに格納されていることを知る必要はありません。次の図は、比較的シンプルでも強力な UI メソッドを使用してアクセスされる複雑なデータウェアハウス構造を示しています。

UI メソッドを使ってアクセスされる複雑なデータウェアハウス構造の例を示すスクリーンショット。

この図では、Microsoft 分析エコシステムの他のテクノロジと Azure Synapse の論理データウェアハウスアーキテクチャの機能を組み合わせる方法が示されています。たとえば、データを Data Lake Storage に取り込み、Data Factory を使ってデータをキュレーションして、Microsoft のレイクデータベースの論理データエンティティを表す信頼できるデータ製品を作成できます。この信頼でき、一般的に解釈できるデータは、Azure Synapse、Azure Synapse Spark プールノートブック、Azure Cosmos DB など、さまざまな分析環境で使用および再利用できます。これらの環境で生成されるすべての分析情報には、PolyBase によって可能にされた論理データウェアハウスデータ仮想化レイヤーを介してアクセスできます。

ヒント

論理データウェアハウスアーキテクチャにより、ビジネスユーザーによるデータへのアクセスが簡素化され、データウェアハウス内の既知のものに新しい価値が加えられます。

まとめ

データウェアハウスを Azure Synapse Analytics に移行した後は、Microsoft 分析エコシステムの他のテクノロジを利用できます。そうすることで、データウェアハウスを最新化するだけでなく、他の Azure 分析データストアで生成された分析情報を統合された分析アーキテクチャに組み合わせます。

ETL 処理を拡張して、あらゆる種類のデータを Data Lake Storage に取り込んでから、Data Factory を使用して大規模に準備および統合し、信頼できて一般的に理解できるデータ資産を作成できます。それらの資産は、データウェアハウスで使用でき、データサイエンティストやその他のアプリケーションからアクセスできます。リアルタイムでバッチ指向の分析パイプラインを構築し、機械学習モデルを作成して、バッチで、ストリーミングデータに対してリアルタイムに、サービスとしてオンデマンドで実行することができます。

PolyBase または COPY INTO を使ってデータウェアハウスの範囲を超え、Azure 上の複数の基になる分析プラットフォームの分析情報に簡単にアクセスできます。これを行うには、ストリーミング、ビッグデータ、従来のデータウェアハウスの分析情報に BI ツールやアプリケーションからアクセスすることをサポートする、総合的な統合ビューを論理データウェアハウスに作成します。

データウェアハウスを Azure Synapse に移行することで、Azure で実行されている豊富な Microsoft 分析エコシステムを利用して、ビジネスの新しい価値を促進できます。

次のステップ

専用 SQL プールへの移行については、「Azure Synapse Analytics 専用 SQL プールへデータウェアハウスを移行する」をご覧ください。

次の方法で共有

Oracle の移行に加えて、Microsoft Azure に最新のデータウェアハウスを実装する

Azure へのデータウェアハウスの移行を超えて