Dela via


Flera datazoner för analys i molnskala i Azure

Den här referensarkitekturen är avsedd för organisationer som har implementerat en grundläggande version av analys i molnskala och nu är redo att vara värd för nya affärsenheter för att modernisera sin analysverksamhet. Det här mer komplexa scenariot använder flera landningszoner, dataprogram och dataprodukter.

Apache Hive och Hive-logotypen är antingen registrerade varumärken eller varumärken som tillhör Apache Software Foundation i USA och/eller andra länder. Inget godkännande från Apache Software Foundation underförstås av användningen av dessa märken.

Problemuttryck

Relecloud, det fiktiva företaget i det här exemplet, är en privat molnleverantör som erbjuder delad databehandling och lagringsresurser till globala organisationer. Även om Relecloud tillhandahåller beräkningsresurser vill de inte begränsa sin plattform med sina egna interna åtgärder. Därför förlitar de sig på Microsoft Azure för sina interna databehandlingsbehov.

Dataanalytiker i driftgruppen använder telemetridata från molntjänster för att förstå hur deras kunder använder plattformen. Ett separat team av analytiker i faktureringsgruppen studerar faktureringsdata för att få insikter om vilka tjänster som genererar mest intäkter.

Förra kvartalet moderniserade driftsteamet sin analysplattform genom att migrera den till Azure. Ett mål med att implementera analys i molnskala var att maximera potentialen för att skala plattformen och lägga till nya organisationsarbetsbelastningar.

I dag har faktureringsgruppen vuxit ur sin aktuella analyslösning. Mängden fakturor som ska analyseras är för stor för den lokala servern. Teamet bestämmer sig för att följa driftgruppens ledning och modernisera sin plattform för dataanalys i Azure.

Analytiker i faktureringsgruppen har andra kunskaper än analytiker i driftgruppen. Faktureringsanalytikerna vill inte vara begränsade till att använda samma verktyg som åtgärder. Faktureringsgruppen finns i en annan del av organisationen och vill ha flexibiliteten att implementera de principer och procedurer som uppfyller deras behov.

Arkitekturlösning

Relecloud skalar sin analysplattform genom att lägga till en ny landningszon för faktureringsgruppen. Den här landningszonen tillhandahåller en virtuell arbetsyta för faktureringsgruppen för att implementera de analyslösningar som uppfyller deras affärsbehov. Genom att ha en landningszon separat från organisationens andra resurser kan faktureringsgruppen implementera sina egna åtkomstprinciper och ta hänsyn till kostnaderna för sina tjänster.

Följande diagram representerar inte alla Azure-tjänster. Diagrammet är förenklat för att markera huvudbegreppen för att organisera resurser i arkitekturen.

Diagram över en arkitektur för flera landningszoner för analys i molnskala.

Landningszon för datahantering

Ett viktigt krav för en analysimplementering i molnskala är en landningszon för datahantering. Den här prenumerationen innehåller resurser som delas mellan alla landningszoner, inklusive delade nätverkskomponenter som en brandvägg eller privata DNS-zoner. Den innehåller även resurser för data- och molnstyrning. Microsoft Purview och Databricks Unity Catalog har distribuerats som tjänster på klientorganisationsnivå.

Relecloud skapade en landningszon för datahantering när de distribuerade dataanalyslösningen för åtgärdsgruppen. När faktureringsgruppen ansluter till plattformen använder de samma landningszon för datahantering för att dela gemensamma resurser med åtgärdsgruppen.

Landningszon för driftdata

Åtgärdsgruppen har följande lösningar i sin datalandningszon.

Program för driftdata

Teamet har skapat en källa-anpassad dataapplikation som använder Apache Spark-jobb i Azure Databricks för att samla in tjänsttelemetridata och lagra dem i ett Azure Data Lake Storage-konto.

Den här processen kopierar data as-is från källsystemet men transformerar dem inte. Analytiker kan arbeta med kopierade data på analysplattformen utan att överbelasta källsystemet. I stället för att skapa en dedikerad distribution för det här dataprogrammet använder driftteamet Databricks-arbetsytan i den delade Mata in & Bearbetning resursgrupp.

Relecloud-kunder kan skapa molnkonton för att hantera resurser och fakturering i sina privata moln. Varje kund kan ha flera konton. Analysteamet skapade ett dataprogram för att importera molnkontodata. Eftersom volymen och frekvensen för data är mycket lägre än för telemetridata behöver teamet inte använda Spark-jobb. I stället skapade de Azure Data Factory-pipelines för att kopiera data.

Azure Database for MySQL fungerar som Hive-metaarkiv och Azure SQL Database är Azure Data Factory-metaarkivet.

Produkter för driftdata

Relecloud-analytiker får värde från data i källjusterade dataprogram genom att skapa nya konsumentjusterade dataprogram. Ett av dessa konsumentjusterade dataprogram är en molntjänstrekommendator modell. Relecloud-dataexperter använde Azure Machine Learning för att skapa en modell som tittar på de tjänster som ett molnkonto använder och föreslår relaterade tjänster som kan vara användbara. Teamet distribuerar den här modellen till ett AkS-kluster (Azure Kubernetes Service) som körs i landningszonen och hanteras av Azure Machine Learning. Program som körs utanför analys i molnskala kan anropa AKS-slutpunkten för att få rekommendationer.

När faktureringsteamet har skapat sin landningszon skapar driftteamet en ny dataprodukt som deras hanteringsteam begär. Ledningsteamet vill veta hur mycket intäkter Molntjänstrekommendatorn dataapplikation genererar. Den nya rekommendationsintäkts dataprodukten använder Azure Synapse Analytics för att kombinera data från rekommenderare för molntjänster och intäkter per tjänst till en ny dataprodukt. Affärsanalytiker kan ansluta till Azure Synapse med Microsoft Power BI för att hitta och rapportera insikter från den nya dataprodukten.

Landningszon för faktureringsdata

Faktureringsgruppen använde ett lokalt system för att driva sin analys, men när datavolymen växte och företaget förlitade sig mer på sitt arbete kunde systemet inte hålla jämna steg. Gruppen moderniserar sin plattform genom att flytta till molnet.

Faktureringsgruppen delar inte en landningszon med driftgruppen, men får en egen landningszon där de har friheten att skapa den plattform som bäst passar deras behov. Den nya landningszonen är ansluten till landningszonen för datahantering och alla andra datalandningszoner med peering för virtuella nätverk. Med den här mekanismen kan data delas på ett säkert sätt via det interna Azure-nätverket.

Program för faktureringsdata

Om du vill landa data från befintliga system i analysplattformen skapar faktureringsgruppen två dataprogram. Det första programmet matar in kunddata, inklusive den fullständiga listan över kunder och alla relaterade data, till exempel kundadresser, platser och säljuppgifter. Det andra programmet importerar företagets fakturahistorik, som innehåller alla faktureringsavgifter till kunder och relaterade betalningsdata.

Båda dessa program drivs av pipelines på den delade Azure Synapse-arbetsytan. Varje program har en dedikerad beräkningspool för att underlätta kostnadsredovisning och säkerhetsgränser. Eftersom programmen kan implementeras fullt ut med delade resurser behöver faktureringsgruppen inte skapa någon distribution för dessa dataprogram.

Faktureringsdataprodukt

Faktureringsanalytikerna skapar en ny dataprodukt med namnet Intäkter per tjänst som analyserar hur mycket intäkter varje molntjänst genererar för Relecloud. Den här produkten förlitar sig på data i fakturor inmatning. Produkten ansluter också till driftens landningszon och läser tjänstanvändningsdata. Precis som dataprogrammen förlitar sig dataprodukten också på den delade Azure Synapse-arbetsytan.

Nästa steg

Fortsätt till Lamna Healthcare-scenariot för säker analys i molnskala i Azure.

Mer information finns i följande artiklar: