Dela via


Så här matar du in historiska data i Azure Data Explorer

Ett vanligt scenario vid registrering till Azure Data Explorer är att mata in historiska data, som ibland kallas återfyllnad. Processen omfattar inmatning av data från ett befintligt lagringssystem till en tabell, vilket är en samling utrymmen.

Vi rekommenderar att du matar in historiska data med hjälp av egenskapen creationTime-inmatning för att ange tiden för skapande av utrymmen till den tidpunkt då data skapades. Om du använder skapandetiden som inmatningspartitioneringskriterier kan du åldersbestäma dina data i enlighet med dina cache- och kvarhållningsprinciper och göra tidsfilter mer effektiva.

Som standard anges skapandetiden för utrymmen till den tid då data matas in, vilket kanske inte ger det beteende som du förväntar dig. Anta till exempel att du har en tabell som har en cacheperiod på 30 dagar och en kvarhållningsperiod på två år. I det normala flödet cachelagras data som matas in när de skapas i 30 dagar och flyttas sedan till kall lagring. Efter två år, baserat på skapandetiden, tas äldre data bort en dag i taget. Men om du matar in två års historiska data där data som standard markeras med skapandetiden som den tid då data matas in. Det här kanske inte ger önskat resultat eftersom:

  • Alla data hamnar i cacheminnet och stannar där i 30 dagar med hjälp av mer cacheminne än du förväntade dig.
  • Äldre data tas inte bort en dag i taget. Därför behålls data i klustret längre än nödvändigt och efter två år tas alla bort samtidigt.
  • Data, som tidigare grupperats efter datum i källsystemet, kan nu grupperas i samma utsträckning, vilket leder till ineffektiva frågor.

Diagram som visar det förväntade kontra faktiska resultatet av inmatning av historiska data med standardtiden för skapande.

I den här artikeln får du lära dig hur du partitioner historiska data:

  • Använda inmatningsegenskapen creationTime under inmatning (rekommenderas)

    Om möjligt kan du mata in historiska data med hjälp av creationTime inmatningsegenskapen, vilket gör att du kan ange skapandetiden för utrymmena genom att extrahera dem från filen eller blobsökvägen. Om mappstrukturen inte använder ett mönster för skapandedatum rekommenderar vi att du omstrukturerar filen eller blobsökvägen så att den återspeglar skapandetiden. Med den här metoden matas data in i tabellen med rätt skapandetid och cache- och kvarhållningsperioder tillämpas korrekt.

    Anteckning

    Som standard partitioneras utrymmena när de skapas (inmatning), och i de flesta fall behöver du inte ange en princip för datapartitionering.

  • Använda en partitioneringsprincip efter inmatning

    Om du inte kan använda inmatningsegenskapen creationTime , till exempel om du matar in data med hjälp av Azure Cosmos DB-anslutningsappen där du inte kan styra skapandetiden eller om du inte kan strukturera om mappstrukturen, kan du partitionera om tabellen efter inmatningen för att uppnå samma effekt med partitioneringsprincipen. Den här metoden kan dock kräva en del utvärderingsversioner och fel för att optimera principegenskaper och är mindre effektiv än att använda inmatningsegenskapen creationTime . Vi rekommenderade endast den här metoden när det inte går att använda inmatningsegenskapen creationTime .

Förutsättningar

  • Ett Microsoft-konto eller en Microsoft Entra användaridentitet. En Azure-prenumeration krävs inte.
  • Ett Azure Data Explorer-kluster och en databas. Skapa ett kluster och en databas.
  • Ett lagringskonto.
  • Installera LightIngest för den rekommenderade metoden att använda inmatningsegenskapen creationTime under inmatningen.

Mata in historiska data

Vi rekommenderar starkt att du partitionerar historiska data med hjälp av inmatningsegenskapen creationTime under inmatningen. Men om du inte kan använda den här metoden kan du partitionera om tabellen efter inmatning med hjälp av en partitioneringsprincip.

LightIngest kan vara användbart för att läsa in historiska data från ett befintligt lagringssystem till Azure Data Explorer. Du kan skapa ett eget kommando med hjälp av listan med kommandoradsargument, men den här artikeln visar hur du skapar kommandot automatiskt via en inmatningsguide. Förutom att skapa kommandot kan du använda den här processen för att skapa en ny tabell och skapa schemamappning. Det här verktyget härleder schemamappning från din datauppsättning.

Mål

  1. I webbgränssnittet för Azure Data Explorer väljer du Fråga på den vänstra menyn.

  2. Högerklicka på databasen där du vill mata in data och välj sedan LightIngest.

    Skärmbild av webbgränssnittet för Azure Data Explorer som visar databasens fler meny.

    Fönstret Mata in data öppnas med fliken Mål markerad. Fälten Kluster och Databas fylls i automatiskt.

  3. Välj en måltabell. Om du vill mata in data i en ny tabell väljer du Ny tabell och anger sedan ett tabellnamn.

    Anteckning

    Tabellnamn kan innehålla upp till 1 024 tecken, inklusive blanksteg, alfanumeriska tecken, bindestreck och understreck. Specialtecken stöds inte.

    Skärmbild av målfliken som visar måldatabasen och tabellen.

  4. Välj Nästa: Källa.

Källa

  1. Under Välj källa väljer du antingen Lägg till URL eller Välj container.

    • När du lägger till en URL under Länk till källa anger du kontonyckeln eller SAS-URL:en till en container. Du kan skapa SAS-URL:en manuellt eller automatiskt.

    • När du väljer en container från ditt lagringskonto väljer du din Lagringsprenumeration, Lagringskonto och Container i listrutorna.

      Skärmbild av dialogrutan för att välja container från lagringsprenumeration och konto.

    Anteckning

    Inmatning stöder en maximal filstorlek på 6 GB. Rekommendationen är att mata in filer mellan 100 MB och 1 GB.

  2. Välj Avancerade inställningar för att definiera ytterligare inställningar för inmatningsprocessen med LightIngest.

    Skärmbild av att välja avancerade inställningar för inmatningsbearbetning som involverar verktyget LightIngest.

  3. I fönstret Avancerad konfiguration definierar du LightIngest-inställningarna enligt följande tabell.

    Skärmbild av det avancerade konfigurationsfönstret som visar de ytterligare inställningarna för inmatningsbearbetning som involverar verktyget LightIngest.

    Egenskap Beskrivning
    Tidsmönster för skapande Ange för att åsidosätta inmatningstidsegenskapen för den skapade omfattningen med ett mönster, till exempel för att tillämpa ett datum baserat på containerns mappstruktur. Se även Tidsmönster för skapande.
    Mönster för blobnamn Ange det mönster som används för att identifiera de filer som ska matas in. Mata in alla filer som matchar mönstret för blobnamn i den angivna containern. Stöder jokertecken. Vi rekommenderar att du omsluter dubbla citattecken.
    Tag En tagg som tilldelats till inmatade data. Taggen kan vara vilken sträng som helst.
    Begränsa mängden filer Ange hur många filer som kan matas in. Matar in de första n filerna som matchar mönstret för blobnamn, upp till det angivna talet.
    Vänta inte på att inmatningen ska slutföras Om detta anges köar blobarna för inmatning utan att övervaka inmatningsprocessen. Om den inte anges fortsätter LightIngest att avsöka inmatningsstatusen tills inmatningen har slutförts.
    Visa endast markerade objekt Visa en lista över filerna i containern, men mata inte in dem.
  4. Välj Klar för att återgå till fliken Källa .

    1. Du kan också välja Filfilter för att filtrera data för att endast mata in filer i en specifik mappsökväg eller med ett visst filnamnstillägg.

      Skärmbild av filtrering av data på källfliken på skärmen Mata in nya data.

      Som standard väljs en av filerna i containern slumpmässigt och används för att generera schemat för tabellen.

    2. Du kan också ange vilken fil som ska användas under Schemadefinieringsfil.

  5. Välj Nästa: Schema för att visa och redigera konfigurationen av tabellkolumnen.

Schema

Fliken Schema innehåller en förhandsgranskning av data.

Generera kommandot LightIngest genom att välja Nästa: Starta inmatning.

Valfritt:

  • Ändra det automatiskt härledda dataformatet genom att välja önskat format i den nedrullningsbara menyn.
  • Ändra det automatiskt härledda mappningsnamnet. Du kan använda alfanumeriska tecken och understreck. Blanksteg, specialtecken och bindestreck stöds inte.
  • När du använder en befintlig tabell kan du behålla det aktuella tabellschemat om tabellschemat matchar det valda formatet.
  • Välj Kommandovisningsprogram för att visa och kopiera de automatiska kommandon som genereras från dina indata.
  • Redigera kolumner. Under Partiell dataförhandsgranskning väljer du listrutorna i kolumnen för att ändra olika aspekter av tabellen.

Vilka ändringar du kan göra i en tabell beror på följande parametrar:

  • Tabelltypen är ny eller befintlig
  • Mappningstypen är ny eller befintlig
Tabelltyp Mappningstyp Tillgängliga justeringar
Ny tabell Ny mappning Ändra datatyp, Byt namn på kolumn, Ny kolumn, Ta bort kolumn, Uppdatera kolumn, Sortera stigande, Sortera fallande
Befintlig tabell Ny mappning Ny kolumn (där du sedan kan ändra datatyp, byta namn på och uppdatera)
Uppdatera kolumn, Sortera stigande, Sortera fallande
Befintlig mappning Sortera stigande, Sortera fallande

Anteckning

När du lägger till en ny kolumn eller uppdaterar en kolumn kan du ändra mappningstransformeringar. Mer information finns i Mappa transformeringar

Mata in

  1. När kommandot table, mapping och LightIngest har markerats med gröna bockmarkeringar väljer du kopieringsikonen längst upp till höger i kommandorutan Genererad för att kopiera det genererade LightIngest-kommandot.

    Skärmbild av fliken Sammanfattning med kommandot genererat. Du kan kopiera kommandot med hjälp av kopieringsikonen ovanför den genererade kommandorutan.

    Anteckning

    Om det behövs kan du ladda ned LightIngest-verktyget genom att välja Ladda ned LightIngest.

  2. För att slutföra inmatningsprocessen måste du köra LightIngest med hjälp av det kopierade kommandot.