Dela via


Datarensning

gäller för:SQL Server

Datarensning är en process för att analysera datakvaliteten i en datakälla, godkänna/avvisa förslag från systemet manuellt och därmed göra ändringar i data. Datarensning i Data Quality Services (DQS) innehåller en datorassisterad process som analyserar hur data överensstämmer med kunskaperna i en kunskapsbas och en interaktiv process som gör det möjligt för dataförvaltaren att granska och ändra datorstödda processresultat för att säkerställa att datarensningen är exakt som de vill.

Dataförvaltaren kan också utföra datarensning i Integration Services-paketeringsprocessen. I det här fallet använder dataförvaltaren komponenten DQS Cleansing i Integration Services som automatiskt utför datarensning med hjälp av en befintlig kunskapsbas. Mer information finns i DQS Cleansing Transformation.

Funktionen för datarensning i DQS har följande fördelar:

  • Identifierar ofullständiga eller felaktiga data i datakällan (Excel-fil eller SQL Server-databas) och korrigerar eller varnar dig om ogiltiga data.

  • Tillhandahåller tvåstegsprocess för att rensa data: datorstödd och interaktiv. Den datorstödda processen använder kunskapen i en DQS-kunskapsbas för att automatiskt bearbeta data och föreslå ersättningar/korrigeringar. Nästa steg, interaktivt, gör att dataförvaltaren kan godkänna, avvisa eller ändra de ändringar som föreslås av DQS under den datorstödda rensningen.

  • Standardiserar och berikar kunddata med hjälp av domänvärden, domänregler och referensdata. Standardisera till exempel termanvändning genom att ändra "St." till "Street", berika data genom att fylla i saknade element genom att ändra "1 Microsoft way Redmond 98006" till "1 Microsoft Way, Redmond, WA 98006".

  • Tillhandahåller ett enkelt, intuitivt och konsekvent guideliknande gränssnitt för användaren för att navigera i data och inspektera fel bland en mycket stor uppsättning data.

Följande bild visar hur datarensning görs i DQS:

datarensningsprocess i DQS

Datorassisterad rensning

DQS-datarensningsprocessen tillämpar kunskapsbasen på de data som ska rensas och föreslår ändringar i data. Dataförvaltaren har tillgång till varje föreslagen ändring, vilket gör det möjligt för honom eller henne att bedöma och korrigera ändringarna. För att utföra datarensning fortsätter dataförvaltaren på följande sätt:

  1. Skapa ett datakvalitetsprojekt, välj en kunskapsbas som du vill analysera och rensa källdata mot och välj aktiviteten Cleansing. Flera datakvalitetsprojekt kan använda samma kunskapsbas.

  2. Ange databastabellen/vyn eller en Excel-fil som innehåller de källdata som ska rensas. Databasen eller Excel-filen kan vara samma som användes för kunskapsidentifiering, eller så kan det vara en annan databas eller Excel-fil.

    Not

    Om du väljer samma datakälla för kunskapsidentifiering och rensningsaktiviteter ändras inga data. Vi rekommenderar att du kör kunskapsidentifiering på exempeldata och sedan rensar dina källdata mot den kunskap som skapades under kunskapsidentifieringsaktiviteten.

  3. Mappa de datafält som ska rensas till lämpliga domäner/sammansatta domäner i kunskapsbasen. Om du mappar ett fält till en sammansatt domän sker mappningen mellan fältet och den sammansatta domänen och inte med de enskilda domänerna i den sammansatta domänen. Dessutom görs datarensningen för det mappade fältet baserat på de regler som angetts för den sammansatta domänen och inte för de enskilda domänerna i den sammansatta domänen. Mer information om sammansatta domäner finns i DQS-kunskapsbaser och domäner.

  4. Kör den datorstödda rensningsprocessen genom att klicka på Starta på sidan Rensa.

Datarensningsprocessen hittar den bästa matchningen av en instans av data till kända datadomänvärden. Processen tillämpar datakvalitetskunskaper på alla källdata, till skillnad från kunskapsidentifieringsprocessen, som körs på en procentandel av exempeldata.

Den datorstödda processen visar information om datakvalitet i datakvalitetsklienten som ska användas för den interaktiva rensningsprocessen. Förutom att följa syntaxfelreglerna använder DQS även referensdata och avancerade algoritmer för att kategorisera data med hjälp av konfidensnivå. Konfidensnivån anger i vilken utsträckning det finns säkerhet hos DQS för korrigeringen eller förslaget. Konfidensnivån baseras på följande tröskelvärden:

  • Ett tröskelvärde för automatisk korrigering värde över vilket DQS föreslår en ändring och gör det om inte dataförvaltaren avvisar den. Du kan ange tröskelvärdet för automatisk korrigering på fliken Allmänna inställningar på skärmen Konfiguration. Mer information finns i Konfigurera tröskelvärden för rensning och matchning.

  • Ett värde för tröskeln för automatisk förslag, som ligger under tröskeln för automatisk korrigering, över vilken DQS kommer att föreslå en ändring och genomföra den om datakuratorn godkänner det. Du kan ange tröskelvärdet för automatiskt förslag på fliken Allmänna inställningar på skärmen Konfiguration. Mer information finns i Konfigurera tröskelvärden för rensning och matchning.

Alla värden som har en konfidensnivå under ett tröskelvärde för automatiskt förslag lämnas oförändrade av DQS, om inte datakuratorn specificerar en ändring.

Interaktiv rensning

Baserat på den datorstödda rensningsprocessen ger DQS dataförvaltaren information som de behöver för att fatta ett beslut om att ändra data. DQS kategoriserar data under följande fem flikar:

  • Föreslagna: Värden som DQS hittade förslag på som har en konfidensnivå som är högre än tröskelvärdet för automatiskt förslag men lägre än tröskelvärdet för automatisk korrigering värde. Du bör granska dessa värden och godkänna eller avvisa efter behov.

  • Ny: Giltiga värden som DQS inte har tillräckligt med information för (förslag) och därför inte kan mappas till någon annan flik. Dessutom innehåller den här fliken även värden som har en konfidensnivå som är mindre än tröskelvärdet för automatiskt förslag, men som är tillräckligt högt för att markeras som giltigt.

  • Ogiltig: Värden som har markerats som ogiltiga i domänen i kunskapsbasen eller värden som misslyckades med en domänregel eller referensdata. Den här fliken innehåller också värden som avvisas av användaren på någon av de andra fyra flikarna under den interaktiva rensningsprocessen.

  • Korrigerade: Värden som korrigeras av DQS under den automatiserade rensningsprocessen, eftersom DQS fann en korrigering för värdet med en konfidensnivå över tröskelvärdet för automatisk korrigering . Den här fliken innehåller också värden som användaren angav ett korrekt värde för i kolumnen Korrigera till under interaktiv rensning och sedan godkänns genom att klicka på alternativknappen i kolumnen Godkänn på någon av de övriga fyra flikarna.

  • Rätt: Värden som hittades korrekt. Till exempel matchade värdet ett domänvärde. Om det behövs kan du åsidosätta DQS-rensning genom att avvisa värden under den här fliken, eller genom att ange ett alternativt ord i kolumnen Korrigera till och sedan klicka på alternativknappen i kolumnen Acceptera. Den här fliken kommer också att innehålla värden som godkänts av användaren under interaktiv rensning genom att klicka på alternativknappen i kolumnen Godkänn, i antingen fliken Ny eller Ogiltig.

Not

I flikarna Föreslagna, Korrigeradeoch Korrekta, visar DQS det ledande värdet för en domän, om tillämpligt, i kolumnen Rätt till mot respektive domänvärde.

Dataförvaltaren använder datakvalitetsklienten för att se de ändringar som DQS har föreslagit och för att avgöra om de ska implementeras eller inte. De kan kontrollera att värdena som DQS har angett som korrekta faktiskt är korrekta. De kan kontrollera att ändringar som redan gjorts av DQS, med hög konfidensnivå, bör göras. Stwarden kan bestämma om automatiskt föreslagna ändringar ska godkännas. Och de kan granska värden som inte har ändrats, ifall de vill göra en ändring som inte hittas av den datorstödda processen.

DQS sammanfogar alla ändringar som dataförvaltaren har gjort med resultatet av den datorstödda datarensningen. Dessa ändringar kommer att stanna kvar i projektet. De kommer dock inte att läggas till i kunskapsbasen. Under datarensningen är den associerade kunskapsbasen skrivskyddad.

När datarensningsprocessen har slutförts kan du välja att exportera bearbetade data till en ny tabell i en SQL Server-databas, .csv fil eller Excel-fil. Källdata som rensningen utförs på behålls i sitt ursprungliga tillstånd. Dataförvaltaren kan använda separata rensade data för att korrigera faktiska källdata.

Följande bild visar hur datarensning görs med hjälp av klientprogrammet för datakvalitet:

Datarensning i Datakvalitetsklienten

Inledande värdekorrigering

Inledande värdekorrigering gäller för domänvärden som har synonymer och användaren vill använda ett av synonymvärdena som inledande värde i stället för andra för konsekvent representation av värdet. Till exempel är "New York", "NYC" och "big apple" synonymer, och användaren vill använda "New York" som det ledande värdet i stället för "NYC" och "Big Apple". DQS stöder inledande värdekorrigering under rensningsprocessen för att hjälpa dig att standardisera dina data. Den inledande värdekorrigeringen görs endast om domänen var aktiverad för samma när den skapades. Som standard är alla domäner aktiverade för inledande värdekorrigering såvida du inte avmarkerat kryssrutan Använd inledande värden när du skapar en domän. Mer information om den här kryssrutan finns i Ange domänegenskaper.

Standardisera rensade data

Du kan välja om du vill exportera rensade data i standardformat baserat på det utdataformat som definierats för domäner. När du skapar en domän kan du välja den formatering som ska användas när datavärdena i domänen matas ut. Mer information om hur du anger utdataformat för en domän finns i listan Formatera utdata till i Ange domänegenskaper.

När du exporterar rensade data på sidan Exportera i projektguiden för rengöring av datakvalitet anger du om du vill att de rensade data ska exporteras i standardformat genom att markera kryssrutan Standardisera utdata. Som standard exporteras de rensade data i standardformat, det vill s. v.s. kryssrutan är markerad. Mer information om hur du exporterar rensade data finns i Rensa data med DQS-kunskap (intern).

Aktivitetsbeskrivning Ämne
Beskriver hur du konfigurerar tröskelvärden för rensningsaktiviteten. Konfigurera tröskelvärden för rensning och matchande
Beskriver hur du rensar data med hjälp av kunskap som är inbyggd i DQS. rensa data med hjälp av kunskap från DQS (intern)
Beskriver hur du rensar data med hjälp av kunskap från referensdatatjänsten. rensa data med hjälp av referensdata (extern) kunskap
Beskriver hur du rensar en sammansatt domän. Rensa data i en sammansatt domän

Se även

datakvalitetsprojekt (DQS)
datamatchning