다음을 통해 공유


데이터 프로파일링 작업 설정

적용 대상: Azure Data Factory의 SQL Server SSIS Integration Runtime

원본 데이터의 프로필을 검토하기 전에 수행해야 하는 첫 번째 단계는 데이터 프로파일링 태스크를 설정하고 실행하는 것입니다. 통합 서비스 패키지 내에서 이 작업을 만듭니다. 데이터 프로파일링 태스크를 구성하려면 데이터 프로파일링 태스크 편집기를 사용합니다. 이 편집기를 사용하면 프로필을 출력할 위치와 컴퓨팅할 프로필을 선택할 수 있습니다. 작업을 설정한 후 패키지를 실행하여 데이터 프로필을 계산합니다.

요구 사항 및 제한 사항

데이터 프로파일링 태스크는 SQL Server에서 저장된 데이터만 사용할 수 있습니다. 이 태스크는 타사 또는 파일 기반 데이터 원본을 사용할 수 없습니다.

또한 데이터 프로파일링 작업이 포함된 패키지를 실행하려면 tempdb 데이터베이스에서 CREATE TABLE 권한을 비롯한 읽기/쓰기 권한이 있는 계정을 사용해야 합니다.

패키지의 데이터 프로파일링 작업

데이터 프로파일링 작업은 프로필만 구성하고 계산된 프로필을 포함하는 출력 파일을 만듭니다. 이 출력 파일을 검토하려면 독립 실행형 뷰어 프로그램인 데이터 프로필 뷰어를 사용해야 합니다. 출력을 별도로 확인해야 하므로 다른 작업이 없는 패키지에서 데이터 프로파일링 작업을 사용할 수 있습니다.

그러나 패키지의 유일한 작업으로 데이터 프로파일링 작업을 사용할 필요는 없습니다. 더 복잡한 패키지의 워크플로 또는 데이터 흐름에서 데이터 프로파일링을 수행하려는 경우 다음 옵션이 있습니다.

  • 패키지의 제어 흐름에서 태스크의 출력 파일을 기반으로 하는 조건부 논리를 구현하려면 데이터 프로파일링 태스크 뒤에 스크립트 태스크를 삽입합니다. 그런 다음 이 스크립트 작업을 사용하여 출력 파일을 쿼리할 수 있습니다.

  • 데이터가 로드되고 변환된 후 데이터 흐름에서 데이터를 프로파일링하려면 변경된 데이터를 임시로 SQL Server 테이블에 저장해야 합니다. 그런 다음 저장된 데이터를 프로파일링할 수 있습니다.

자세한 내용은 패키지 워크플로에서 데이터 프로파일링 작업 통합을 참조하세요.

작업 출력 설정

패키지에 데이터 프로파일링 태스크를 삽입한 후에는 태스크에서 컴퓨팅할 프로필의 출력을 설정해야 합니다. 프로필에 대한 출력을 설정하려면 데이터 프로파일링 작업 편집기의 일반 페이지를 사용합니다. 일반 페이지에서는 출력 대상을 지정하는 것 외에도 데이터의 빠른 프로필을 수행할 수 있는 기능도 제공합니다. 빠른 프로필을 선택하면 데이터 프로파일링 작업은 기본 설정과 함께 일부 또는 모든 기본 프로필을 사용하여 테이블 또는 뷰를 프로파일링합니다.

자세한 내용은 데이터 프로파일링 태스크 편집기(일반 페이지)단일 테이블 빠른 프로필 형식(데이터 프로파일링 태스크)을 참조하세요.

Important

출력 파일에는 데이터베이스 및 데이터베이스에 포함된 데이터에 대한 중요한 데이터가 포함될 수 있습니다. 이 파일을 보다 안전하게 만드는 방법에 대한 제안 사항은 패키지에서 사용하는 파일에 대한 액세스를 참조하세요.

계산할 프로필의 선택 및 구성

출력 파일을 설정한 후에는 컴퓨팅할 데이터 프로필을 선택해야 합니다. 데이터 프로파일링 작업은 다른 데이터 프로필 여덟 개를 계산할 수 있습니다. 이 중 5개는 개별 열을 분석하며, 나머지 3개는 여러 열 또는 열과 테이블 간의 관계를 분석합니다. 단일 데이터 프로파일링 태스크에서 여러 테이블 또는 뷰에 있는 여러 열이나 열 조합에 대해 여러 프로필을 컴퓨팅할 수 있습니다.

다음 테이블에서는 이러한 각 프로필이 계산하는 보고서와 프로필이 유효한 데이터 형식에 대해 설명합니다.

계산하려면 식별에 도움이 되는 이 프로파일 사용
선택한 열에 있는 문자열 값의 모든 고유 길이 및 각 길이가 나타내는 테이블 내 행의 백분율. 유효하지 않은 문자열 값-예를 들어 미국 상태 코드에 두 문자를 사용해야 하지만 두 문자보다 긴 값을 검색해야 하는 열의 프로필을 만듭니다. 열 길이 분포 -다음 문자 데이터 형식 중 하나가 지정된 열에 대해 유효합니다.

char

nchar

varchar

nvarchar
문자열 열에서 지정된 값의 비율을 포괄하는 정규식 집합

또한 향후 새 값의 유효성을 검사하는 데 사용할 수 있는 정규식을 찾으려면
유효하지 않거나 올바른 형식이 아닌 문자열 값-예를 들어 우편 번호 열의 패턴 프로필은 \d{5}-\d{4}, \d{5} 및 \d{9} 정규식을 생성할 수 있습니다. 출력에 다른 정규식이 포함된 경우 데이터에 유효하지 않거나 잘못된 형식의 값이 포함되어 있는 것입니다. 열 패턴 프로필 - 다음 문자 데이터 형식 중 하나가 포함된 열에 대해 유효합니다.

char

nchar

varchar

nvarchar
선택한 열 내 Null 값의 비율 예기치 않게 높은 열 내 Null 값의 비율 - 예를 들어 미국 우편 번호를 포함해야 하는 열을 프로파일링하는 중 예기치 않게 높은 비율의 누락된 우편 번호를 검색할 수 있습니다. 열 Null 프로필 - 다음 데이터 형식 중 하나가 포함된 열에 대해 유효합니다.

image

text

xml

사용자 정의 형식

변형 형식
숫자 열에 대한 최소값, 최대값, 평균값, 표준 편차 및 datetime 열에 대한 최소값/최대값과 같은 통계 유효하지 않은 숫자 값 및 날짜 - 예를 들어 기록 날짜 열을 프로파일링하는 중 미래의 최대 날짜를 검색할 수 있습니다. 열 통계 프로필 - 다음 데이터 형식 중 하나가 포함된 열에 대해 유효합니다.

숫자 데이터 형식:

정수 형식(비트 제외)

money

smallmoney

decimal

float

real

numeric

날짜 및 시간 데이터 형식:

datetime

smalldatetime

timestamp

date

time

datetime2

datetimeoffset

참고: 날짜 및 시간 데이터 형식이 있는 열의 경우 프로필은 최소 및 최대값만 계산합니다.
선택한 열에 있는 모든 고유 값 및 각 값이 나타내는 테이블 내 행의 백분율 또는 테이블에서 지정된 행 비율을 초과하는 값. 열에 있는 고유 값의 수가 잘못됨-예를 들어 미국의 주가 포함된 열을 프로파일링하는 중 50개를 초과하는 고유 값이 검색될 수 있습니다. 열 값 분포 -다음 데이터 형식 중 하나가 지정된 열에 대해 유효합니다.

숫자 데이터 형식

정수 형식(비트 제외)

money

smallmoney

decimal

float

real

numeric

문자 데이터 형식:

char

nchar

varchar

nvarchar

날짜 및 시간 데이터 형식:

datetime

smalldatetime

timestamp

date

time

datetime2

datetimeoffset
열 또는 열 집합이 선택한 테이블에 대해 키인지, 아니면 근사 키인지 여부 잠재적 키 열의 중복 값- 예를 들어 Customers 테이블의 Name 및 Address 열을 프로파일링하는 중 이름과 주소의 조합이 고유해야 하는데 중복 값이 검색될 수 있습니다. 후보 키- 열 또는 열 집합이 선택한 테이블에 대한 키 역할을 수행하기에 적합한지 여부를 보고하는 여러 열 프로필 다음 데이터 형식 중 하나가 지정된 열에 대해 유효합니다.

정수 데이터 형식

bit

tinyint

smallint

int

bigint

문자 데이터 형식:

char

nchar

varchar

nvarchar

날짜 및 시간 데이터 형식:

datetime

smalldatetime

timestamp

date

time

datetime2

datetimeoffset
함수 종속성 프로필은 한 열(종속 열)의 값이 다른 열 또는 열 집합(결정 열)의 값에 종속되는 범위. 종속 열에서 유효하지 않은 값- 예를 들어 미국 우편 번호를 포함하는 열과 미국의 주를 포함하는 열 간의 종속성을 프로파일링할 수 있습니다. 동일한 우편 번호는 항상 동일한 상태를 가져야 합니다. 그러나 프로필은 종속성 위반을 검색합니다. 함수 종속성- 다음 데이터 형식 중 하나가 지정된 열에 대해 유효합니다.

정수 데이터 형식

bit

tinyint

smallint

int

bigint

문자 데이터 형식:

char

nchar

varchar

nvarchar

날짜 및 시간 데이터 형식:

datetime

smalldatetime

timestamp

date

time

datetime2

datetimeoffset
따라서 이 프로필은 열 또는 열 집합이 선택한 테이블 간의 외래 키 역할을 수행하기에 적합한지 여부.

즉, 이 프로필은 두 열 또는 열 집합 간에 겹치는 값을 보고합니다.
유효하지 않은 값- 예를 들어 Sales 테이블의 ProductID 열을 프로파일링합니다. 프로필은 열에 Products 테이블의 ProductID 열에서 찾을 수 없는 값이 포함되어 있음을 찾아냅니다. 값 포함- 다음 데이터 형식 중 하나가 지정된 열에 대해 유효합니다.

정수 데이터 형식

bit

tinyint

smallint

int

bigint

문자 데이터 형식:

char

nchar

varchar

nvarchar

날짜 및 시간 데이터 형식:

datetime

smalldatetime

timestamp

date

time

datetime2

datetimeoffset

컴퓨팅할 프로필을 선택하려면 데이터 프로파일링 작업 편집기의 프로필 요청 페이지를 사용합니다. 자세한 내용은 데이터 프로파일링 태스크 편집기(프로필 요청 페이지)를 참조하세요.

프로필 요청 페이지에서 데이터 원본을 지정하고 데이터 프로필도 구성합니다. 작업을 구성할 때 다음 정보를 고려해야 합니다.

  • 구성을 단순화하고 익숙지 않은 데이터의 특징을 더욱 쉽게 파악하기 위해 개별 열 이름 대신 와일드카드, (*)를 사용할 수 있습니다. 이 와일드카드를 사용하는 경우 작업은 적절한 데이터 형식이 있는 모든 열을 프로파일로 지정하므로 처리 속도가 느려질 수 있습니다.

  • 선택한 테이블 또는 뷰가 비어 있으면 데이터 프로파일링 태스크가 프로필을 컴퓨팅하지 않습니다.

  • 선택한 열의 모든 값이 Null이면 데이터 프로파일링 작업이 열 Null 비율 프로필만 계산합니다. 빈 열에 대한 열 길이 분포 프로필, 열 패턴 프로필, 열 통계 프로필 또는 열 값 분포 프로필을 계산하지 않습니다.

사용 가능한 데이터 프로필 각각에는 고유한 구성 옵션이 있습니다. 해당 옵션에 대한 자세한 정보는 다음 주제를 참조하세요.

데이터 프로파일링 작업을 포함하는 패키지 실행

데이터 프로파일링 작업을 설정한 후 작업을 실행할 수 있습니다. 그러면 이 태스크에서 데이터 프로필을 계산하여 이 정보를 XML 형식으로 파일 또는 패키지 변수에 출력합니다. 이 XML의 구조는 DataProfile.xsd 스키마를 따릅니다. Microsoft Visual Studio 또는 다른 스키마 편집기, XML 편집기, 메모장과 같은 텍스트 편집기에서 이 스키마를 열 수 있습니다. 데이터 품질 정보에 대한 이 스키마는 다음과 같은 목적으로 유용할 수도 있습니다.

  • 조직 내부 또는 조직 간의 데이터 품질 정보 교환

  • 데이터 품질 정보를 사용하는 사용자 지정 도구를 빌드합니다.

대상 네임스페이스는 스키마에서 https://schemas.microsoft.com/sqlserver/2008/DataDebugger/로 식별됩니다.

이후 수행할 단계

데이터 프로필 뷰어