학습 가능한 분류자 시작
Microsoft Purview 학습 가능 분류자는 살펴볼 샘플을 제공하여 다양한 유형의 콘텐츠를 인식하도록 학습할 수 있는 도구입니다. 학습되면 이를 사용하여 Office 민감도 레이블, 통신 규정 준수 정책 및 보존 레이블 정책의 적용 항목을 식별할 수 있습니다.
사용자 지정 학습 가능한 분류자를 구현하려면 다음 두 단계가 필요합니다.
- 두 가지 샘플 데이터 집합을 제공합니다(사용자가 선택).
- 범주에 속하는 항목만 포함하는 집합입니다.
- 범주에 속 하지 않는 항목만 포함하는 집합입니다.
- 분류자의 일치 항목을 검색하는 기능을 테스트합니다.
이 문서에서는 사용자 지정 분류자를 만들고 테스트하는 방법을 설명합니다.
다양한 분류자 유형에 대한 자세한 내용은 학습 가능한 분류자 알아보기를 참조하세요.
팁
E5 고객이 아닌 경우 90일 Microsoft Purview 솔루션 평가판을 사용하여 조직이 데이터 보안 및 규정 준수 요구 사항을 관리하는 데 도움이 되는 추가 Purview 기능을 살펴보세요. Microsoft Purview 평가판 허브에서 지금 시작합니다. 등록 및 평가판 조건에 대한 세부 정보를 알아봅니다.
필수 구성 요소
라이선스 요구사항
분류자는 Microsoft 365 E3 및 E5 규정 준수의 기능입니다. 이러한 구독을 사용하려면 이러한 구독 중 하나가 있어야 합니다.
권한
다음 시나리오에서 분류자를 사용하려면 다음 권한이 필요합니다.
시나리오 | 필수 역할 권한 |
---|---|
보존 레이블 정책 | 레코드 관리 보존 관리 |
민감도 레이블 정책 | 보안 관리자 규정 준수 관리자 규정 준수 데이터 관리자 |
통신 규정 준수 정책 | 내부 위험 관리 관리자 감독 검토 관리자 |
중요
기본적으로 사용자 지정 분류자를 만드는 사용자만 해당 분류자가 수행한 예측을 학습하고 검토할 수 있습니다.
사용자 지정 학습 가능한 분류자 준비
자세히 알아보기 전에 사용자 지정 학습 가능한 분류자를 만드는 데 관련된 사항을 이해하는 것이 유용합니다.
전체 워크플로
사용자 지정 학습 가능한 분류자를 만드는 전체 워크플로에 대한 자세한 내용은 사용자 지정 학습 가능한 분류자를 만들기 위한 프로세스 흐름을 참조하세요.
시드 콘텐츠
학습 가능한 분류자에서 항목이 특정 콘텐츠 범주에 속하는지 독립적이고 정확하게 식별할 수 있도록 하려면 범주에 있는 콘텐츠 형식의 많은 샘플을 제공해야 합니다. 학습 가능한 분류자로 샘플을 공급하는 것을 시드라고 합니다. 사람이 시드 콘텐츠를 선택하는 사람이어야 하며, 해당 콘텐츠에는 분류자가 감지하도록 설계된 콘텐츠(양수 샘플)를 강력하게 나타내는 항목만 포함된 데이터 집합과 명확하게 속하지 않는 두 번째 항목 집합(음수 샘플)이 포함되어야 합니다.
분류자를 학습하려면 50개 이상의 양성 샘플(최대 500개) 및 150개 이상의 음수 샘플(최대 1500개)이 필요합니다. 더 많은 샘플을 제공할수록 분류자의 예측이 더 정확해집니다. 학습 가능한 분류자는 가장 최근에 만든 2000개의 샘플(파일 생성 날짜/타임스탬프별)을 처리합니다.
팁
최상의 결과를 위해 50개 이상의 긍정적인 예제와 150개 이상의 부정적인 예제를 포함하는 테스트 샘플 집합에 200개 이상의 항목이 있습니다.
학습 가능한 분류자를 만드는 방법
사용 중인 포털에 해당하는 탭을 선택합니다. Microsoft 365 플랜에 따라 Microsoft Purview 규정 준수 포털 사용 중지되거나 곧 사용 중지됩니다.
Microsoft Purview 포털에 대해 자세히 알아보려면 Microsoft Purview 포털을 참조하세요. 규정 준수 포털에 대한 자세한 내용은 Microsoft Purview 규정 준수 포털을 참조하세요.
미리 보기에서: 다음 프로세스는 학습 가능한 분류자의 테스트를 자동화하고 생성 워크플로를 12일에서 2일로 단축합니다. (경우에 따라 프로세스는 몇 시간밖에 걸리지 않습니다.)
분류자에서 범주에 있는 것으로 긍정적으로 식별하려는 데이터를 강력하게 나타내는 50~500개 시드 콘텐츠 항목을 수집합니다. 지원되는 파일 형식 목록은 SharePoint Server의 기본 크롤링 파일 이름 확장명 및 구문 분석된 파일 형식을 참조하세요.
범주에 속하지 않는 데이터를 나타내는 두 번째 시드 콘텐츠 집합(항목 150~1500개)을 수집합니다.
양수 및 음수 시드 콘텐츠를 별도의 SharePoint 폴더에 배치합니다. 각 폴더는 시드 콘텐츠만 보유하도록 전용이어야 합니다. 각 집합에 대한 사이트, 라이브러리 및 폴더 URL을 기록해 둡니다.
팁
시드 데이터에 대한 새 SharePoint 사이트 및 폴더를 만드는 경우 해당 시드 데이터를 사용할 학습 가능한 분류자를 만들기 전에 해당 위치의 인덱싱을 1시간 이상 허용합니다.
준수 관리자 또는 보안 관리자 역할 액세스를 사용하여 Microsoft Purview 포털 또는 Microsoft Purview 규정 준수 포털 로그인하고 데이터 손실 방지>데이터 분류>분류자로 이동합니다.
학습 가능한 분류자 탭을 선택합니다.
학습 가능한 분류자 만들기를 선택합니다.
긍정적인 예제의 원본 추가: 분류자에서 검색해야 하는 시드 콘텐츠에 대한 SharePoint 사이트, 라이브러리 및 폴더 URL을 선택한 다음, 다음을 선택합니다.
음수 예제의 원본 추가: 분류자에서 무시해야 하는 시드 콘텐츠에 대한 SharePoint 사이트, 라이브러리 및 폴더 URL을 선택한 다음, 다음을 선택합니다.
설정을 검토하고 학습 가능한 분류자 만들기를 선택합니다.
학습 가능한 분류자는 24시간 이내에 시드 데이터를 처리하고 예측 모델을 빌드합니다. 시드 데이터를 처리하는 동안 분류자 상태는 진행 중입니다. 분류자에서 시드 데이터 처리를 마치면 학습에 대한 상태 변경 내용이 완료되고 항목이 테스트됩니다.
학습이 완료되고 항목이 자동으로 테스트되면 사용할 게시를 선택하여 분류자를 게시합니다.
게시되면 분류자는 민감도 레이블이 있는 Office 자동 레이블 지정, 조건에 따라 자동 적용 보존 레이블 정책 및 통신 규정 준수에서 조건으로 사용할 수 있습니다.
분류자 테스트
학습 가능한 분류자는 예측 모델을 빌드하기에 충분한 양의 및 음수 샘플을 처리한 후에는 예측이 만드는 예측을 테스트해야 합니다. 분류자를 테스트할 때 예측이 올바른지 확인합니다. 모든 데이터가 처리되면 수동으로 결과를 살펴보고 각 예측이 올바르거나, 올바르지 않거나, 확실하지 않은지 확인합니다. Microsoft는 이 피드백을 집계로 사용하여 예측 모델을 개선합니다.