다음을 통해 공유


eDiscovery(프리미엄)의 예측 코딩에 대해 알아보기(미리 보기)

eDiscovery(미리 보기)는 이제 새 Microsoft Purview 포털에서 사용할 수 있습니다. 새 eDiscovery 환경을 사용하는 방법에 대한 자세한 내용은 eDiscovery에 대한 자세한 정보(미리 보기)를 참조하세요.

중요

예측 코딩은 2024년 3월 31일부터 사용 중지되었으며 새로운 eDiscovery 사례에서는 사용할 수 없습니다. 학습된 예측 코딩 모델이 있는 기존 사례의 경우 기존 점수 필터를 검토 집합에 계속 적용할 수 있습니다. 그러나 새 모델을 만들거나 학습시킬 수는 없습니다.

eDiscovery(프리미엄)의 예측 코딩 모듈은 지능형 기계 학습 기능을 사용하여 검토할 콘텐츠의 양을 줄이는 데 도움이 됩니다. 예측 코딩을 사용하면 검토에 우선 순위를 지정할 수 있는 관련 항목 집합으로 대량의 사례 콘텐츠를 줄이고 컬링할 수 있습니다. 이 작업은 검토 집합에서 가장 관련성이 큰 항목의 검토 우선 순위를 지정하는 데 도움이 되는 고유한 예측 코딩 모델을 만들고 학습하여 수행됩니다.

예측 코딩 모듈은 검토 집합 내에서 모델을 관리하는 복잡성을 간소화하고 eDiscovery(프리미엄)의 기계 학습 기능을 더 빠르게 시작할 수 있도록 모델을 학습시키는 반복적인 접근 방식을 제공하도록 설계되었습니다. 시작하려면 모델을 만들고, 관련 있거나 관련이 없는 항목 50개에 해당하는 레이블을 지정할 수 있습니다. 시스템은 이 학습을 사용하여 검토 집합의 모든 항목에 예측 점수를 적용합니다. 이렇게 하면 예측 점수에 따라 항목을 필터링할 수 있으며, 이를 통해 가장 관련성이 큰(또는 관련이 없는) 항목을 먼저 검토할 수 있습니다. 더 높은 정확도 및 회수율로 모델을 학습하려는 경우 모델이 안정화될 때까지 후속 학습 라운드에서 항목에 레이블을 지정할 수 있습니다.

E5 고객이 아닌 경우 90일 Microsoft Purview 솔루션 평가판을 사용하여 조직이 데이터 보안 및 규정 준수 요구 사항을 관리하는 데 도움이 되는 추가 Purview 기능을 살펴보세요. Microsoft Purview 평가판 허브에서 지금 시작합니다. 등록 및 평가판 조건에 대한 세부 정보를 알아봅니다.

예측 코딩 워크플로

각 단계 예측 코딩 워크플로에 대한 개요 및 설명은 다음과 같습니다. 예측 코딩 프로세스의 개념 및 용어에 대한 자세한 설명은 예측 코딩 참조를 참조하세요.

예측 코딩 워크플로.

  1. 검토 집합에 새 예측 코딩 모델을 만듭니다. 첫 번째 단계는 검토 집합에서 새 예측 코딩 모델을 만드는 것입니다. 모델을 만들려면 검토 집합에 2,000개 이상의 항목이 있어야 합니다. 모델을 만든 후 시스템에서 컨트롤 집합으로 사용할 항목 수를 결정합니다. 컨트롤 집합은 학습 프로세스 중에 학습 라운드 중에 수행하는 레이블이 있는 항목에 모델이 할당하는 예측 점수를 평가하는 데 사용됩니다. 컨트롤 집합의 크기는 검토 집합의 항목 수와 모델을 만들 때 설정된 신뢰도 수준 및 오류 값의 여백을 기반으로 합니다. 컨트롤 집합의 항목은 변경되지 않으며 사용자가 식별할 수 없습니다.

    자세한 내용은 예측 코딩 모델 만들기를 참조하세요.

  2. 관련 항목 또는 관련이 없는 항목에 레이블을 지정하여 첫 번째 학습 라운드를 완료합니다. 다음 단계는 첫 번째 학습 라운드를 시작하여 모델을 학습시키는 것입니다. 학습 라운드를 시작하면 모델은 검토 집합에서 학습 집합이라고 하는 추가 항목을 임의로 선택합니다. 이러한 항목(컨트롤 집합과 학습 집합 모두)이 표시되므로 각 항목에 "관련" 또는 "관련이 없음"으로 레이블을 지정할 수 있습니다. 관련성은 문서 메타데이터가 아닌 항목의 콘텐츠를 기반으로 합니다. 학습 라운드에서 레이블 지정 프로세스를 완료한 후 모델은 학습 집합의 항목에 레이블을 지정하는 방법에 따라 "학습"됩니다. 이 학습에 따라 모델은 검토 집합의 항목을 처리하고 각 항목에 예측 점수를 적용합니다.

    자세한 내용은 예측 코딩 모델 학습을 참조하세요.

  3. 검토 집합의 항목에 예측 점수 필터를 적용합니다. 이전 학습 단계가 완료되면 다음 단계는 검토의 항목에 예측 점수 필터를 적용하여 모델이 "가장 관련성이 있다"고 판단한 항목을 표시하는 것입니다(또는 예측 필터를 사용하여 "관련이 없는" 항목을 표시할 수도 있음). 예측 필터를 적용할 때 필터링할 예측 점수 범위를 지정합니다. 예측 점수의 범위는 0 에서 1 사이이며 0 은 "관련이 없음"이고 1 은 관련이 있습니다. 일반적으로 예측 점수가 0에서0.5 사이인 항목은 "관련이 없음"으로 간주되며 예측 점수가 0.5 에서 1 사이인 항목은 관련성이 있는 것으로 간주됩니다.

    자세한 내용은 검토 집합에 예측 필터 적용을 참조하세요.

  4. 모델이 안정화될 때까지 더 많은 학습 라운드를 수행합니다. 예측 정확도가 높고 회수율이 높아진 모델을 만들려는 경우 추가 학습 라운드를 수행할 수 있습니다. 리콜 비율은 모델이 예측한 항목의 비율을 측정하여 실제로 관련된 항목(학습 중에 관련성이 있는 것으로 표시한 항목)과 관련이 있습니다. 회수율 점수는 0 에서 1까지입니다. 점수가 1 에 가까울수록 모델이 더 관련성이 큰 항목을 식별할 수 있음을 나타냅니다. 새 학습 라운드에서는 새 학습 집합의 추가 항목에 레이블을 지정합니다. 학습 라운드를 완료하면 학습 집합의 가장 최근 레이블 지정 항목 라운드의 새 학습을 기반으로 모델이 업데이트됩니다. 모델은 검토 집합의 항목을 다시 처리하고 새 예측 점수를 적용합니다. 모델이 안정화될 때까지 학습 라운드를 계속 수행할 수 있습니다. 모델은 최신 학습 라운드 이후의 변동률이 5% 미만일 때 안정화된 것으로 간주됩니다. 변동률은 학습 라운드 간에 예측 점수가 변경된 검토 집합의 항목 백분율로 정의됩니다. 예측 코딩 dashboard 모델의 안정성을 평가하는 데 도움이 되는 정보와 통계를 표시합니다.

  5. "최종" 예측 점수 필터를 적용하여 검토 우선 순위를 지정할 집합 항목을 검토합니다. 모든 학습 라운드를 완료하고 모델을 안정화한 후 마지막 단계는 최종 예측 점수를 검토 집합에 적용하여 관련 항목과 관련 없는 항목의 검토 우선 순위를 지정하는 것입니다. 3단계에서 수행한 것과 동일한 작업이지만 이 시점에서 모델은 안정적이며 더 이상 학습 라운드를 실행할 계획이 없습니다.