eDiscovery에서 부분적으로 인덱싱된 항목 조사
팁
eDiscovery(미리 보기)는 이제 새 Microsoft Purview 포털에서 사용할 수 있습니다. 새 eDiscovery 환경을 사용하는 방법에 대한 자세한 내용은 eDiscovery에 대한 자세한 정보(미리 보기)를 참조하세요.
Microsoft Purview 규정 준수 포털 실행하는 eDiscovery 검색에는 검색을 실행할 때 예상 검색 결과에 부분적으로 인덱싱된 항목이 자동으로 포함됩니다. 부분적으로 인덱싱된 항목은 SharePoint 및 비즈니스용 OneDrive 사이트의 Exchange 사서함 항목 및 문서로, 어떤 이유로 검색을 위해 완전히 인덱싱되지 않았습니다. 대부분의 전자 메일 메시지 및 사이트 문서는 전자 메일 메시지에 대한 인덱싱 제한에 속하기 때문에 성공적으로 인덱싱됩니다. 그러나 일부 항목은 이러한 인덱싱 제한을 초과할 수 있으며 부분적으로 인덱싱됩니다. 다음은 검색을 위해 항목을 인덱싱할 수 없고 eDiscovery 검색을 실행할 때 부분적으로 인덱싱된 항목으로 반환되는 다른 이유입니다.
- Email 메시지에는 열 수 없는 첨부 파일이 있습니다. 이는 부분적으로 인덱싱된 전자 메일 항목의 가장 일반적인 원인입니다.
- 전자 메일 메시지에 첨부된 파일이 너무 많습니다.
- 전자 메일 메시지에 첨부된 파일이 너무 큽합니다.
- 파일 형식 인덱싱은 지원되지만 특정 파일에 대해 인덱싱 오류가 발생했습니다.
다양하지만 대부분의 조직 고객은 볼륨별 콘텐츠의 1% 미만과 부분적으로 인덱싱된 크기별 콘텐츠의 12% 미만을 가지고 있습니다. 볼륨과 크기가 다른 이유는 큰 파일이 완전히 인덱싱할 수 없는 콘텐츠를 포함할 확률이 높기 때문입니다.
콘텐츠 검색의 부분 인덱스 항목에 대한 자세한 내용은 콘텐츠 검색에서 부분적으로 인덱싱된 항목 조사를 참조하세요.
팁
E5 고객이 아닌 경우 90일 Microsoft Purview 솔루션 평가판을 사용하여 조직이 데이터 보안 및 규정 준수 요구 사항을 관리하는 데 도움이 되는 추가 Purview 기능을 살펴보세요. Microsoft Purview 평가판 허브에서 지금 시작합니다. 등록 및 평가판 조건에 대한 세부 정보를 알아봅니다.
부분적으로 인덱싱된 항목 수가 검색에 변경되는 이유는 무엇인가요?
eDiscovery 검색을 실행하면 검색된 위치에서 부분적으로 인덱싱된 항목의 총 수와 크기가 검색에 대한 자세한 통계에 표시되는 검색 결과 통계에 나열됩니다. 이러한 항목을 검색 통계에서 인덱스되지 않은 항목 이라고 합니다. 다음은 검색 결과에 반환되는 부분적으로 인덱싱된 항목의 수에 영향을 주는 몇 가지 사항입니다.
- 항목이 부분적으로 인덱싱되고 검색 쿼리와 일치하는 경우 검색 결과 항목의 개수(및 크기)와 부분적으로 인덱싱된 항목 모두에 포함됩니다. 그러나 동일한 검색 결과를 내보낼 때 항목은 검색 결과 집합에만 포함됩니다. 부분적으로 인덱싱된 항목으로 포함되지 않습니다.
- SharePoint 및 OneDrive 사이트에 있는 부분적으로 인덱싱된 항목 은 검색에 대한 자세한 통계에 표시되는 부분적으로 인덱싱된 항목의 추정치에 포함되지 않습니다. 그러나 eDiscovery 검색 결과를 내보낼 때 부분적으로 인덱싱된 항목을 내보낼 수 있습니다. 예를 들어 사이트를 검색하는 경우 부분적으로 인덱싱된 예상 항목 수는 0이 됩니다.
organization 부분적으로 인덱싱된 항목의 비율 계산
organization 부분적으로 인덱싱된 항목에 대한 노출을 이해하려면 빈 키워드(keyword) 쿼리를 사용하여 모든 사서함의 모든 콘텐츠에 대한 검색을 실행할 수 있습니다. 다음 예제에서는 1,629,904(146.46GB) 완전 인덱싱된 항목과 부분적으로 인덱싱된 항목 10,025개(10.27GB)가 있습니다.
다음 계산을 사용하여 부분적으로 인덱싱된 항목의 백분율을 확인할 수 있습니다.
organization 부분적으로 인덱싱된 항목의 비율을 계산하려면 다음을 수행합니다.
(Total number of partially indexed items/Total number of items) x 100
(10025/1629904) x 100 = 0.62%
이전 예제의 검색 결과를 사용하면 모든 사서함 항목의 0.62%가 부분적으로 인덱싱됩니다.
organization 부분적으로 인덱싱된 항목 크기의 백분율을 계산하려면 다음을 수행합니다.
(Size of all partially indexed items/Size of all items) x 100
(10.27 GB/146.46 GB) x 100 = 7.0%
따라서 이전 예제에서는 사서함 항목의 총 크기 중 7%가 부분적으로 인덱싱된 항목에서 나온 것입니다. 앞서 언급했듯이 대부분의 조직 고객은 볼륨별 콘텐츠의 1% 미만과 부분적으로 인덱싱된 크기별 콘텐츠의 12% 미만을 가지고 있습니다.
부분적으로 인덱싱된 항목 작업
부분적으로 인덱싱된 항목을 검사하여 관련 정보가 없는지 확인해야 하는 경우 부분적으로 인덱싱된 항목에 대한 정보가 포함된 콘텐츠 검색 보고서를 내보낼 수 있습니다. 콘텐츠 검색 보고서를 내보낼 때 부분적으로 인덱싱된 항목을 포함하는 내보내기 옵션 중 하나를 선택해야 합니다.
이러한 옵션 중 하나를 사용하여 eDiscovery 검색 결과 또는 검색 보고서를 내보낼 때 내보내기에는 unindexed Items.csv 보고서가 포함됩니다. 이 보고서에는 ResultsLog.csv 파일과 동일한 정보가 대부분 포함됩니다. 그러나 인덱싱되지 않은 Items.csv 파일에는 부분적으로 인덱싱된 항목과 관련된 두 필드인 오류 태그 및 오류 속성도 포함됩니다. 이러한 필드에는 부분적으로 인덱싱된 각 항목의 인덱싱 오류에 대한 정보가 포함됩니다. 이러한 두 필드의 정보를 사용하면 특정 인덱싱 오류가 조사에 영향을 미치는지 여부를 확인하는 데 도움이 될 수 있습니다.
참고
인덱스되지 않은 Items.csv 파일에는 오류 유형 및 오류 메시지라는 필드도 포함되어 있습니다. 오류 태그 및 오류 속성 필드의 정보와 비슷하지만 세부 정보가 적은 정보를 포함하는 레거시 필드입니다. 이러한 레거시 필드를 무시해도 됩니다.
부분적으로 인덱싱된 항목과 관련된 오류
오류 태그는 오류와 파일 형식의 두 가지 정보로 구성됩니다. 예를 들어 이 오류/파일 형식 쌍에서는 다음을 수행합니다.
parseroutputsize_xls
parseroutputsize
는 오류이며 xls
오류가 발생한 파일의 파일 형식입니다. 파일 형식이 인식되지 않았거나 파일 형식이 오류에 적용되지 않은 경우 파일 형식 대신 값 noformat
이 표시됩니다.
다음은 인덱싱 오류 목록과 오류의 가능한 원인에 대한 설명입니다.
오류 태그 | 설명 |
---|---|
attachmentcount |
전자 메일 메시지에 첨부 파일이 너무 많았고 이러한 첨부 파일 중 일부는 처리되지 않았습니다. |
attachmentdepth |
콘텐츠 검색기 및 문서 파서에서 다른 첨부 파일 내에 중첩된 첨부 파일이 너무 많은 것을 발견했습니다. 이러한 첨부 파일 중 일부는 처리되지 않았습니다. |
attachmentrms |
첨부 파일이 RMS로 보호되었기 때문에 디코딩에 실패했습니다. |
attachmentsize |
전자 메일 메시지에 첨부된 파일이 너무 커서 처리할 수 없습니다. |
indexingtruncated |
처리된 전자 메일 메시지를 인덱스로 쓸 때 인덱싱 가능한 속성 중 하나가 너무 커서 잘렸습니다. 잘린 속성은 오류 속성 필드에 나열됩니다. |
invalidunicode |
전자 메일 메시지에 유효한 유니코드로 처리할 수 없는 텍스트가 포함되어 있습니다. 이 항목에 대한 인덱싱이 불완전할 수 있습니다. |
parserencrypted |
첨부 파일 또는 전자 메일 메시지의 콘텐츠가 암호화되고 Microsoft 365에서 콘텐츠를 디코딩할 수 없습니다. |
parsererror |
구문 분석 중에 알 수 없는 오류가 발생했습니다. 일반적으로 소프트웨어 버그 또는 서비스 크래시로 인해 발생합니다. |
parserinputsize |
첨부 파일이 너무 커서 파서가 처리할 수 없었고 해당 첨부 파일의 구문 분석이 수행되지 않았거나 완료되지 않았습니다. |
parsermalformed |
첨부 파일의 형식이 잘못되었으며 파서에서 처리할 수 없습니다. 이 결과는 이전 파일 형식, 호환되지 않는 소프트웨어에서 만든 파일 또는 클레임 이외의 것으로 가장하는 바이러스 때문일 수 있습니다. |
parseroutputsize |
첨부 파일 구문 분석의 출력이 너무 커서 잘림해야 했습니다. |
parserunknowntype |
첨부 파일에는 Microsoft 365에서 검색할 수 없는 파일 형식이 있습니다. |
parserunsupportedtype |
첨부 파일에는 Office 365 검색할 수 있는 파일 형식이 있지만 해당 파일 형식을 구문 분석하는 것은 지원되지 않습니다. |
propertytoobig |
Exchange Store의 전자 메일 속성 값이 너무 커서 검색할 수 없으며 메시지를 처리할 수 없습니다. 일반적으로 전자 메일 메시지의 본문 속성에만 발생합니다. |
retrieverrms |
콘텐츠 검색기가 RMS로 보호되는 메시지를 디코딩하지 못했습니다. |
wordbreakertruncated |
인덱싱하는 동안 문서에서 너무 많은 단어가 식별되었습니다. 제한에 도달하면 속성 처리가 중지되고 속성이 잘립니다. |
오류 필드는 오류 태그 필드에 나열된 처리 오류의 영향을 받는 필드를 설명합니다. 또는 participants
와 같은 subject
속성을 검색하는 경우 메시지 본문의 오류는 검색 결과에 영향을 주지 않습니다. 이는 추가로 조사해야 할 부분 인덱싱된 항목을 정확히 결정할 때 유용할 수 있습니다.