瞭解電子檔探索 (預覽) 案例中的搜尋和分析設定
您可以設定每個電子檔案探索 (預覽) 案例的設定,以控制下列功能:
- 近似重複項和電子郵件對話
- 主題
- 自動產生檢閱集查詢
- 忽略文字
- 光學字元辨識
提示
開始使用 Microsoft Security Copilot,探索使用 AI 功能來更聰明且更快速地工作的新方式。 深入瞭解 Microsoft Purview 中的 Microsoft Security Copilot。
設定案例的分析設定
若要設定案例的搜尋和分析設定:
- 移至 Microsoft Purview 入口網站 ,並使用指派電子檔探索許可權之用戶帳戶的認證登入。
- 選取 電子檔探索 解決方案卡片,然後在左側導覽中選 取 [案例 (預覽) 。
- 選取案例,然後選取 [案例設定]。
- 在 [ 案例設定] 頁面上,選 取 [搜尋 & 分析]。
- [ 搜尋 & 分析] 頁面隨即 顯示。 這些設定會套用至案例中的所有檢閱集。
- 選取適用的搜尋和分析選項之後,請選取 [ 儲存]。
本文中的下列各節說明您可以針對案例設定的分析設定。
近似重複項和電子郵件對話
在本節中,您可以設定重複偵測、近乎重複偵測和電子郵件線程的參數。
- 接近重複/電子郵件線程處理: 開啟時,當您對檢閱集中的數據執行分析時,重複偵測、近乎重複偵測和電子郵件線程會包含在工作流程中。
- 文件和電子郵件相似度閾值: 如果兩份檔的相似度層級超過閾值,這兩份檔會放在相同的接近重複集合中。
- 字數下限/最大值: 這些設定指定,只有至少具有最小字數和最大字數的檔上,才會執行接近重複專案和電子郵件線程分析。
近似重複項偵測
考量要檢閱的一組文件,其中子集是基於相同範本,且大部分都是相同的重複使用語言,但或多或少有一些差異。 如果檢閱者可以識別此子集、徹底檢閱其中一個子集,並檢閱其餘部分的差異,就不會遺漏任何唯一的資訊,而只需要花一些時間來讀取涵蓋的所有檔。 近似重複項偵測會將文字類似的文件分組在一起,以協助您提升檢閱程序的效率。
在執行近似重複項偵測時,系統會剖析每份有文字的文件。 然後將每份文件兩兩比較,以判斷其相似性是否大於所設定的閾值。 如果是,便會將這些文件分組在一起。 比較完所有文件並加以分組後,每個群組的文件會標示為「樞紐」;在檢閱您的文件時,您可以先檢閱樞紐,並檢閱相同近似重複項集合中的其他文件,重點則放在樞紐與受檢閱文件的差異。
電子郵件執行緒
考量已進行一段時間的電子郵件交談。 在大部分情況下,電子郵件線程中的最後一則訊息會包含上述所有訊息的內容。 因此,檢閱最後一則訊息會提供線程中所發生交談的完整內容。 電子郵件執行緒可識別這類郵件,讓檢閱者可以檢閱所收集文件的一小部分,卻又不會漏掉任何細節。
Email 線程會剖析每個電子郵件線程,並將它解構為個別訊息。 每個電子郵件執行緒都是個別郵件的鏈結。 電子檔探索 (預覽) 分析檢閱集中的所有電子郵件訊息,以判斷電子郵件訊息是否有唯一的內容,或是鏈結 (父訊息) 完全包含在電子郵件線程的最後一則郵件中。 Email 訊息分成四個內含值:
- 內含: 內含 電子郵件是電子郵件線程中的最後一封電子郵件訊息,包含該電子郵件線程的所有先前內容。
- 內含減號:如果電子郵件線程內有一或多個與特定訊息相關聯的附件,則會將電子郵件訊息指定為內含 減號 。 檢閱者可以使用包含項減號值來判斷執行緒中的哪些特定電子郵件郵件具有相關聯的附件。
- 內含複本:如果電子郵件訊息是內含或內含減號訊息的確切復本,則會將其視為內含 複 本。
- 無: None 值表示郵件內容完全包含在至少另一封標示為 [內含] 或 [內含] 減號的電子郵件訊息中。
它與 Outlook 中的交談差異在於?
一目了然,這聽起來類似於 Outlook 中的交談群組。 不過,有一些重要的區別。 請考慮分岔成兩個交談的電子郵件交談;例如,有人回復了不是交談中最新的電子郵件,因此交談中的最後兩封電子郵件都有唯一的內容。
Outlook 仍會將電子郵件分組成單一交談;只讀取最後一封電子郵件可能會遺漏第二到最後一封電子郵件的內容,其中也包含唯一的內容。 因為電子郵件線程會將每封電子郵件剖析成個別元件並加以比較,所以電子郵件線程會將最後兩封電子郵件的這兩個都標示為內含,確保只要您讀取標示為內含的所有電子郵件,就不會遺漏任何內容
佈景主題
在本節中,您可以為主題設定下列參數:
- 主題: 開啟時,當您對檢閱集中的數據執行分析時,主題叢集會當做工作流程的一部分來執行。
- 主題數目上限: 指定當您對檢閱集中的數據執行分析時,可以產生的主題數目上限。
- 在主題中包含數位: 開啟時,會在產生主題時包含識別主題) 的數位 (。
- 動態調整主題數目上限: 在某些情況下,檢閱集中的檔可能不足,無法產生所需的主題數目。 若啟用此設定,電子文件探索會動態調整主題數目上限,而不是嘗試強制執行主題數目上限。
當您建立新檔時,通常會從想要在檔中傳達的一或多個想法開始,然後使用符合這些想法的單字撰寫檔。 想法越普遍,與該想法相關的字詞越頻繁。 這個方法也符合讀者取用檔的方法。 閱讀檔所要瞭解的重要事項是文件嘗試傳達的主要想法。 這也包括哪些想法出現在何處,以及想法之間的關聯性為何。
此程式可延伸至電子檔探索檢閱者想要在案例中取用一組檔的方式。 他們想要查看檢閱集內有哪些想法,以及哪些檔正在討論這些想法。 如果他們發現感興趣的特定檔,他們想要能夠看到討論類似想法的檔。
電子檔探索中 的主題 功能會藉由分析檢閱集中討論 的主題 ,並將主題指派給檢閱集中的檔,嘗試模擬人類對檔的推論。 在電子檔探索中,主題會更進一步,並識別每個檢閱集和檔中 的主要主題 。 主要 主題 是檔中最常出現的主題。
主題如何運作?
主題功能會使用檢閱集中的文字來分析檔,以剖析出現在檢閱集中所有文件的常見主題。 電子文件探索會對出現這些主題的文件指派這些主題。 其也會使用文件中用來代表主題的字詞來標記每個主題。 因為檔可以包含各種類型的主題,所以電子檔探索通常會指派多個主題來檢閱集和檔。 這稱為 主題清單。 在檢閱集或檔中最顯著顯示的主題會指定為其 主要主題。
設定主題
案例支援主題,並套用至其中的所有檢閱集。 您可以在建立新案例或更新現有案例的主題設定時,設定主題的設定。
若要在案例中設定主題,請完成下列步驟:
- 移至 Microsoft Purview 入口網站 ,並使用指派電子檔探索許可權之用戶帳戶的認證登入。
- 選取 電子檔探索 解決方案卡片,然後在左側導覽中選 取 [案例 (預覽) 。
- 選取案例,然後選取 [案例設定]。
- 在 [ 案例設定] 頁面上,選 取 [搜尋 & 分析]。
- 視需要選取下列主題選項:
- 主題數目上限: 指定當您對案例中包含的檢閱集內的數據執行分析時,可以產生的主題數目上限。 如需限制的詳細資訊,請參閱 電子檔探索中的限制。
- 在主題中包含數位: 產生主題時,會包含識別主題) 的數位 (。
- 動態調整主題數目上限: 在某些情況下,檢閱集中的檔可能不足,無法產生案例所需的主題數目。 啟用此設定時,主題數目上限會動態調整,而不是嘗試強制執行主題數目上限。
- 如果您需要排除與主題相關聯的關鍵詞,請在 [ 忽略文字 ] 字段中輸入所需的文字或正則表達式。 在 [ 套用至] 字段中,選取 [主題 ] 將文字或正則表示式套用至所有主題。
- 選取 [儲存]。
建立新案例之後,當檢閱集新增至案例時,會自動對數據執行分析。 檢閱集的主題會在分析處理過程中產生。
檢閱集查詢
如果您選取 [在分析后自動建立 For Review 儲存的搜尋] 複選框,電子檔探索會自動產生名為 For Review 的檢閱集查詢。
此查詢會從檢閱集篩選出重複的專案,讓您快速檢閱檢閱集中的唯一專案。 只有在對案例中的檢閱集執行分析時,才會建立此查詢。 如需檢閱集查詢的詳細資訊,請 參閱查詢檢閱集中的數據。
忽略文字
在某些情況下,某些文字會降低分析品質,例如不論電子郵件內容為何,都會將冗長的免責聲明新增至電子郵件訊息。 如果您知道應該忽略的文字,您可以藉由指定文字字串和分析功能, (幾乎重複的專案、電子郵件線程、主題和相關性) 排除文字,以將其從分析中排除。 也支持針對忽略的文字使用正則表達式 (RegEx) 。
光學字元辨識 (OCR)
開啟此設定時,OCR 處理會在圖像檔上執行。 OCR 處理會在下列情況下執行:
- 將數據源新增至案例時:將 OCR 套用至圖像檔案時,這些檔案中的文字可在搜尋結果中使用。 如果在搜尋查詢) 中選取此選項,則會在進階編製索引程式 (期間執行 OCR 處理。 OCR 只會在進階索引編製期間處理的項目上執行。 例如,如果在進階編製索引期間處理部分編製索引或有其他索引錯誤的大型 PDF 檔案,檔案就會套用 OCR。 OCR 處理只會在進階編製索引程式期間重新編製索引的檔案上發生。 這表示在某些情況下,數據源可能會新增至案例,但某些電子郵件附件將不會針對 OCR 進行處理,因為這些檔案不會在進階索引期間處理。
- 從其他數據源新增內容時:這適用於數據源時,不會與案例以及將搜尋結果新增至檢閱集時相關聯。
將數據新增至檢閱集之後,即可檢閱、搜尋、標記及分析影像文字。 您可以在檢視集中所選影像檔案的文字查看器中檢視擷取的文字。 如需詳細資訊,請參閱: