共用方式為


Azure Log Analytics 中的警示管理方案

Alert Management icon

注意

目前已不再開發此解決方案,可能無法如預期般運作。 建議您嘗試使用 Azure Resource Graph 來查詢 Azure 監視器警示

警示管理解決方案可協助您分析 Log Analytics 儲存機制中的所有警示。 這些警示可能來自各種來源,包括由 Log Analytics 所建立從 Nagios 或 Zabbix 匯入的來源。 此解決方案也會從所有連線的 System Center Operations Manager 管理群組匯入警示。

必要條件

此解決方案將會使用 Log Analytics 中類型為警示的所有記錄,因此您必須執行收集這些記錄所需的所有設定。

設定

使用新增方案中所述的程序,將警示管理方案新增至您的 Log Analytics 工作區。 不需要進一步的組態。

管理組件

如果 System Center Operations Manager 管理群組已連線到 Log Analytics 工作區,當您新增此解決方案時,System Center Operations Manager 中會安裝下列管理組件。 管理組件不需要任何設定或維護。

  • Microsoft System Center Advisor 警示管理 (Microsoft.IntelligencePacks.AlertManagement)

如需有關方案管理組件如何更新的詳細資訊,請參閱 將 Operations Manager 連接到 Log Analytics

資料集合

代理程式

下表描述此方案支援的連接來源。

連接的來源 支援 描述
Windows 代理程式 直接的 Windows 代理程式不會產生警示。 您可以從收集自 Windows 代理程式的事件和效能資料建立 Log Analytics 警示。
Linux 代理程式 直接的 Linux 代理程式不會產生警示。 您可以從收集自 Linux 代理程式的事件和效能資料建立 Log Analytics 警示。 您可以從需要 Linux 代理程式的伺服器收集 Nagios 和 Zabbix 警示。
System Center Operations Manager 管理群組 Operations Manager 代理程式上產生的警示會傳遞至管理群組,然後轉送到 Log Analytics。

不需要直接從 Operations Manager 代理程式連線到 Log Analytics。 警示資料會從管理群組轉送至 Log Analytics 儲存機制。

收集頻率

  • 將警示記錄儲存於儲存機制之後,方案隨即能夠使用這些記錄。
  • 警示資料每 3 分鐘從 Operations Manager 管理群組傳送至 Log Analytics。

使用解決方案

當您將警示管理解決方案新增至 Log Analytics 工作區時,[警示管理] 圖格會新增至儀表板。 此圖格會顯示過去 24 小時內產生的目前作用中警示數目的計數和圖形表示。 您無法變更此時間範圍。

Alert Management tile

按一下 [警示管理] 圖格以開啟 [警示管理] 儀表板。 此儀表板包含下表中的資料行。 每個資料行依計數列出前 10 個警示,這幾個警示符合該資料行中指定範圍和時間範圍的準則。 您可以按一下資料行底部的 [查看全部] ,或按一下資料行標頭,以執行記錄搜尋來提供完整清單。

資料行 描述
重大警示 嚴重性為「重大」的所有警示 (依警示名稱分組)。 按一下警示名稱來執行記錄搜尋,以傳回該警示的所有記錄。
警告警示 嚴重性為「警告」的所有警示 (依警示名稱分組)。 按一下警示名稱來執行記錄搜尋,以傳回該警示的所有記錄。
作用中的 System Center Operations Manager 警示 來自 Operations Manager 且狀態不為 [已關閉] 的所有警示,並依產生此警示的來源分組。
所有作用中警示 具有任何嚴重性的所有警示 (依警示名稱分組)。 只包含 [已關閉] 以外任何狀態的 Operations Manager 警示。

如果您向右捲動,儀表板會列出數個常見的查詢,按一下即可執行警示資料的記錄搜尋

警示管理儀表板

Log Analytics 記錄

警示管理方案會分析 警示類型的任何記錄。 方案不會直接收集由 Log Analytics 所建立或收集自 Nagios 或 Zabbix 的警示。

解決方案會從 System Center Operations Manager 匯入警示,並針對類型為警示且 SourceSystem 為 OpsManager 的每個警示建立對應的記錄。 這些記錄具有下表中的屬性:

屬性 描述
Type 警示
SourceSystem OpsManager
AlertContext 造成產生警示的資料項目的詳細資料 (XML 格式)。
AlertDescription 警示的詳細描述。
AlertId 警示的 GUID。
AlertName 警示的名稱。
AlertPriority 警示的優先順序層級。
AlertSeverity 警示的嚴重性層級。
AlertState 警示的最新解決狀態。
LastModifiedBy 上次修改警示的使用者名稱。
ManagementGroupName 產生警示的管理群組名稱。
RepeatCount 相同受監視物件的同一個警示自從解決後又產生的次數。
ResolvedBy 解決警示的使用者名稱。 如果尚未解決警示,則為空白。
SourceDisplayName 產生警示的監視物件的顯示名稱。
SourceFullName 產生警示的監視物件的完整名稱。
TicketId 如果 System Center Operations Manager 環境與指派警示票證的程序已整合,則此值為警示的票證識別碼。 如果未指派票證識別碼,則為空白。
TimeGenerated 建立警示的日期和時間。
TimeLastModified 上次變更警示的日期和時間。
TimeRaised 產生警示的日期和時間。
TimeResolved 解決警示的日期和時間。 如果尚未解決警示,則為空白。

記錄搜尋範例

下表提供此解決方案所收集的警示記錄的記錄搜尋範例:

查詢 描述
Alert | where SourceSystem == "OpsManager" and AlertSeverity == "error" and TimeRaised > ago(24h) 過去 24 小時期間引發的重大警示
Alert | where AlertSeverity == "warning" and TimeRaised > ago(24h) 過去 24 小時期間引發的警告警示
Alert | where SourceSystem == "OpsManager" and AlertState != "Closed" and TimeRaised > ago(24h) | summarize Count = count() by SourceDisplayName 來源和過去 24 小時期間引發的作用中警示
Alert | where SourceSystem == "OpsManager" and AlertSeverity == "error" and TimeRaised > ago(24h) and AlertState != "Closed" 過去 24 小時期間引發的重大且仍在作用中的警示
Alert | where SourceSystem == "OpsManager" and TimeRaised > ago(24h) and AlertState == "Closed" 過去 24 小時期間引發但現在已關閉的警示
Alert | where SourceSystem == "OpsManager" and TimeRaised > ago(1d) | summarize Count = count() by AlertSeverity 過去 1 天期間引發的警示 (依嚴重性分組)
Alert | where SourceSystem == "OpsManager" and TimeRaised > ago(1d) | sort by RepeatCount desc 過去 1 天期間引發的警示 (依重複計數值排序)

後續步驟