針對 Azure 監視器 SCOM 受控執行個體的問題進行疑難排解
本文說明部署或使用 Azure 監視器 SCOM 受控執行個體時可能發生的錯誤和解決方法。
案例:SCOM 受控執行個體建立/部署
一般疑難排解
- 確定符合所有必要條件。 建立時可能會因必要條件不正確/不完整而發生問題。
- 請務必仔細閱讀/檢查錯誤訊息。 錯誤訊息會擷取建立過程中的問題/錯誤。
- 請檢查錯誤訊息中提供的 SCOM 安裝記錄檔連結。 選取連結以下載 System Center Operations Manager 安裝記錄檔。 分析記錄以識別錯誤/失敗並加以解決。
- 如果使用上述步驟無法找出問題,請登入虛擬機器擴展集執行個體,並檢查 C:\WindowsAzure\Logs\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows<version> 下的記錄檔,這些記錄檔可協助您識別問題。
- 如果問題持續發生,請提出含有所有相關詳細資料的支援票證 [
correlation-id
、subscription-id
等]
問題:資源群組 %ResourceGroupName%
是由其他 Azure 資源管理
原因:為該資源群組設定 ManagedBy 屬性時發生此問題。
解決方法:提供另一個資源群組且其 ManagedBy 屬性為空白。
問題:選取的子網路 %SubnetName%
是另一個服務所專用
原因:該子網路有委派時發生此問題。
解決方法:提供未委派給任何其他服務的子網路。
問題:SCOM 受控執行個體無法連線到 SQL 受控執行個體 %instance%
時發生錯誤
原因:此錯誤的發生原因可能是下列其中任一項:
- SQL 受控執行個體端點的 SCOM 受控執行個體 VNet 中缺少視線可見度。
- 缺少正確層級的 NSG 規則,造成無法透過 SQL 受控執行個體公用端點傳送流量。
- 未新增 MSI 作為 Active Directory 系統管理員。
- SCOM 受控執行個體可能沒有 SQL 受控執行個體的讀取權。
- 您的 VNet/區域可能發生問題。
解決方法:
- 提供 SQL 受控執行個體的讀取權。
- 必須新增 MSI 作為 SQL 受控執行個體上的 Active Directory 系統管理員。
- 確保 SCOM 受控執行個體與 SQL 受控執行個體網路之間的連線。 如需詳細資訊,請參閱建立和設定 SQL 受控執行個體。
問題:沒有足夠的核心在指定區域建立 %instance%
原因:沒有足夠的核心在指定區域建立執行個體時發生此問題。
解決方法:檢查 Azure 入口網站的配額區段,並視需要在該區域配置更多標準 Ds3v2 類型的核心。
問題:金鑰保存庫中已有同名的祕密金鑰
原因:當金鑰保存庫中已有另一個名稱相同的秘密金鑰時發生此問題。
解決方法:變更執行個體的名稱。
問題:VM 在處理延伸模組 joindomain
以加入網域 %DomainName%
時回報失敗
原因:發生的原因如下:
- 缺少從 SCOM 受控執行個體伺服器到網域控制站的視線可見度。
- 未提供網域使用者認證或提供的認證不正確。
- 未提供 AD 網域的 OU 路徑。
解決方法:請檢查原因,並據以嘗試解決問題。
問題:靜態 IP 已在使用中
原因:如果靜態 IP 正由另一個執行個體使用中,就會發生此問題。
解決方法:使用另一個靜態 IP。
問題:身分識別類型 %identityType%
無效
原因:因為受控識別不正確而發生此問題。
解決方法:提供其中一種可能的身分識別類型 ((None)、(SystemAssigned、UserAssigned)),然後再試一次。
問題:私人靜態 IP 位址 %LbIpAddr%
不屬於子網路 %subnet%
範圍
原因:當 IP 位址不在子網路範圍時會發生此問題。
解決方法:提供子網路範圍內的可用 IP,然後重試作業。
問題:身分識別不是 SQL 受控執行個體 '%instance' 上的系統管理員。
原因:發生的原因如下:
- 使用者受控識別不是 SQL MI 上的 SQL 系統管理員。
- 使用者受控識別在 SQL MI 上已確認為 SQL 系統管理員,並使用 ARM、BICEP、Terraform 或其他部署解決方案進行部署。
解析:確保使用 AppId 而不是 ObjectId 部署使用者受控識別。 您可以透過瀏覽至 SQL MI,Microsoft Entra ID 系統管理員窗格來確認這是否適用。 檢查與使用者受控識別一起列出的 GUID 是否為服務主體的 ObjectId 或 AppId。 當這是 ObjectId 時:
- 使用入口網站設定
- 使用 AppId 重新部署您的慣用解決方案。
案例:在 Power BI 上部署報表
問題:無法連線至 SQL 受控執行個體
原因:如果公用端點未啟用,就會發生此問題。 Power BI 無法連線至 SQL 受控執行個體。
解決方法:檢查 SQL 受控執行個體的使用者權限,並提供所需權限。
問題:無法重新整理資料集認證
原因:如果使用者在 SQL 受控執行個體上沒有適當的權限,就會發生此問題。
解決方法:檢查 SQL 受控執行個體的使用者權限,並提供所需權限。
問題:報表無法重新整理
原因:因為資料大小太大而發生此問題。 報表可能無法重新整理。
解決方法:如果 Power BI 工作區處於專業層,請變更為進階層,或變更工作區的容量。
案例:手動擴大/縮小
問題:網際網路存取測試失敗。 無法從 VNet 連線到必要端點
原因:網路問題。
解決方法:確定 SCOM 受控執行個體具有輸出網際網路存取權,且 NSG/防火牆已正確設定,允許存取必要端點,如防火牆需求所述。
問題:超出配額
原因:如果沒有可供縮放的核心,就會發生此問題。
解決方法:增加訂用帳戶中的核心數目。
檢查 Azure 入口網站的配額區段,並視需要在該區域配置更多標準 Ds3v2 類型的核心。
問題:延伸模組佈建錯誤
原因:在佈建 System Center Operations Manager 延伸模組或安裝 System Center Operations Manager 期間,可能會發生此錯誤。
解決方法:檢查一般疑難排解,嘗試識別問題,並據以解決問題。
問題:衝突
原因:如果修補或縮放正在進行中,就會發生此問題。 無法觸發新的作業。
解決方法:等候進行中的程序完成,然後再試一次。
案例:修補
問題:網際網路存取測試失敗。 無法從 VNet 連線到必要端點
原因:網路問題。
解決方法:確定 SCOM 受控執行個體具有輸出網際網路存取權,且 NSG/防火牆已正確設定,允許存取必要端點,如防火牆需求所述。
問題:即使更新作業完成,通知仍停滯在正在擷取更新
原因:網路問題/開發問題。
解決方法:嘗試重新整理以取得更新。 如果問題未解決,請連絡 Microsoft 支援服務。
問題:卡片上的更新狀態未正確反映
原因:網路問題/開發問題。
解決方法:嘗試重新整理以取得更新。 如果問題未解決,請連絡 Microsoft 支援服務。
問題:卡片中的控制項不一致
原因:一致性問題。 例如,即使卡片標題為 SCOM 是最新版本,仍會啟用更新按鈕。
解決方法:嘗試重新整理。 如果問題未解決,請連絡 Microsoft 支援服務。
問題:顯示更新的警告訊息快顯視窗
原因:發生原因可能是下列任一項:
- 有新的更新可供使用,且使用者未觸發更新執行個體;或
- 前次更新失敗,且使用者未觸發另一個更新執行個體。
解決方法:觸發更新執行個體。
問題:多次重試之後更新失敗
解決方法:若要解決,請連絡 Microsoft 支援服務。
問題:更新失敗,且回復無法脫離不一致狀態,該狀態指出虛擬機器擴展集執行個體上的 VM 數目已修改
解決方法:移至 System Center Operations Manager 主控台,並移除不一致的節點。
問題:更新失敗,但資料庫更新成功
原因:資料庫成功更新之後的更新失敗,就會發生此問題。
解決方法:一段時間之後重試。
問題:成功更新之後,System Center Operations Manager 主控台無法在執行個體上正常運作
原因:如果 System Center Operations Manager 未正確安裝或某些程序可能停滯,就會發生此問題。
解決方法:嘗試重新啟動該執行個體。 如果問題持續發生,則請連絡 Microsoft 支援服務。
問題:更新需要 3 個多小時,且最終會失敗
原因:更新耗費 3 小時以上時會發生此問題。
解決方法:請連絡 Microsoft 支援服務。
問題:更新期間發生的一些間歇性問題
原因:如果 Service Fabric 或 RP 當機或重新啟動,就會發生此問題。
解決方法:重新啟動更新。
問題:同時觸發縮放和修補,然後失敗
原因:如果同時傳送和接受縮放和修補要求,就會發生此問題。
解決方法:如果您已觸發縮放作業,請先等候該作業完成,再嘗試更新作業。
問題:延伸模組需要更多時間來更新且失敗了
原因:如果 SQL 受控執行個體和 SCOM 受控執行個體位於不同區域,因為延伸模組需要更多時間來更新且最終還是失敗,就會發生此問題。
解決方法:在相同區域中擁有 SQL 受控執行個體和 SCOM 受控執行個體。
問題:修補之後,資料庫中的使用者資料已變更或未正確保留
原因:如果更新未正確完成,就會發生此問題。
解決方法:重新啟動更新。
問題:修補要求失敗
原因:因為入口網站或 ARM 問題而發生此問題。
解決方法:等候一段時間後重試。 如果即使在修正入口網站/ARM 問題之後仍存在此問題,請連絡 Microsoft 支援服務。
問題:修補或縮放作業已在進行中,稍後再試一次。
原因:如果修補或縮放作業已在進行中,就會發生此問題。
解決方法:等候現有作業完成,並在一段時間後再試一次。
問題:在主控台上顯示過時的管理伺服器
原因:如果修補或縮放作業在完成後留下不一致狀態,就會發生此問題。
解決方法:使用 Microsoft Azure 虛擬機器擴展集來佈建適用於 SCOM 受控執行個體的管理伺服器。 若要從系統移除過時的管理伺服器,請遵循下列步驟:
存取 Azure 虛擬機器擴展集,並登入 SCOM 受控執行個體的其中一部管理伺服器。
以管理模式啟動 PowerShell,並瀏覽至下列目錄。
C:\Packages\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows\<version>\bin\troubleshooter
注意
若要尋找版本,請移至
C:\Packages\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows
並檢閱所有可用的版本,然後選取最新版本。執行下列指令碼:
.\RemoveStaleManagementServers.ps1
指令碼是互動式的,會提示您輸入過時伺服器的 FQDN。
提供您想要移除之過時管理伺服器的精確 FQDN。
例如,FQDN:SCOMMI2000001.contoso.com。