共用方式為


針對 Azure 監視器 SCOM 受控執行個體的問題進行疑難排解

本文說明部署或使用 Azure 監視器 SCOM 受控執行個體時可能發生的錯誤和解決方法。

案例:SCOM 受控執行個體建立/部署

一般疑難排解

  1. 確定符合所有必要條件。 建立時可能會因必要條件不正確/不完整而發生問題。
  2. 請務必仔細閱讀/檢查錯誤訊息。 錯誤訊息會擷取建立過程中的問題/錯誤。
  3. 請檢查錯誤訊息中提供的 SCOM 安裝記錄檔連結。 選取連結以下載 System Center Operations Manager 安裝記錄檔。 分析記錄以識別錯誤/失敗並加以解決。
  4. 如果使用上述步驟無法找出問題,請登入虛擬機器擴展集執行個體,並檢查 C:\WindowsAzure\Logs\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows<version> 下的記錄檔,這些記錄檔可協助您識別問題。
  5. 如果問題持續發生,請提出含有所有相關詳細資料的支援票證 [correlation-idsubscription-id 等]

問題:資源群組 %ResourceGroupName% 是由其他 Azure 資源管理

原因:為該資源群組設定 ManagedBy 屬性時發生此問題。

解決方法:提供另一個資源群組且其 ManagedBy 屬性為空白。

問題:選取的子網路 %SubnetName% 是另一個服務所專用

原因:該子網路有委派時發生此問題。

解決方法:提供未委派給任何其他服務的子網路。

問題:SCOM 受控執行個體無法連線到 SQL 受控執行個體 %instance% 時發生錯誤

原因:此錯誤的發生原因可能是下列其中任一項:

  • SQL 受控執行個體端點的 SCOM 受控執行個體 VNet 中缺少視線可見度。
  • 缺少正確層級的 NSG 規則,造成無法透過 SQL 受控執行個體公用端點傳送流量。
  • 未新增 MSI 作為 Active Directory 系統管理員。
  • SCOM 受控執行個體可能沒有 SQL 受控執行個體的讀取權。
  • 您的 VNet/區域可能發生問題。

解決方法:

  • 提供 SQL 受控執行個體的讀取權。
  • 必須新增 MSI 作為 SQL 受控執行個體上的 Active Directory 系統管理員。
  • 確保 SCOM 受控執行個體與 SQL 受控執行個體網路之間的連線。 如需詳細資訊,請參閱建立和設定 SQL 受控執行個體

問題:沒有足夠的核心在指定區域建立 %instance%

原因:沒有足夠的核心在指定區域建立執行個體時發生此問題。

解決方法:檢查 Azure 入口網站的配額區段,並視需要在該區域配置更多標準 Ds3v2 類型的核心。

問題:金鑰保存庫中已有同名的祕密金鑰

原因:當金鑰保存庫中已有另一個名稱相同的秘密金鑰時發生此問題。

解決方法:變更執行個體的名稱。

問題:VM 在處理延伸模組 joindomain 以加入網域 %DomainName% 時回報失敗

原因:發生的原因如下:

  1. 缺少從 SCOM 受控執行個體伺服器到網域控制站的視線可見度。
  2. 未提供網域使用者認證或提供的認證不正確。
  3. 未提供 AD 網域的 OU 路徑。

解決方法:請檢查原因,並據以嘗試解決問題。

問題:靜態 IP 已在使用中

原因:如果靜態 IP 正由另一個執行個體使用中,就會發生此問題。

解決方法:使用另一個靜態 IP。

問題:身分識別類型 %identityType% 無效

原因:因為受控識別不正確而發生此問題。

解決方法:提供其中一種可能的身分識別類型 ((None)、(SystemAssigned、UserAssigned)),然後再試一次。

問題:私人靜態 IP 位址 %LbIpAddr% 不屬於子網路 %subnet% 範圍

原因:當 IP 位址不在子網路範圍時會發生此問題。

解決方法:提供子網路範圍內的可用 IP,然後重試作業。

問題:身分識別不是 SQL 受控執行個體 '%instance' 上的系統管理員。

原因:發生的原因如下:

  1. 使用者受控識別不是 SQL MI 上的 SQL 系統管理員。
  2. 使用者受控識別在 SQL MI 上已確認為 SQL 系統管理員,並使用 ARM、BICEP、Terraform 或其他部署解決方案進行部署。

解析:確保使用 AppId 而不是 ObjectId 部署使用者受控識別。 您可以透過瀏覽至 SQL MI,Microsoft Entra ID 系統管理員窗格來確認這是否適用。 檢查與使用者受控識別一起列出的 GUID 是否為服務主體的 ObjectId 或 AppId。 當這是 ObjectId 時:

  • 使用入口網站設定
  • 使用 AppId 重新部署您的慣用解決方案。

案例:在 Power BI 上部署報表

問題:無法連線至 SQL 受控執行個體

原因:如果公用端點未啟用,就會發生此問題。 Power BI 無法連線至 SQL 受控執行個體。

解決方法:檢查 SQL 受控執行個體的使用者權限,並提供所需權限。

問題:無法重新整理資料集認證

原因:如果使用者在 SQL 受控執行個體上沒有適當的權限,就會發生此問題。

解決方法:檢查 SQL 受控執行個體的使用者權限,並提供所需權限。

問題:報表無法重新整理

原因:因為資料大小太大而發生此問題。 報表可能無法重新整理。

解決方法:如果 Power BI 工作區處於專業層,請變更為進階層,或變更工作區的容量。

案例:手動擴大/縮小

問題:網際網路存取測試失敗。 無法從 VNet 連線到必要端點

原因:網路問題。

解決方法:確定 SCOM 受控執行個體具有輸出網際網路存取權,且 NSG/防火牆已正確設定,允許存取必要端點,如防火牆需求所述。

問題:超出配額

原因:如果沒有可供縮放的核心,就會發生此問題。

解決方法:增加訂用帳戶中的核心數目。

檢查 Azure 入口網站的配額區段,並視需要在該區域配置更多標準 Ds3v2 類型的核心。

問題:延伸模組佈建錯誤

原因:在佈建 System Center Operations Manager 延伸模組或安裝 System Center Operations Manager 期間,可能會發生此錯誤。

解決方法:檢查一般疑難排解,嘗試識別問題,並據以解決問題。

問題:衝突

原因:如果修補或縮放正在進行中,就會發生此問題。 無法觸發新的作業。

解決方法:等候進行中的程序完成,然後再試一次。

案例:修補

問題:網際網路存取測試失敗。 無法從 VNet 連線到必要端點

原因:網路問題。

解決方法:確定 SCOM 受控執行個體具有輸出網際網路存取權,且 NSG/防火牆已正確設定,允許存取必要端點,如防火牆需求所述。

問題:即使更新作業完成,通知仍停滯在正在擷取更新

原因:網路問題/開發問題。

解決方法:嘗試重新整理以取得更新。 如果問題未解決,請連絡 Microsoft 支援服務。

問題:卡片上的更新狀態未正確反映

原因:網路問題/開發問題。

解決方法:嘗試重新整理以取得更新。 如果問題未解決,請連絡 Microsoft 支援服務。

問題:卡片中的控制項不一致

原因:一致性問題。 例如,即使卡片標題為 SCOM 是最新版本,仍會啟用更新按鈕。

解決方法:嘗試重新整理。 如果問題未解決,請連絡 Microsoft 支援服務。

問題:顯示更新的警告訊息快顯視窗

原因:發生原因可能是下列任一項:

  1. 有新的更新可供使用,且使用者未觸發更新執行個體;或
  2. 前次更新失敗,且使用者未觸發另一個更新執行個體。

解決方法:觸發更新執行個體

問題:多次重試之後更新失敗

解決方法:若要解決,請連絡 Microsoft 支援服務。

問題:更新失敗,且回復無法脫離不一致狀態,該狀態指出虛擬機器擴展集執行個體上的 VM 數目已修改

解決方法:移至 System Center Operations Manager 主控台,並移除不一致的節點。

問題:更新失敗,但資料庫更新成功

原因:資料庫成功更新之後的更新失敗,就會發生此問題。

解決方法:一段時間之後重試。

問題:成功更新之後,System Center Operations Manager 主控台無法在執行個體上正常運作

原因:如果 System Center Operations Manager 未正確安裝或某些程序可能停滯,就會發生此問題。

解決方法:嘗試重新啟動該執行個體。 如果問題持續發生,則請連絡 Microsoft 支援服務。

問題:更新需要 3 個多小時,且最終會失敗

原因:更新耗費 3 小時以上時會發生此問題。

解決方法:請連絡 Microsoft 支援服務。

問題:更新期間發生的一些間歇性問題

原因:如果 Service Fabric 或 RP 當機或重新啟動,就會發生此問題。

解決方法:重新啟動更新。

問題:同時觸發縮放和修補,然後失敗

原因:如果同時傳送和接受縮放和修補要求,就會發生此問題。

解決方法:如果您已觸發縮放作業,請先等候該作業完成,再嘗試更新作業。

問題:延伸模組需要更多時間來更新且失敗了

原因:如果 SQL 受控執行個體和 SCOM 受控執行個體位於不同區域,因為延伸模組需要更多時間來更新且最終還是失敗,就會發生此問題。

解決方法:在相同區域中擁有 SQL 受控執行個體和 SCOM 受控執行個體。

問題:修補之後,資料庫中的使用者資料已變更或未正確保留

原因:如果更新未正確完成,就會發生此問題。

解決方法:重新啟動更新。

問題:修補要求失敗

原因:因為入口網站或 ARM 問題而發生此問題。

解決方法:等候一段時間後重試。 如果即使在修正入口網站/ARM 問題之後仍存在此問題,請連絡 Microsoft 支援服務。

問題:修補或縮放作業已在進行中,稍後再試一次。

原因:如果修補或縮放作業已在進行中,就會發生此問題。

解決方法:等候現有作業完成,並在一段時間後再試一次。

問題:在主控台上顯示過時的管理伺服器

原因:如果修補或縮放作業在完成後留下不一致狀態,就會發生此問題。

解決方法:使用 Microsoft Azure 虛擬機器擴展集來佈建適用於 SCOM 受控執行個體的管理伺服器。 若要從系統移除過時的管理伺服器,請遵循下列步驟:

  1. 存取 Azure 虛擬機器擴展集,並登入 SCOM 受控執行個體的其中一部管理伺服器。

  2. 以管理模式啟動 PowerShell,並瀏覽至下列目錄。

    C:\Packages\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows\<version>\bin\troubleshooter

    注意

    若要尋找版本,請移至 C:\Packages\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows 並檢閱所有可用的版本,然後選取最新版本。

  3. 執行下列指令碼:

    .\RemoveStaleManagementServers.ps1 
    

    指令碼是互動式的,會提示您輸入過時伺服器的 FQDN。

  4. 提供您想要移除之過時管理伺服器的精確 FQDN。

    例如,FQDN:SCOMMI2000001.contoso.com。