共用方式為


對儲存空間直接存取進行疑難排解

使用本文中的資訊,對儲存空間直接存取部署進行疑難排解。

一般情況下,請從下列步驟開始:

  1. 使用 Windows Server 目錄,確認 SSD 的製造商和型號已通過 Windows Server 2016 和 Windows Server 2019 認證。 向廠商確認磁碟機是否支援儲存空間直接存取。
  2. 檢查儲存體是否有任何故障的磁碟機。 使用儲存管理軟體來檢查磁碟機的狀態。 如果有任何磁碟機故障,請洽詢您的廠商。
  3. 視需要更新儲存體和磁碟機韌體。 確定所有節點上都已安裝最新的 Windows Update。 您可以從 Windows 10 和 Windows Server 2016 更新歷程記錄取得 Windows Server 2016 的最新更新。 從 Windows 10 和 Windows Server 2019 更新歷程記錄可取得 Windows Server 2019 的最新更新。
  4. 更新網路介面卡驅動程式和韌體。
  5. 執行叢集驗證,並檢閱 [儲存空間直接存取] 區段。 請確定用於快取的磁碟機已正確報告,且沒有任何錯誤。

如果仍有問題,請檢閱本文中各個特定問題的疑難排解資訊。

虛擬磁碟資源處於無備援狀態

儲存空間直接存取系統的節點因損毀或電源中斷而非預期地重新啟動。 隨後,可能有一或多個虛擬磁碟無法上線,且您看到沒有足夠的備援資訊的描述。

FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach 大小 PSComputerName
Disk4 鏡像 確定 Healthy True 10 TB Node-01.conto...
Disk3 鏡像 確定 Healthy True 10 TB Node-01.contoso.
Disk2 鏡像 無備援 Unhealthy True 10 TB Node-01.contoso.
Disk1 鏡像 {無備援,InService} Unhealthy True 10 TB Node-01.contoso.

此外,在嘗試將虛擬磁碟上線後,叢集記錄檔中會記錄下列資訊:DiskRecoveryAction

[Verbose] 00002904.00001040::YYYY/MM/DD-12:03:44.891 INFO [RES] Physical Disk <DiskName>: OnlineThread: SuGetSpace returned 0.
[Verbose] 00002904.00001040:: YYYY/MM/DD -12:03:44.891 WARN [RES] Physical Disk < DiskName>: Underlying virtual disk is in 'no redundancy' state; its volume(s) may fail to mount.
[Verbose] 00002904.00001040:: YYYY/MM/DD -12:03:44.891 ERR [RES] Physical Disk <DiskName>: Failing online due to virtual disk in 'no redundancy' state. If you would like to attempt to online the disk anyway, first set this resource's private property 'DiskRecoveryAction' to 1. We will try to bring the disk online for recovery, but even if successful, its volume(s) or CSV may be unavailable.

如果磁碟故障,或系統無法存取虛擬磁碟上的資料,就會發生「無備援操作狀態」。 如果節點在維護期間執行了重新開機,就可能發生此問題。

若要修正此問題,請依照下列步驟操作:

  1. 從 CSV 中移除受影響的虛擬磁碟。 此舉會將其置於叢集內的可用儲存體群組中,並開始顯示為 ResourceType Physical Disk

    Remove-ClusterSharedVolume -Name "CSV Name"
    
  2. 在擁有可用儲存體群組的節點上,對每個處於無備援狀態的磁碟執行下列命令。 若要識別可用儲存體群組所在的節點,可以執行下列命令:

    Get-ClusterGroup
    
  3. 設定磁碟復原動作,然後啟動磁碟。

    Get-ClusterResource "Physical Disk Resource Name" | Set-ClusterParameter -Name DiskRecoveryAction -Value 1
    Start-ClusterResource -Name "Physical Disk Resource Name"
    
  4. 修復應該會自動開始。 請等候修復完成。 作業可能會進入暫停狀態,然後再重新開始。 若要監視進度:

    • 執行 Get-StorageJob 以監視修復的狀態,並查看修復於何時完成。
    • 執行 Get-VirtualDisk,並確認空間傳回 HealthStatus「狀況良好」。
  5. 在修復完成且虛擬磁碟處於良好狀況後,恢復原本的虛擬磁碟參數。

     Get-ClusterResource "Physical Disk Resource Name" | Set-ClusterParameter -Name DiskRecoveryAction -Value 0
    
  6. 讓磁碟離線後再次上線,使 DiskRecoveryAction 生效:

    Stop-ClusterResource "Physical Disk Resource Name"
    Start-ClusterResource "Physical Disk Resource Name"
    
  7. 將受影響的虛擬磁碟新增回 CSV。

    Add-ClusterSharedVolume -Name "Physical Disk Resource Name"
    

DiskRecoveryAction 是一個覆寫參數,可讓您在讀寫模式下連結空間磁碟區,也無須進行任何檢查。 該屬性可讓您診斷磁碟區未上線的原因。 這類似於維護模式,但可在處於失敗狀態的資源上叫用。 此外也可讓您存取資料以便複製。 這種存取在無備援的情況下很有幫助。 DiskRecoveryAction 屬性新增於 2018 年 2 月 22 日的更新 KB 4077525 中。

在叢集中處於中斷連結狀態

當您執行 Get-VirtualDisk Cmdlet 時,會有一或多個儲存空間直接存取虛擬磁碟的 OperationalStatus 顯示為「已中斷連結」。 但 Get-PhysicalDisk Cmdlet 所報告的 HealthStatus 指出所有實體磁碟都處於「狀況良好」狀態。

此範例顯示 Get-VirtualDisk Cmdlet 的輸出。

FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach 大小 PSComputerName
Disk4 鏡像 確定 Healthy True 10 TB Node-01.contoso.
Disk3 鏡像 確定 Healthy True 10 TB Node-01.contoso.
Disk2 鏡像 已卸離 Unknown True 10 TB Node-01.contoso.
Disk1 鏡像 已卸離 Unknown True 10 TB Node-01.contoso.

此外,可能會在節點上記錄下列事件:

Log Name: Microsoft-Windows-StorageSpaces-Driver/Operational
Source: Microsoft-Windows-StorageSpaces-Driver
Event ID: 311
Level: Error
User: SYSTEM
Computer: Node#.contoso.local
Description: Virtual disk {GUID} requires a data integrity scan.

Data on the disk is out-of-sync and a data integrity scan is required.

To start the scan, run this command:
Get-ScheduledTask -TaskName "Data Integrity Scan for Crash Recovery" | Start-ScheduledTask

Once you have resolved that condition, you can online the disk by using these commands in PowerShell:

Get-VirtualDisk | ?{ $_.ObjectId -Match "{GUID}" } | Get-Disk | Set-Disk -IsReadOnly $false
Get-VirtualDisk | ?{ $_.ObjectId -Match "{GUID}" } | Get-Disk | Set-Disk -IsOffline $false
------------------------------------------------------------

Log Name: System
Source: Microsoft-Windows-ReFS
Event ID: 134
Level: Error
User: SYSTEM
Computer: Node#.contoso.local
Description: The file system was unable to write metadata to the media backing volume <VolumeId>. A write failed with status "A device which does not exist was specified." ReFS will take the volume offline. It might be mounted again automatically.
------------------------------------------------------------
Log Name: Microsoft-Windows-ReFS/Operational
Source: Microsoft-Windows-ReFS
Event ID: 5
Level: Error
User: SYSTEM
Computer: Node#.contoso.local
Description: ReFS failed to mount the volume.
Context: 0xffffbb89f53f4180
Error: A device which does not exist was specified.
Volume GUID:{00000000-0000-0000-0000-000000000000}
DeviceName:
Volume Name:

如果廢棄區域追蹤 (DRT) 記錄已滿,就會發生 Detached Operational Status。 儲存空間會對鏡像空間使用廢棄區域追蹤 (DRT),以確保在電源中斷發生時,會記錄中繼資料的任何即時更新。 記錄的更新可確保儲存空間能夠重做或復原作業。 在電力恢復且系統再次啟動後,儲存空間將可藉此回復為彈性且一致的狀態。 如果 DRT 記錄已滿,則必須等到 DRT 中繼資料同步處理並排清後,才能讓虛擬磁碟上線。 此程序需要執行完整掃描,可能需耗時數小時。

若要修正此問題,請依照下列步驟操作:

  1. 從 CSV 中移除受影響的虛擬磁碟。

    Remove-ClusterSharedVolume -Name "CSV Name"
    
  2. 在每個未上線的磁碟上執行這些命令。

    Get-ClusterResource -Name "Physical Disk Resource Name" | Set-ClusterParameter DiskRunChkDsk 7
    Start-ClusterResource -Name "Physical Disk Resource Name"
    
  3. 在中斷連結的磁碟區處於線上狀態的每個節點上執行下列命令。

    Get-ScheduledTask -TaskName "Data Integrity Scan for Crash Recovery" | Start-ScheduledTask
    

    在中斷連結的磁碟區處於線上狀態的所有節點上起始此工作。 修復應該會自動開始。 請等候修復完成。 作業可能會進入暫停狀態,然後再重新開始。 若要監視進度:

    • 執行 Get-StorageJob 以監視修復的狀態,並查看修復於何時完成。
    • 執行 Get-VirtualDisk,並確認空間傳回 HealthStatus「狀況良好」。
      • 「損毀復原的資料完整性掃描」是一項不會顯示為儲存體作業、且沒有進度列指示器的工作。 如果工作顯示為執行中,就是正在執行中。 完成之後,就會顯示為已完成。

        此外,您也可以使用下列 Cmdlet 來檢視執行中排程工作的狀態:

        Get-ScheduledTask | ? State -eq running
        
  4. 「損毀復原的資料完整性掃描」完成後,修復就會完成,且虛擬磁碟會處於良好狀態。 恢復原本的虛擬磁碟參數。

    Get-ClusterResource -Name "Physical Disk Resource Name" | Set-ClusterParameter DiskRunChkDsk 0
    
  5. 讓磁碟離線後再次上線,使 DiskRecoveryAction 生效:

    Stop-ClusterResource "Physical Disk Resource Name"
    Start-ClusterResource "Physical Disk Resource Name"
    
  6. 將受影響的虛擬磁碟新增回 CSV。

    Add-ClusterSharedVolume -Name "Physical Disk Resource Name"
    

    使用 DiskRunChkdsk value 7 連結空間磁碟區,並將磁碟分割設定為唯讀模式。 此動作可讓空間觸發修復,藉以進行自行探索和自行修復。 修復會在掛接後自動執行。 它也可讓您存取資料以進行複製。 對於某些錯誤狀況 (例如 DRT 記錄已滿),您必須執行「損毀復原的資料完整性掃描」排程工作。

使用「損毀復原的資料完整性掃描」工作,將已滿的廢棄區域追蹤 (DRT) 記錄同步處理並清除。 此工作可能需要數小時才能完成。 「損毀復原的資料完整性掃描」是一項不會顯示為儲存體作業、且沒有進度列指示器的工作。 如果工作顯示為執行中,就是正在執行中。 完成之後,就會顯示為已完成。 如果您取消工作,或在此工作執行期間重新啟動節點,工作就必須從頭開始。

如需詳細資訊,請參閱對儲存空間直接存取健康情況與操作狀態進行疑難排解

具有 STATUS_IO_TIMEOUT c00000b5 的事件 5120

重要

針對 Windows Server 2016:為了降低在套用修正程式的更新時出現這些徵兆的可能性,若節點目前安裝了 2018 年 5 月 8 日2018 年 10 月 9 日之間發行的 Windows Server 2016 累積更新,建議您使用儲存體維護模式程序安裝 2018 年 10 月 18 日的 Windows Server 2016 累積更新或更新版本。

在安裝了 2018 年 5 月 8 日 KB 41037232018 年 10 月 9 日 KB 4462917 累積更新的 Windows Server 2016 上重新啟動節點後,可能會出現具有 STATUS_IO_TIMEOUT c00000b5 的事件 5120。

當您重新啟動節點時,事件 5120 會記錄在系統事件記錄檔中,並且包含下列其中一個錯誤碼:

Event Source: Microsoft-Windows-FailoverClustering
Event ID: 5120
Description:    Cluster Shared Volume 'CSVName' ('Cluster Virtual Disk (CSVName)') has entered a paused state because of 'STATUS_IO_TIMEOUT(c00000b5)'. All I/O will temporarily be queued until a path to the volume is reestablished.

Cluster Shared Volume 'CSVName' ('Cluster Virtual Disk (CSVName)') has entered a paused state because of 'STATUS_CONNECTION_DISCONNECTED(c000020c)'. All I/O will temporarily be queued until a path to the volume is reestablished.

記錄事件 5120 時,會產生即時傾印以收集可能導致其他徵兆或影響效能的偵錯資訊。 即時傾印產生時,會造成暫停的狀況。 此暫停讓記憶體快照集能夠寫入傾印檔案。 具有大量記憶體且承受壓力的系統可能會導致節點捨棄叢集成員資格,並致使系統記錄下列事件 1135。

Event source: Microsoft-Windows-FailoverClustering
Event ID: 1135
Description: Cluster node 'NODENAME'was removed from the active failover cluster membership. The Cluster service on this node might have stopped. This could also be due to the node having lost communication with other active nodes in the failover cluster. Run the Validate a Configuration wizard to check your network configuration. If the condition persists, check for hardware or software errors related to the network adapters on this node. Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.

2018 年 5 月 8 日在 Windows Server 2016 中導入的變更是一項累積更新,為儲存空間直接存取叢集間 SMB 網路工作階段新增了 SMB 復原控制代碼。 此更新旨在提高暫時性網路失敗的復原能力,並改進 RoCE 處理網路壅塞的方式。 這些改進也無意中增加了 SMB 連線嘗試重新連線時的逾時,以及節點重新啟動時的等候逾時。 這些問題可能會影響到承受壓力的系統。 非計劃性停機期間,在系統等候連線逾時的時候也會觀察到多達 60 秒的 IO 暫停。若要修正此問題,請安裝 2018 年 10 月 18 日的 Windows Server 2016 累積更新或更新版本。

注意

此更新會使 CSV 逾時與 SMB 連線逾時保持一致,而修正此問題。 它不會實作變更來停用「因應措施」一節中所述的即時傾印產生。

關機程序流程

  1. 執行 Get-VirtualDisk Cmdlet,並確定 HealthStatus 值為「狀況良好」。

  2. 執行下列 Cmdlet 以清空節點:

    Suspend-ClusterNode -Drain
    
  3. 執行下列 Cmdlet,使該節點上的磁碟進入儲存體維護模式:

    Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "<NodeName>"} | Enable-StorageMaintenanceMode
    
  4. 執行 Get-PhysicalDisk Cmdlet,並確定 OperationalStatus 值為 In Maintenance 模式。

  5. 執行 Restart-Computer Cmdlet 以重新啟動節點。

  6. 在節點重新啟動後執行下列 Cmdlet,將該節點上的磁碟從儲存體維護模式中移除:

    Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "<NodeName>"} | Disable-StorageMaintenanceMode
    
  7. 執行下列 Cmdlet 以恢復節點:

    Resume-ClusterNode
    
  8. 執行下列 Cmdlet,以檢查重新同步作業的狀態:

    Get-StorageJob
    

停用即時傾印

若要減輕即時傾印產生對具有大量記憶體且承受壓力的系統產生的影響,您可以停用即時傾印產生。 提供了以下三個選項:

警告

此程序可能會使系統無法收集 Microsoft 支援服務調查此問題時可能需要的診斷資訊。 支援專員可能會要求您根據特定疑難排解案例重新啟用即時傾印產生。

停用所有傾印

若要完全停用所有傾印 (包括全系統的即時傾印),請遵循下列步驟。 針對此案例,請使用下列程序:

  1. 建立下列登錄機碼:HKLM\System\CurrentControlSet\Control\CrashControl\ForceDumpsDisabled
  2. 在新的 ForceDumpsDisabled 機碼下,建立 REG_DWORD 屬性 GuardedHost,然後將其值設定為 0x10000000。
  3. 將新的登錄機碼套用至每個叢集節點。

注意

您必須重新啟動電腦,登錄變更才會生效。

此登錄機碼設定後,即時傾印建立將會失敗,並產生 STATUS_NOT_SUPPORTED 錯誤。

僅允許一個即時傾印

根據預設,Windows 錯誤報告僅允許每七天為每個報告類型產生一個即時傾印,每五天為每個機器產生一個即時傾印。 您可以變更此設定:將下列登錄機碼設定為一律僅允許在機器上產生一個即時傾印。

reg add "HKLM\Software\Microsoft\Windows\Windows Error Reporting\FullLiveKernelReports" /v SystemThrottleThreshold /t REG_DWORD /d 0xFFFFFFFF /f
reg add "HKLM\Software\Microsoft\Windows\Windows Error Reporting\FullLiveKernelReports" /v ComponentThrottleThreshold /t REG_DWORD /d 0xFFFFFFFF /f

注意

您必須重新啟動電腦,變更才會生效。

停用叢集產生

若要停用即時傾印的叢集產生 (例如在記錄事件 5120 時),請執行下列 Cmdlet:

(Get-Cluster).DumpPolicy = ((Get-Cluster).DumpPolicy -Band 0xFFFFFFFFFFFFFFFE)

此 Cmdlet 在所有叢集節點上都會立即生效,無需重新啟動電腦。

顯示 I/O 效能

如果您發現 IO 效能緩慢,請檢查儲存空間直接存取設定中是否已啟用快取。

有兩種方法可進行檢查:

  1. 使用叢集記錄檔。 使用您選擇的文字編輯器開啟叢集記錄檔,並搜尋 "[=== SBL Disks ===]"。 您會看到產生記錄的節點上的磁碟清單。

    已啟用快取的磁碟範例:您會看到狀態為 CacheDiskStateInitializedAndBound,且此處有 GUID 存在。

    [=== SBL Disks ===]
     {26e2e40f-a243-1196-49e3-8522f987df76},3,false,true,1,48,{1ff348f1-d10d-7a1a-d781-4734f4440481},CacheDiskStateInitializedAndBound,1,8087,54,false,false,HGST,HUH721010AL4200,7PG3N2ER,A21D,{d5e27a3b-42fb-410a-81c6-9d8cc12da20c},[R/M 0 R/U 0 R/T 0 W/M 0 W/U 0 W/T 0],
    

    快取未啟用:您可以看到這裡沒有 GUID,且狀態為 CacheDiskStateNonHybrid

    [=== SBL Disks ===]
     {426f7f04-e975-fc9d-28fd-72a32f811b7d},12,false,true,1,24,{00000000-0000-0000-0000-000000000000},CacheDiskStateNonHybrid,0,0,0,false,false,HGST,HUH721010AL4200,7PGXXG6C,A21D,{d5e27a3b-42fb-410a-81c6-9d8cc12da20c},[R/M 0 R/U 0 R/T 0 W/M 0 W/U 0 W/T 0],
    

    快取未啟用:當所有磁碟都屬於相同類型時,依預設不會啟用快取。 您可以看到這裡沒有 GUID,且狀態為 CacheDiskStateIneligibleDataPartition

    {d543f90c-798b-d2fe-7f0a-cb226c77eeed},10,false,false,1,20,{00000000-0000-0000-0000-000000000000},CacheDiskStateIneligibleDataPartition,0,0,0,false,false,NVMe,INTEL SSDPE7KX02,PHLF7330004V2P0LGN,0170,{79b4d631-976f-4c94-a783-df950389fd38},[R/M 0 R/U 0 R/T 0 W/M 0 W/U 0 W/T 0],
    
  2. 使用 SDDCDiagnosticInfo 中的 Get-PhysicalDisk.xml。

    1. 使用 "$d = Import-Clixml GetPhysicalDisk.XML" 開啟 XML 檔案。
    2. 執行 ipmo storage
    3. 執行 $d。 請注意,「使用方式」是「自動選取」,而非「日誌」。

    您應該會看到如下的輸出:

    FriendlyName SerialNumber MediaType CanPool OperationalStatus HealthStatus 使用方式 大小
    NVMe INTEL SSDPE7KX02 PHLF733000372P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7504008J2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7504005F2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7504002A2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7504004T2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7504002E2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7330002Z2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF733000272P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7330001J2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF733000302P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7330004D2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB

如何終結現有叢集以便再次使用相同磁碟

在儲存空間直接存取叢集中停用儲存空間直接存取,並使用清理磁碟機中所述的清除程序。 叢集儲存集區仍處於離線狀態,且健全狀況服務會從叢集中移除。

下一個步驟是移除虛設儲存集區:

Get-ClusterResource -Name "Cluster Pool 1" | Remove-ClusterResource

現在,如果您在任何節點上執行 Get-PhysicalDisk,您將會看到集區中的所有磁碟。 例如,假設實驗室中有一個 4 節點叢集,包含 4 個 SAS 磁碟,且每個節點各有 100 GB 的配置。 在此情況下,當「儲存空間直接存取」停用後,將會移除 SBL (存放匯流排層),但保留篩選條件,這時若您執行 Get-PhysicalDisk,應該會報告 4 個磁碟 (不包括本機 OS 磁碟)。 然而,卻報告了16 個。 叢集中所有節點的行為都相同。 在執行 Get-Disk 命令時,您會看到本機連結的磁碟編號為 0、1、2 (依此類推),如下列範例輸出所示:

數字 易記名稱 序號 HealthStatus OperationalStatus 大小總計 磁碟分割樣式
0 Msft Virtual Healthy 線上 127 GB GPT
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
1 Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
2 Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
4 Msft Virtual Healthy 離線 100 GB RAW
3 Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW

使用 Enable-ClusterS2D 建立儲存空間直接存取叢集,會時發生關於「不受支援的媒體類型」錯誤訊息

在執行 Enable-ClusterS2D Cmdlet 時,您可能會看到類似的錯誤:

當不支持的媒體存在時,執行 Enable-ClusterS2D Cmdlet 時發生錯誤的螢幕快照。

若要修正此問題,請確定 HBA 介面卡是以 HBA 模式設定的。 任何 HBA 都不應以 RAID 模式設定。

Enable-ClusterStorageSpacesDirect 會在「等待 SBL 磁碟顯示」時或進度達 27% 時停止回應

您會在驗證報告中看到下列資訊:

連線至節點 <nodename> 的磁碟 <identifier> 傳回了 SCSI 連接埠關聯,但找不到對應的機箱裝置。 硬體與儲存空間直接存取 (S2D) 不相容。 請連絡硬體廠商,以確認 SCSI 機箱服務 (SES) 的支援。

問題出在磁碟與 HBA 卡之間的 HPE SAS 擴充卡上。 SAS 擴充卡會在連線至擴充卡的第一個磁碟機與擴充卡本身之間建立重複的識別碼。 此問題已在 HPE 智慧陣列控制器 SAS 擴充卡韌體:4.02 中獲得解決。

Intel SSD DC P4600 系列具有非唯一的 NGUID

您可能會看到 Intel SSD DC P4600 系列裝置針對多個命名空間報告了類似 16 位元組 NGUID 的問題,例如此範例中的 0100000001000000E4D25C000014E214 或 0100000001000000E4D25C0000EEE214。

UniqueId DeviceId MediaType BusType SerialNumber 大小 CanPool FriendlyName OperationalStatus
5000CCA251D12E30 0 HDD SAS 7PKR197G 10000831348736 False HGST HUH721010AL4200
eui.0100000001000000E4D25C000014E214 4 SSD NVMe 0100_0000_0100_0000_E4D2_5C00_0014_E214. 1600321314816 True INTEL SSDPE2KE016T7
eui.0100000001000000E4D25C000014E214 5 SSD NVMe 0100_0000_0100_0000_E4D2_5C00_0014_E214. 1600321314816 True INTEL SSDPE2KE016T7
eui.0100000001000000E4D25C0000EEE214 6 SSD NVMe 0100_0000_0100_0000_E4D2_5C00_00EE_E214. 1600321314816 True INTEL SSDPE2KE016T7
eui.0100000001000000E4D25C0000EEE214 7 SSD NVMe 0100_0000_0100_0000_E4D2_5C00_00EE_E214. 1600321314816 True INTEL SSDPE2KE016T7

若要修正此問題,請將 Intel 磁碟機的韌體更新為最新版本。 2018 年 5 月發佈的韌體版本 QDV101B1 已確認可解決此問題。

Intel SSD 資料中心工具 2018 年 5 月版包含 Intel SSD DC P4600 系列的韌體更新 QDV101B1。

實體磁碟的 HealthStatus 和 OperationalStatus

在 Windows Server 2016 儲存空間直接存取叢集中,您可能會看到一或多個實體磁碟的 HealthStatus 為「狀況良好」,但 OperationalStatus 卻是「正在從集區移除,確定」

「正在從集區移除」狀態是在呼叫 Remove-PhysicalDisk 時設定的意圖,但儲存在「健康情況」中以維護狀態,並且在移除作業失敗時支援復原。 您可以使用下列其中一種方法,手動將 OperationalStatus 變更為「狀況良好」:

  • 從集區中移除實體磁碟,再將其新增回去。
  • Import-Module Clear-PhysicalDiskHealthData.ps1.
  • 執行 Clear-PhysicalDiskHealthData.ps1 指令碼 以清除意圖。 此指令碼可供您以 .txt 檔案格式下載。 必須先將其儲存為 ps1 檔案,才能執行。

以下幾個範例示範如何執行指令碼:

  • 使用 SerialNumber 參數指定需要設定為「狀況良好」的磁碟。 您可以從 WMI MSFT_PhysicalDiskGet-PhysicalDisk 取得序號。 此範例使用零來表示序號。

    Clear-PhysicalDiskHealthData -Intent -Policy -SerialNumber 000000000000000 -Verbose -Force
    
  • 使用 UniqueId 參數來指定磁碟 (同樣經由 WMI MSFT_PhysicalDiskGet-PhysicalDisk)。

    Clear-PhysicalDiskHealthData -Intent -Policy -UniqueId 00000000000000000 -Verbose -Force
    

檔案複製速度緩慢

使用檔案總管將大型 VHD 複製到虛擬磁碟時,您可能會發現檔案複製耗費的時間超出預期。

我們不建議使用檔案總管、Robocopy 或 Xcopy 將大型 VHD 複製到虛擬磁碟。 這會導致效能低於預期。 複製程序不會經由儲存堆疊較低處的儲存空間直接存取堆疊,而是會像本機複製程序一樣運作。

如果您想要測試儲存空間直接存取效能,建議您使用 VMFleet 和 Diskspd 對伺服器進行負載和壓力測試,以取得基準並設定儲存空間直接存取效能的預期。

在節點重新開機期間預期會在其餘節點上出現的事件

您可以忽略這些事件:

Event ID 205: Windows lost communication with physical disk {XXXXXXXXXXXXXXXXXXXX}. This can occur if a cable failed or was disconnected, or if the disk itself failed.

Event ID 203: Windows lost communication with physical disk {XXXXXXXXXXXXXXXXXXXX}. This can occur if a cable failed or was disconnected, or if the disk itself failed.

如果您執行 Azure VM,則可忽略下列事件:事件識別碼 32:驅動程式偵測到裝置 \Device\Harddisk5\DR5 已啟用寫入快取。可能會發生資料損毀

使用 Intel P3x00 NVMe 裝置的部署效能緩慢,或發生「遺失通訊」、「IO 錯誤」、「中斷連結」或「無備援」錯誤

我們發現有一項重大問題會影響到部分儲存空間直接存取使用者;他們使用的硬體以 Intel P3x00 系列的 NVM Express (NVMe) 裝置為基礎,且韌體版本低於「維護版本 8」。

注意

個別 OEM 可能會有某些裝置以具有唯一韌體版本字串的 Intel P3x00 系列 NVMe 裝置為基礎。 如需最新韌體版本的詳細資訊,請連絡您的 OEM。

如果您在部署中使用以 Intel P3x00 系列 NVMe 裝置為基礎的硬體,建議您立即套用最新的可用韌體 (至少套用維護版本 8)。