為什麼要從事件中學習?

已完成

當事件發生時,您的第一個反應可能不是「快點,出現一個學習機會了!」您的當務之急是找出問題所在並儘快修正,以降低對客戶和使用者的影響,且也應該這樣做。 這是我們在此學習路徑的另一個課程模組中討論過的事件回應程序。

不過,一旦事件解決之後,請務必追蹤並從經驗中學習。 如果我們不花時間從事件中吸取教訓,那麼仍然只是失去時間、金錢、聲譽等;但是,如果該事件可以是資訊來源 (以沒有其他來源的方式),我們實際上就可以從中衍生一些好處。

事件後檢閱是事件回應生命週期在分析階段的一部分。 並非所有的事件後檢閱都是一樣的。 有不同的方法可以取得程序,而且太專注於問題的某些層面,或以錯誤方式為問題設上框架可能會降低檢閱的價值。

在此單元中,您將開始嘗試不只要思考為什麼,也要想想看能夠如何從事件中學到最多知識。 我們將在後續單元中詳細說明與「如何」有關的問題。

複雜系統失敗

您必須學習在系統沒有失敗的情況下了解失敗,這是因為您的系統「肯定會」在某個時候失敗。

在現代化世界中,我們目前使用的大部分系統 (尤其是在雲端環境中) 都很複雜。 其是由許多必須共同運作的互連元件所組成,而整體系統行為就是由這些元件彼此互動,以及個別元件本身作用所構成的。

「可靠性」是貫穿此學習路徑的執行緒,但複雜系統永遠不會百分之百可靠。 此類系統是以有趣且違反直覺的方式運作的。 其是由許多元件所組成,而系統的行為通常就是由這些元件之間的互動,以及元件本身作用所構成的。

如需此主題的更深入討論內容,其中一個好用資源是標題為複雜系統是如何失敗的白皮書,著作人為Richard I. Cook 博士。 他是一位麻醉師和研究員,花了數十年時間致力於處理複雜系統的安全性,特別是針對醫療保健系統中患者的安全。 在本白皮書中,他將說明從醫療保健到軟體作業的所有領域中,複雜系統的共同之處。

他提出的重點中,有幾個與事件分析和事件後檢閱程序特別有關:

  • 複雜系統包含不斷變化的潛在失敗。 如果沒有多個缺陷,您的系統就不可能執行。 因為技術、工作組織和為消除失敗所做的工作都會變化,所以失敗也會改變。 您的系統永遠不會以完美的狀態運作。
  • 複雜系統會以降級模式執行。 複雜系統會一律以「中斷」系統的方式執行。 系統會在該狀態下保持「運作」,因為系統中包含許多的備援項目,所以儘管存在許多缺陷,我們仍可以讓系統維持運作。 系統作業是動態的,元件會持續且循環不斷地發生失敗並被取代。
  • 災難是隨時都有可能發生的。 從長遠來看,這些系統的複雜性意味著重大的系統失敗長期而言是無法避免的。 複雜系統一定會有嚴重失敗的可能性,而且隨時都可能發生。 這種可能性是不可能消除的,因為其屬於系統固有的特性。

預防與回應

為了讓您的系統和服務達到您所需的可靠性層級,您會採取一切可能的動作來防止事件發生。 但如上面所述,基於這些系統的複雜性,有時候是無法預防的。

因為有了此認知,所以我們必須採取雙管齊下的方式來解決失敗:預防,以及當無法預防時,就要快速且有效地回應。

預防和回應是相互關聯的。 您可能體驗過,當貴組織部署了在大多數情況下都可以正常運作的複雜自動化時,您可能會遇到這種情況。 在大多數情況下都能正常運作是很棒的事,但是當其失敗時,可能會失敗得很嚴重,讓操作人員更難釐清發生錯誤的事項和原因。

您處理的系統不僅僅是由技術所組成的。 實際上,您不是「在系統上工作」或「使用系統」,而是「在系統中工作」。 您是系統的一部分。 複雜系統包括技術元件 (硬體、軟體) 和人類元件 (人員和其個性、訓練與知識)。 我們的系統是包含人類的系統,以及當事情發生錯誤與事先預防事情發生錯誤「同樣」重要時,人們會如何回應。

語言

語言很重要。 您會在此課程模組中了解,我們將非常詳細地說明我們所使用和刻意不使用的字詞。

我們使用的文字會影響我們對事件中發生什麼事的思考方式,且會大幅度改變我們所學的內容及學到多少知識。 這個發現來自對航空、醫學、搜索和救援,以及消防等等安全至上的產業所做的研究。

這個研究領域統稱為復原工程 (RE)。

技術領域中有很多關於復原工程的知識可讓我們學習。 稍後在此課程模組中,我們將分享我們從 RE 文獻中學到的一些實用知識,包括當人們嘗試從失敗中學習時,四個最常落入的陷阱。

檢定您的知識

1.

下列哪一個與複雜系統有關的陳述不成立?

2.

人員在複雜系統中具有什麼角色?