不究責的事後檢討

已完成

實行 DevOps 的組織想要以學習為目標來檢視誤失和錯誤。 對於中斷和意外採行不究責的事後檢討,是其目標之一。

實行安全文化的意義是,您會設法在安全性和責任歸屬間取得平衡。 這表示,若在調查錯誤時能著重於失敗的情境層面,以及導向失敗的個人決策制定過程,組織最後的立場可能會比懲處相關人員來得安全。

不究責的事後檢討意味著因其行動而導致意外的工程師可以詳細交代下列訊息:

  • 他們在何時採取了哪些動作。
  • 他們觀察到哪些效應。
  • 他們原本的預期為何。
  • 他們做了哪些假設。
  • 他們對於事件發生的時間軸有何理解。

務必要讓他們有空間可提供此詳細陳述,而不必擔心受到懲處

認為自己將遭受責備的工程師,將不會有意願提供真實而精確的問題陳述。 不去了解意外是如何發生,就會導致問題再度發生,就算不是同一個工程師肇禍,也會由其他人引起。

「我們必須試著了解,意外並非因為人們賭輸了而發生。 意外之所以發生,是因為人們認為:

...該發生的不可能會發生,...發生的事與他們所做的事無關,...或是,他們認為預期將得到的成果很值得冒險。」

Erik Hollnagel

讓工程師有自己的故事

若工程師在犯錯後能坦然交代詳細的過程,將會出現有趣的效應。 他們不僅願意承擔責任,還會熱心協助公司的其他人員避免再犯相同的錯誤。 畢竟,就這些錯誤的領域而言,他們可說是最具專業能力的。 他們應該會熱衷參與補救工作。

如何實行「安全文化」?

  • 對於中斷和事故採行不究責的事後檢討,藉以鼓勵學習。
  • 提醒自己,目標是要了解意外是如何發生的,以便做好準備防止問題再度發生。
  • 在失敗發生後多面向收集詳細資料,而不懲處犯錯的員工。
  • 不懲處工程師,而是讓他們詳細交代其導致失敗的過程,因而有正當的立場可提升安全性。
  • 鼓勵犯錯的員工成為專業人員,教導其他組織成員如何避免犯下相同錯誤。
  • 我們必須理解,人們有自由裁量空間可決定是否採取行動,而對這些決策的評估往往是事後諸葛。
  • 請理解事後偏見有可能影響我們對過往事件的評估,因此,請努力消除這種偏見。
  • 請接受基本歸因錯誤也難以避免的事實,因此在調查意外事件時,請將焦點放在人們工作的環境和情境上。
  • 努力確保組織的鈍端 (例如董事會或資深領導階層) 了解實際完成工作的方式。 透過甘特圖和尖端 (例如工程師和技術人員) 的程序,將實際完成方式與他們想像的方式相比較。
  • 尖端必須通知組織,適當行為與不當行為的界線何在。 這並不是鈍端自己就能做到的。

失敗在所難免。 為了得知失敗是如何發生的,我們必須先了解我們對失敗的反應。