微軟在美國服務於臺灣時間周五上午清晨約6點突然無預警大當機,造成包含微軟旗下的眾多服務,包括 M365和Azure雲端服務均受影響,外媒更形容,這是「全球前所未見最嚴重IT當機」,或是「史上最大規模IT當機」,儘管這次服務中斷主要發生在美國,但在臺灣,也有不少網友上網抱怨無法正常使用微軟的系統和服務,影響正常工作。
事件概述
這次服務中斷事故主要為微軟位在美國中部區域一座Azure資料中心出現故障問題,導致包含M365在內等雲端服務大中斷,無法正常提供服務。已知受影響服務包含了M365管理中心、線上版SharePoint、商用版OneDrive、Teams、Intune、PowerBI、Fabric、Defender、Defender for Endpoint、Viva Engage,中斷事故發生後,微軟也在Azure狀態頁面公告指出,因為美國中部地區的多個Azure 服務中遇到問題,造成服務管理作業、服務連線或可用性故障,不少美國航空業者的航班受到了影響,包括 Frontier 的營運受到了短暫影響,SunCountry 的預訂和入住設施也因第三方供應商使用微軟服務而受到影響,此外,Allegiant的網站也暫時無法使用。
起因
經過調查,此次當機事件的主要原因是資安公司CrowdStrike發布的一項軟體更新出現問題,導致使用Windows作業系統的裝置受到影響,後端叢集管理工作流程部署設定被更改,而影響Azure儲存叢集與運算資源之間的後端存取被封鎖,當虛擬磁碟無法連線時,會自動重新啟動運算資源,因而造成其服務中斷,微軟表示,目前該區域所有Azure儲存叢集均已得到緩解,大部分服務已恢復正常, 雖然微軟並非事件的直接起因,但由於其廣泛的生態系統,也受到了波及。
CrowdStrike 的這項更新原本旨在增強系統安全性,卻因不明原因導致 Windows 作業系統產生衝突,進而引發全球性的系統癱瘓。這起事件突顯了軟體更新的兩面性:一方面,更新可以修復漏洞、提升系統性能;但另一方面,若更新設計不當或出現錯誤,也可能帶來意想不到的嚴重後果,而Crowdstrike身為網路安全服務供應商,往往是客戶在遭遇駭客攻擊後雇來處理後續問題,但這次卻是其軟體更新的瑕疵惹禍,使得這家通常是資訊科技問題解決辦法之一的公司,反而成為問題源頭,由於Crowdstrike的每位客戶都是龐大組織,因此受影響的個別電腦數量難以估計。
事件影響
全球範圍: 這次事件影響了全球眾多使用Windows作業系統的用戶和企業。
多產業癱瘓: 航空業的航班取消、金融系統的交易暫停、醫療院所的預約系統癱瘓, 都凸顯了現代社會對資訊系統的高度依賴。
經濟損失: 企業因業務中斷而蒙受巨額經濟損失,對全球經濟也產生了不小的衝擊。
用戶恐慌: 大規模的系統當機引發了全球用戶的恐慌,對科技產品的信任度產生了影響。
總結
軟體開發者應該在發布軟體更新前進行充分的測試,以確保更新的穩定性和安全性,不同軟體廠商之間應該加強合作,共同建立一個更安全的軟體生態系統,提高用戶對資訊安全的意識,讓用戶了解如何保護自己的設備和數據,在享受科技便利的同時也應該意識到其中的風險,才能建立一個更加安全可靠的資訊環境。
參考資料:
https://www.cna.com.tw/news/aopl/202407190385.aspx
https://www.ithome.com.tw/news/164028