Telltale

蔡宗城

#Monitoring#Netflix 推出包山包海監測系統 #Telltale半夜被 On Call 電話叫了起床,心中雖然還在納悶到底是真的系統有問題,還是只需要調整一下監測的閥值,就在思考的過程中一邊查看訊息跟 Dashboard,時間也一分一秒正在消逝中,這應該是所有 On Call 工程師都有遇過的情況,太多的 Alert,太多的 Dashboard,太多要維護的服務;Netflix 內部的串流團隊需要一個可以快速分析和發現問題的監控系統,也就是說內部的 Node 團隊需要開發一個系統,讓一小群人可以透過它來駕馭一整個大系統,就在這樣的時空環境之下 Telltale 被開發了出來!Telltale 想要解決上面提到的問題,所以著重在於使用鮮明的顏色來讓人可以一眼看出有沒有問題發生,而且只顯示出最相關的上下游資訊,利用之前已經提過的眾多開源工具來幫忙 Telltale 有效地發揮作用,例如 Atlas (Telemetry Platform),Mantis, Nimble…等;利用通知工具時除了單純地發出訊息之外,也會把後續資訊提供在通知內,並且將處理狀況更新在其中,同時也會做到事件管理 (Incident Management) 跟 部署監控 (Deployment Monitoring),看來 Telltale 什麼都做到了,只是其實這篇文章提到的架構相當的龐大,感覺不是單純把 Telltale 拿來用就可以了…▍ 原文:https://netflixtechblog.com/telltale-netflix-application-monitoring-simplified-5c08bfa780ba