掌握了這 11 個運維定律,或許你再也不會背鍋了!

運維之美2019-09-13 05:27:39


這裏不會講具體的技術和流程,旨在討論如何減少人為事故,規避未知風險,制定實用流程。

工作中領導經常説的一句話就是 “運維無小事” 。一個小的操作失誤可能就會引起巨大的損失。運維人員做事需要的就是細心,細心,再細心,仔細,仔細,再仔細。

作為運維人員口碑是在公司的立身之本,運維想要在公司內做出成績真的很不容易,面對突如其來的故障,各個部門的技術支持,還有服務器費用的龐大支出,要想在工作中尋找出一些亮點確實不易。

將自己的名字當一個品牌來運營,作為一名運維人員,在日常工作中我們遇到麻煩的事情不計其數,需要溝通的部門也很多。如何在公司中經營自己就顯得十分重要。只有有了好的口碑,凸顯了自己的重要性,才會在公司中立於不敗之地,才會有上升的資本。

所以不光是專研技術重要,溝通做事也非常重要,有些時候我們解決了問題,但是沒有溝通好,最後也沒有轉換為成績。有些時候我們遇到無法解決的問題,但是溝通好了,最後也會得到別人的認可。我們要做到態度有結果,溝通有跟蹤,總之就是要做到有始有終。

運維目標:安全、穩定、高效、節約

安全,公司的運維首先應當將安全放在在第一位,安全漏洞,信息泄露這些都會關係到公司的未來發展甚至是生死存亡,發生在互聯網公司的信息泄露事件不在少數都給這些公司造成很大的負面影響,要想挽回這些影響資金上的付出是很大的。所以安全是重中之重。

穩定,在安全的前提下保證業務的穩定運行是我們運維人認真考慮的,系統的穩定性關係到用户的體驗效果,重要程度不言而喻,這裏不再贅述。

高效,高效的利用一切資源,讓它們發揮最大的價值。

節約,硬件成本的支出,是公司支出的大頭,如何從硬件上節約成本是我們值得考慮的點,我們賺不了錢,但是我們可以省錢。

流程管理

流程在我們工作中是必須要有的,在工作中流程有很多,但是真正按照流程嚴格執行的又有幾個。相信大家都會會心一笑,很多流程都是用來秋後算賬的,當你的工作出現失誤了,領導就會翻出流程對你一頓批鬥。這個當然也怪不得領導,因為很多流程都是我們自己起草制定的,所以我們在制定流程的時候就應該多加考慮,以及要考慮流程的可行性,也要能讓領導接受它。

那麼什麼樣的流程是一個好的流程呢?這裏有一個小故事,有一位著名的建築設計大師,設計迪士尼樂園經過三年的精心施工,馬上就要對外開放了,然而,各個景點之間的道路該怎樣連接還沒有確定最後的方案。這個大師讓施工部在樂園的地上撒上草種,提前開放,小草長出來後,樂園開放,遊客可以在草地上隨意行走,在迪斯尼樂園提前開放的半年裏,草地被踩出許多條小道,這些小道有寬有窄,優雅自然,隨後這位大師讓人按這些踩出的痕跡鋪設人行道。最後這位大師因為這條小道獲得世界大獎。

日常操作

作為運維,服務器的日常維護操作是很頻繁的事情,如何做好操作記錄很有必要。如果是重複的事情要模板化,流程的事情要自動化,這樣可以很大程度上減少出錯的概率。

有一些特殊的操作就需要在操作前先寫操作步驟,越詳細越好,不能在心裏有了想法就到服務器上隨心而為。目的明確了,在心裏預想一下會減少很大的出錯機率。操作完畢後一定要以截圖的方式記錄操作結果。

監控報警

這裏不討論那種監控工具的優劣,各個監控工具的工作方式都大同小異,報警方式無外乎短信,郵件等一些常用方式。但是在我的工作當中,服務器有幾千台,報警有很多類型,某一時刻可能會收到幾十條,上百條,一條一條查看運維人員很容易忽略。

所以我們需要對發出去的報警信息進行二次加工,進行合併,分類。將同一類型的報警合併,按照緊急程度分類。還有對於報警形式我認為應該採取讓人強制被動接受的方式,如:使用大屏幕顯示,揚聲器報警,將報警發送到運維的微信羣中等等形式。這樣可以大大減少運維人員的漏看,忽略等情況,還可以根據報警級別提示運維人員做下一步操作動作。

故障處理

對於運維來説處理故障就是家常便飯,處理故障的時間和方法是分別運維能力的重要指標,經驗越多處理故障會越快方法也會更準確,這裏的經驗也包括使用搜索引擎的技巧。

在我看來,直覺也是相當重要的,可能在一些有明顯的提示的故障問題上沒什麼作用,但是遇到一些日誌提示模糊就會顯現出來,直覺會讓你撥開迷霧尋找到最快解決問題方法。

如何提升自己的直覺呢,直覺來自經驗,經驗來自不斷的自我學習和嘗試。遇到問題不要逃避,你是逃不了的,所以就迎難而上積累經驗吧。

這裏還想説的一點就是問題解決後的郵件回覆,既然要將自己當品牌來運營,那麼我們交出去的東西就應該是一個產品,什麼是好的產品,能成為好的產品就應該是完美的,無可挑剔的,讓人心裏舒暢的。那麼我們回覆的郵件應該包含以下幾點:問題解決結果,問題原因,問題解決過程,將來可能遇到的問題,建議等。

技術減少人為事故

人總是會犯錯的,作為運維如何減少犯錯的機率呢,最好的辦法就是用技術來解決,如將命令行操作改為選擇操作,增加審批流程。

這些就需要我們完善自動化運維平台,運維人員不再需要登錄到服務器上做操作,每一步操作都有審核,都有容錯,都有記錄。這樣就可以大大降低人為事故了。

運維墨菲定律

最後我們將以上總結為以下 11 條定律,請每天讀一遍以下的內容,以達自省。

1、任何事情都沒有表面看起來那麼簡單

2、所有的事情都會比你預計的時間長

3、會出錯的事總會出錯

4、如果你擔心某種事情會發生,那麼它更有可能發生

5、如果第一次便成功,顯然你已經做錯某事

6、當一切都朝着一個方向進行,最好朝着相反的方向深深的看一眼

7、自動消失的問題會自動回來

8、若大家的想法都差不多,顯然沒有一個人是在認真的思考

9、好的開始,未必就有好的結果,壞的開始,結果往往會更壞

10、必須永遠假設你的假設無效

11、教育無法取得才智

來源:51CTO

原文:http://t.cn/AiToVPJN

題圖:來自谷歌圖片搜索

版權:本文版權歸原作者所有

投稿:歡迎投稿,郵箱: [email protected]


你可能還喜歡

點擊下方圖片即可閲讀

如何快速的回憶起遺忘的 Linux 命令


https://hk.wxwenku.com/d/201370752