- 軟件大?。?span>73.77M
- 軟件語言:中文
- 軟件類型:國產軟件
- 軟件類別:免費軟件 / 電子圖書
- 更新時間:2017-08-22 10:53
- 運行環(huán)境:WinAll, WinXP, Win7, Win8, Win10
- 軟件等級:
- 軟件廠商:
- 官方網站:暫無
146.48M/中文/2.0
9.76M/中文/10.0
32.22M/中文/1.5
7.81M/中文/1.4
5.85M/中文/0.0
sre google運維解密pdf是一套免費的電子圖書文檔。這套圖書為大家介紹了軟件開發(fā)過程中遇到了詳細運維方式。很適合Google工程師人員研究學習使用!快來綠色資源網下載閱讀吧!
在《SRE:Google運維解密》中,Google SRE的關鍵成員解釋了他們是如何對軟件進行生命周期的整體性關注的,以及為什么這樣做能夠幫助Google成功地構建、部署、監(jiān)控和運維世界上現(xiàn)存最大的軟件系統(tǒng)。通過閱讀《SRE:Google運維解密》,讀者可以學習到Google工程師在提高系統(tǒng)部署規(guī)模、改進可靠性和資源利用效率方面的指導思想與具體實踐——這些都是可以立即直接應用的寶貴經驗。
任何一個想要創(chuàng)建、擴展大規(guī)模集成系統(tǒng)的人都應該閱讀《SRE:Google運維解密》?!禨RE:Google運維解密》針對如何構建一個可長期維護的系統(tǒng)提供了非常寶貴的實踐經驗。
前言 xxxi
序言 xxxv
第Ⅰ部分 概覽
第1 章 介紹 2
系統(tǒng)管理員模式 2
Google 的解決之道:SRE 4
SRE 方法論 6
確保長期關注研發(fā)工作 6
在保障服務SLO 的前提下最大化迭代速度 7
監(jiān)控系統(tǒng) 8
應急事件處理 8
變更管理 9
需求預測和容量規(guī)劃 9
資源部署 10
效率與性能 10
小結 10
第2 章 Google 生產環(huán)境:SRE 視角 11
硬件 11
管理物理服務器的系統(tǒng)管理軟件 13
管理物理服務器 13
存儲 14
網絡 15
其他系統(tǒng)軟件 16
分布式鎖服務 16
監(jiān)控與警報系統(tǒng) 16
軟件基礎設施 17
研發(fā)環(huán)境 17
莎士比亞搜索:一個示范服務 18
用戶請求的處理過程 18
任務和數據的組織方式 19
第Ⅱ部分 指導思想
第3 章 擁抱風險 23
管理風險 23
度量服務的風險 24
服務的風險容忍度 25
辨別消費者服務的風險容忍度 26
基礎設施服務的風險容忍度 28
使用錯誤預算的目的 30
錯誤預算的構建過程 31
好處 32
第4 章 服務質量目標 34
服務質量術語 34
指標 34
目標 35
協(xié)議 36
指標在實踐中的應用 37
運維人員和最終用戶各關心什么 37
指標的收集 37
匯總 38
指標的標準化 39
目標在實踐中的應用 39
目標的定義 40
目標的選擇 40
控制手段 42
SLO 可以建立用戶預期 42
協(xié)議在實踐中的應用 43
第5 章 減少瑣事 44
瑣事的定義 44
為什么瑣事越少越好 45
什么算作工程工作 46
瑣事繁多是不是一定不好 47
小結 48
第6 章 分布式系統(tǒng)的監(jiān)控 49
術語定義 49
為什么要監(jiān)控 50
對監(jiān)控系統(tǒng)設置合理預期 51
現(xiàn)象與原因 52
黑盒監(jiān)控與白盒監(jiān)控 53
4 個黃金指標 53
關于長尾問題 54
度量指標時采用合適的精度 55
簡化,直到不能再簡化 55
將上述理念整合起來 56
監(jiān)控系統(tǒng)的長期維護 57
Bigtable SRE :警報過多的案例 57
gmail :可預知的、可腳本化的人工干預 58
長跑 59
小結 59
第7 章 Google 的自動化系統(tǒng)的演進 60
自動化的價值 60
一致性 60
平臺性 61
修復速度更快 61
行動速度更快 62
節(jié)省時間 62
自動化對Google SRE 的價值 62
自動化的應用案例 63
Google SRE 的自動化使用案例 63
自動化分類的層次結構 64
讓自己脫離工作:自動化所有的東西 66
舒緩疼痛:將自動化應用到集群上線中 67
使用Prodtest 檢測不一致情況 68
冪等地解決不一致情況 69
專業(yè)化傾向 71
以服務為導向的集群上線流程 72
Borg :倉庫規(guī)模計算機的誕生 73
可靠性是最基本的功能 74
建議 75
第8 章 發(fā)布工程 76
發(fā)布工程師的角色 76
發(fā)布工程哲學 77
自服務模型 77
追求速度 77
密閉性 77
強調策略和流程 78
持續(xù)構建與部署 78
構建 78
分支 79
測試 79
打包 79
Rapid 系統(tǒng) 80
部署 81
配置管理 81
小結 82
不僅僅只對Google 有用 83
一開始就進行發(fā)布工程 83
第9 章 簡單化 85
系統(tǒng)的穩(wěn)定性與靈活性 85
乏味是一種美德 86
我絕對不放棄我的代碼 86
“負代碼行”作為一個指標 87
最小 API 87
模塊化 87
發(fā)布的簡單化 88
小結 88
第Ⅲ部分 具體實踐
第10 章 基于時間序列數據進行有效報警 93
Borgmon 的起源 94
應用軟件的監(jiān)控埋點 95
監(jiān)控指標的收集 96
時間序列數據的存儲 97
標簽與向量 98
Borg 規(guī)則計算 99
報警 104
監(jiān)控系統(tǒng)的分片機制 105
黑盒監(jiān)控 106
配置文件的維護 106
十年之后 108
第11 章 on-call 輪值 109
介紹 109
on-call 工程師的一天 110
on-call 工作平衡 111
數量上保持平衡 111
質量上保持平衡 111
補貼措施 112
安全感 112
避免運維壓力過大 114
運維壓力過大 114
奸詐的敵人—運維壓力不夠 115
小結 115
第12 章 有效的故障排查手段 116
理論 117
實踐 119
故障報告 119
定位 119
檢查 120
診斷 122
測試和修復 124
神奇的負面結果 125
治愈 126
案例分析 127
使故障排查更簡單 130
小結 130
第13 章 緊急事件響應 131
當系統(tǒng)出現(xiàn)問題時怎么辦 131
測試導致的緊急事故 132
細節(jié) 132
響應 132
事后總結 132
變更部署帶來的緊急事故 133
細節(jié) 133
事故響應 134
事后總結 134
流程導致的嚴重事故 135
細節(jié) 135
災難響應 136
事后總結 136
所有的問題都有解決方案 137
向過去學習,而不是重復它 138
為事故保留記錄 138
提出那些大的,甚至不可能的問題:假如…… 138
鼓勵主動測試 138
小結 138
第14 章 緊急事故管理 140
無流程管理的緊急事故 140
對這次無流程管理的事故的剖析 141
過于關注技術問題 141
溝通不暢 141
不請自來 142
緊急事故的流程管理要素 142
嵌套式職責分離 142
控制中心 143
實時事故狀態(tài)文檔 143
明確公開的職責交接 143
一次流程管理良好的事故 144
什么時候對外宣布事故 144
小結 145
......
請描述您所遇到的錯誤,我們將盡快予以修正,謝謝!
*必填項,請輸入內容