sre google運維解密 pdf 最新軟件|熱門排行|軟件分類|軟件專題|廠商大全

您的位置: 首頁教育教學電子圖書 → google sre中文版pdf 高清電子版

google sre中文版pdf

高清電子版 google sre中文版pdf 網友評分:8

同類相關軟件

軟件介紹

sre google運維解密pdf是一套免費的電子圖書文檔。這套圖書為大家介紹了軟件開發(fā)過程中遇到了詳細運維方式。很適合Google工程師人員研究學習使用!快來綠色資源網下載閱讀吧!

《SRE Google運維解密》介紹:

在《SRE:Google運維解密》中,Google SRE的關鍵成員解釋了他們是如何對軟件進行生命周期的整體性關注的,以及為什么這樣做能夠幫助Google成功地構建、部署、監(jiān)控和運維世界上現(xiàn)存最大的軟件系統(tǒng)。通過閱讀《SRE:Google運維解密》,讀者可以學習到Google工程師在提高系統(tǒng)部署規(guī)模、改進可靠性和資源利用效率方面的指導思想與具體實踐——這些都是可以立即直接應用的寶貴經驗。

任何一個想要創(chuàng)建、擴展大規(guī)模集成系統(tǒng)的人都應該閱讀《SRE:Google運維解密》?!禨RE:Google運維解密》針對如何構建一個可長期維護的系統(tǒng)提供了非常寶貴的實踐經驗。

google sre中文版pdf

sre google運維解密 pdf電子圖書目錄介紹

前言 xxxi

序言 xxxv

第Ⅰ部分 概覽

第1 章 介紹 2

系統(tǒng)管理員模式 2

Google 的解決之道:SRE 4

SRE 方法論 6

確保長期關注研發(fā)工作 6

在保障服務SLO 的前提下最大化迭代速度 7

監(jiān)控系統(tǒng) 8

應急事件處理 8

變更管理 9

需求預測和容量規(guī)劃 9

資源部署 10

效率與性能 10

小結 10

第2 章 Google 生產環(huán)境:SRE 視角 11

硬件 11

管理物理服務器的系統(tǒng)管理軟件 13

管理物理服務器 13

存儲 14

網絡 15

其他系統(tǒng)軟件 16

分布式鎖服務 16

監(jiān)控與警報系統(tǒng) 16

軟件基礎設施 17

研發(fā)環(huán)境 17

莎士比亞搜索:一個示范服務 18

用戶請求的處理過程 18

任務和數據的組織方式 19

第Ⅱ部分 指導思想

第3 章 擁抱風險 23

管理風險 23

度量服務的風險 24

服務的風險容忍度 25

辨別消費者服務的風險容忍度 26

基礎設施服務的風險容忍度 28

使用錯誤預算的目的 30

錯誤預算的構建過程 31

好處 32

第4 章 服務質量目標 34

服務質量術語 34

指標 34

目標 35

協(xié)議 36

指標在實踐中的應用 37

運維人員和最終用戶各關心什么 37

指標的收集 37

匯總 38

指標的標準化 39

目標在實踐中的應用 39

目標的定義 40

目標的選擇 40

控制手段 42

SLO 可以建立用戶預期 42

協(xié)議在實踐中的應用 43

第5 章 減少瑣事 44

瑣事的定義 44

為什么瑣事越少越好 45

什么算作工程工作 46

瑣事繁多是不是一定不好 47

小結 48

第6 章 分布式系統(tǒng)的監(jiān)控 49

術語定義 49

為什么要監(jiān)控 50

對監(jiān)控系統(tǒng)設置合理預期 51

現(xiàn)象與原因 52

黑盒監(jiān)控與白盒監(jiān)控 53

4 個黃金指標 53

關于長尾問題 54

度量指標時采用合適的精度 55

簡化,直到不能再簡化 55

將上述理念整合起來 56

監(jiān)控系統(tǒng)的長期維護 57

Bigtable SRE :警報過多的案例 57

gmail :可預知的、可腳本化的人工干預 58

長跑 59

小結 59

第7 章 Google 的自動化系統(tǒng)的演進 60

自動化的價值 60

一致性 60

平臺性 61

修復速度更快 61

行動速度更快 62

節(jié)省時間 62

自動化對Google SRE 的價值 62

自動化的應用案例 63

Google SRE 的自動化使用案例 63

自動化分類的層次結構 64

讓自己脫離工作:自動化所有的東西 66

舒緩疼痛:將自動化應用到集群上線中 67

使用Prodtest 檢測不一致情況 68

冪等地解決不一致情況 69

專業(yè)化傾向 71

以服務為導向的集群上線流程 72

Borg :倉庫規(guī)模計算機的誕生 73

可靠性是最基本的功能 74

建議 75

第8 章 發(fā)布工程 76

發(fā)布工程師的角色 76

發(fā)布工程哲學 77

自服務模型 77

追求速度 77

密閉性 77

強調策略和流程 78

持續(xù)構建與部署 78

構建 78

分支 79

測試 79

打包 79

Rapid 系統(tǒng) 80

部署 81

配置管理 81

小結 82

不僅僅只對Google 有用 83

一開始就進行發(fā)布工程 83

第9 章 簡單化 85

系統(tǒng)的穩(wěn)定性與靈活性 85

乏味是一種美德 86

我絕對不放棄我的代碼 86

“負代碼行”作為一個指標 87

最小 API 87

模塊化 87

發(fā)布的簡單化 88

小結 88

第Ⅲ部分 具體實踐

第10 章 基于時間序列數據進行有效報警 93

Borgmon 的起源 94

應用軟件的監(jiān)控埋點 95

監(jiān)控指標的收集 96

時間序列數據的存儲 97

標簽與向量 98

Borg 規(guī)則計算 99

報警 104

監(jiān)控系統(tǒng)的分片機制 105

黑盒監(jiān)控 106

配置文件的維護 106

十年之后 108

第11 章 on-call 輪值 109

介紹 109

on-call 工程師的一天 110

on-call 工作平衡 111

數量上保持平衡 111

質量上保持平衡 111

補貼措施 112

安全感 112

避免運維壓力過大 114

運維壓力過大 114

奸詐的敵人—運維壓力不夠 115

小結 115

第12 章 有效的故障排查手段 116

理論 117

實踐 119

故障報告 119

定位 119

檢查 120

診斷 122

測試和修復 124

神奇的負面結果 125

治愈 126

案例分析 127

使故障排查更簡單 130

小結 130

第13 章 緊急事件響應 131

當系統(tǒng)出現(xiàn)問題時怎么辦 131

測試導致的緊急事故 132

細節(jié) 132

響應 132

事后總結 132

變更部署帶來的緊急事故 133

細節(jié) 133

事故響應 134

事后總結 134

流程導致的嚴重事故 135

細節(jié) 135

災難響應 136

事后總結 136

所有的問題都有解決方案 137

向過去學習,而不是重復它 138

為事故保留記錄 138

提出那些大的,甚至不可能的問題:假如…… 138

鼓勵主動測試 138

小結 138

第14 章 緊急事故管理 140

無流程管理的緊急事故 140

對這次無流程管理的事故的剖析 141

過于關注技術問題 141

溝通不暢 141

不請自來 142

緊急事故的流程管理要素 142

嵌套式職責分離 142

控制中心 143

實時事故狀態(tài)文檔 143

明確公開的職責交接 143

一次流程管理良好的事故 144

什么時候對外宣布事故 144

小結 145

......

軟件截圖

下載地址 電腦版

點擊報錯 軟件無法下載或下載后無法使用,請點擊報錯,謝謝!

用戶評論

熱門評論

最新評論

發(fā)表評論 查看所有評論(0)

昵稱:
請不要評論無意義或臟話,我們所有評論會有人工審核.
字數: 0/500 (您的評論需要經過審核才能顯示)