首页>参考读物>计算机科学与技术>计算机网络

SRE原理与实践:构建高可靠性互联网应用
作者 : 张观石 著
出版日期 : 2022-11-28
ISBN : 978-7-111-71582-5
定价 : 99.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 320
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

内容介绍
这是一本从架构、开发、测试、运维全流程讲解如何进行软件可靠性工程建设的著作,它将帮助读者构建针对软件可靠性工程的完整的知识体系、工程体系和理论体系。
本书作者是虎牙科技的SRE架构师,他基于20余年的架构、研发和运维经验,用4年时间反复打磨,代表中国的工程师总结了中国互联网企业的SRE方法和经验。本书得到了中国SRE奠基人、虎牙科技CEO以及华为、腾讯、阿里、B站、亚马逊等企业的10余位技术专家高度评价并一致推荐。
本书参考传统可靠性工程及软件可靠性工程体系,把传统可靠性工程中的“六性”(可靠性、维修性、测试性、保障性、安全性、环境适应性)转化为互联网软件可靠性工程的6种能力(可靠性设计能力、观测能力、修复能力、保障能力、反脆弱能力、管理能力)。每一项能力都包括:互联网SRE体系中的概念、能力的设计、能力建设的原则与方法、能力的度量与改进,以及相应的实践案例。通过这6种能力把可靠性相关的工作组织起来,6种能力对应6个工作方向,不仅清晰地描绘出互联网软件可靠性工程体系的全貌,而且详细阐述了每一种能力的获得方法。
本书基于传统可靠性和软件可靠性的研究成果,借鉴和应用它们的成熟理论和工程方法,结合互联网软件的实际情况并加以融合和改进,提出了一套符合互联网时代的软件可靠性工程方法。
此外,本书还介绍了可靠性管理能力,对互联网软件开发团队、运维团队的技术领导者以及希望转型为可靠性工程师的传统运维人员、开发人员应该都有一定参考价值。

图书特色

虎牙科技SRE架构师20余年经验总结,4年时间反复打磨,总结中国互联网企业SRE方法和经验
中国SRE奠基人、虎牙科技CEO以及华为、腾讯、阿里、B站、亚马逊等企业的10余位技术专家高度评价

上架指导

计算机\网络

封底文字

董荣杰 虎牙科技CEO
“技术驱动娱乐”是虎牙直播秉承的理念。给用户提供不卡顿、不黑屏、低延迟、高画质的游戏直播服务是虎牙的追求。本书总结了虎牙技术团队驱动虎牙业务快速发展及支撑业务服务高质量高可靠的综合能力。找到技术背后的逻辑是工程师的一项非常重要的能力,相信本书介绍的方法也能适用于其他公司。

丁宇(叔同) 阿里云智能云原生应用平台总经理
本书从可靠性工程的历史和体系说起,依次讲述了可靠性工程与软件生命周期、软件可靠性设计、可观测性、故障恢复与综合保障、反脆弱等多个方面,从自底向上设计、软件开发流程、持续运维过程、不同管理视角参与等多个维度,展示了如何系统化打造稳定、可靠的互联网应用。无论互联网的技术架构如何发展,可靠性、可用性都是最重要、最基本的要求。本书总结了虎牙直播在可靠性建设方面的实战经验,可以作为企业落地SRE的参考手册,助力企业打造出固若金汤的互联网应用服务。

毛剑 bilibili 技术委员会主席
SRE是一项系统性工程,综合了工程方法论、经验、理念、自动化等多方面的技术和知识,是提供持续可靠、可用的大规模业务的重要保障。很高兴能看到越来越多国内公司及技术人员对于这个方向的持续探索和实践,为这个领域的发展贡献力量。

徐勇州 腾讯云技术运营部总经理
可靠性对互联网应用至关重要,设立独立的SRE团队用于确保应用的可靠性已成为互联网公司的一项核心竞争力。观石在书中系统地阐述了可靠性工程的重要性,以及他是如何思考和践行可靠性工程的。这种理论结合实践的方式,能首先让读者更多地了解可靠性工程的全貌,并进一步深刻理解可靠性工程的六大能力(可靠性设计能力、观测能力、修复能力、 保障能力、反脆弱能力和管理能力),是业界一本难能可贵的体系化教程。

作者简介

张观石 著:作者简介
张观石
资深运维专家和架构师,拥有20年软件开发、架构、运维、SRE经验。目前就职于虎牙直播,历任项目研发负责人、SRE负责人、架构师,虎牙事故管理委员会委员、基础保障部架构师委员会委员。
为虎牙基于微服务架构的直播业务、音视频业务、海外直播业务建立了稳定的保障体系,多次担任虎牙“英雄联盟全球总决赛直播”稳定性保障负责人。在混合多云架构、可观测性、预案、变更管控、AIOps等SRE领域有深入研究和丰富经验。
同时,他也是中国信通院分布式系统稳定性实验室高级技术专家,参与编写了信通院《信息系统稳定性保障能力建设指南》。《运维前线》一书的联合作者。多次参与GOPS、MSUP、GDevops技术大会分享。

图书目录

《SRE原理与实践:构建高可靠性互联网应用》
第1章 互联网服务可靠性概论
(一) 可靠性发展及重要性
(二) 高可用与可靠性的关系
(三) 可靠性定义及分类
(四) 可靠性与产品性能
(五) 可靠性的规律
第2章 可靠性工程六种能力概述
(一) 可靠性管理能力
(二) 反脆弱能力与环境适应性
(三) 感知能力与可测试性
(四) 可维修性&修复能力??
(五) 可保障性
(六) 安全性
第3章 可靠性管理与实践
(一) 互联网应用可靠性模型
(二) 可靠性指标及预估
(三) 故障模式、影响及危害
(四) 可靠性管理要点:
(五) 可靠性管理的一些实践
第4章 反脆弱能力建设与实践
(一) 脆弱性概述
(二) 反脆弱性的主要工作
(三) 脆弱性分析
(四) 互联网应用场景脆弱性因素
(五) 反脆弱的设计:
(六) 反脆弱能力的评估
(七) 反脆弱能力建设的几点实践
第5章 可靠性感知能力建设与实践
(一) 运维监控
(二) 监控与感知能力
(三) 感知能力评估
(四) 感知能力建设
(五) 感知能力建设实践
第6章 修复能力建设与实践
(一) 可维修性
(二) 工程应用要点
(三) 故障分类
(四) 维修能力建设实践
第7章 保障能力建设与实践
(一) 可用性与保障性
(二) 保障性要求与设计
(三) 综合保障规划与管理
(四) 使用保障与维修保障
(五) 保障资源与资源交付
(六) 工程应用要点与实践
第8章 运维安全能力建设
(一) 安全分类
(二) 系统危险分析
(三) 安全性设计
(四) 安全性评价
(五) 安全性的管理

教学资源推荐
作者: Gary R.Wright,W.Richard Stevens
作者: 主编 邓庆绪 张金 参编 顾琳 刘晨 王波
作者: 孔祥杰 万良田 夏锋 编著
作者: (美)William Stallings Thomas Case 著
参考读物推荐
作者: 饶琛琳 编著
作者: 刘畅 杨昕
作者: (加)Brent Chaters 著
作者: 吴功宜 吴英 编著