内容字号:默认大号超大号

段落设置:段首缩进取消段首缩进

字体设置:切换到微软雅黑切换到宋体

域名备案_梦幻西游服务器_代金券

2021-06-10 22:00 出处:欧普曼云计算 人气: 评论(0

域名备案_梦幻西游服务器_代金券

我们在谷歌网站可靠性工程(SRE)团队发现,撰写一份无可指摘的验尸报告——对服务中断的回顾和分析——可以使系统更加可靠,并帮助服务所有者从事件中学习。

验尸报告在公司内部很容易完成——但在公司外部分享如何?你为什么要这么做?事实证明,如果你是一个服务或平台提供商,与客户分享验尸报告对你和他们都有好处。

在本期CRE生活课程中,我们将讨论外部验尸报告可能带来的好处和复杂性,新手建站教程,以及一些关于如何制作它们的实践课程。

众所周知的外部尸检

这些年来,我们也有过停机的经历,最近,我们分享了更多关于它们的细节。例如,2016年4月11日,谷歌计算引擎(Google Compute Engine)的入站流量下降,导致了这一公共事件报告。

其他公司也在公布关于自身停机的详细验尸报告。谁能忘记时间:

对于为广大用户提供广泛服务的平台提供商来说,像这样完全公开的验尸报告是有意义的(尽管它们需要大量的工作来准备,让你接受竞争对手和媒体的批评)。但是,即使停机的影响没有那么广泛,如果您正在实践SRE,与直接受到影响的客户分享验尸报告仍然是有意义的。关心客户的可靠性意味着分享停机的细节。

这是我们在谷歌云平台(GCP)客户可靠性工程中的立场。为了帮助客户在GCP上可靠地运行,我们教他们如何通过在我们的合作中实施SRE最佳实践来提高服务的可靠性。我们识别并量化每个客户服务的架构和运营风险,并与他们合作,以减轻这些风险,并推动在其SLO(服务级别目标)目标下维持系统可靠性。

具体而言,CRE团队与每个客户合作,帮助他们实现其SLO所表达的可用性目标。为此,主要步骤是:

然后,当发生事件导致服务超出其错误预算-或消耗了不可接受的高比例错误预算-服务所有者需要确定:

外部验尸基础

基于服务所有者的监测数据和他们自己的监测,平台团队可以按照标准实践和我们的验尸模板编写验尸报告。这就产生了一份内部审查的文件,该文件对事件时间线、影响范围和程度有规范的看法,并制定了一系列优先行动,以降低情况发生的概率(增加平均无故障时间)、减少预期影响、改进检测(减少平均检测时间)和/或更快地从事故中恢复(平均恢复时间缩短)。

但是,通过共享尸检,这并不是结束:我们想向受影响的客户公开一些(虽然可能不是全部)验尸信息。

为您的外部验尸选择一个受众

如果您的客户的SLO没有被违反,但这个问题仍然影响到他们的客户,这是客户自己验尸的一个行动项目:什么是否需要更改SLO或其测量值?例如,与实际问题发生的位置相比,什么是物联网应用技术,可用性度量在堆栈中是否更底层?

如果您的客户没有代表最终用户体验的SLO,则很难对此做出客观的判断。除非有明显的原因说明事件对某个特定客户的影响过大,否则您可能应该默认使用更通用的事件报告。

您应该考虑的另一个因素是,您希望与之共享信息的客户是否在保密协议项下;如果不在保密协议项下,这将不可避免地严重限制您的能力分享

如果停电影响了大多数客户,那么您应该考虑外部化的验尸报告是否可以作为撰写公开验尸报告或事件报告的基础,如我们上面引用的例子。当然,这些比与特定客户共享的外部验尸(即编辑内部验尸和获得内部批准)更为劳动密集,但提供了额外的好处。

完全公开验尸的最大好处是恢复用户群的信任。从您平台的单个用户的角度来看,很容易感觉到他们的特定问题对您并不重要。一个公开的验尸让他们了解他们的服务发生了什么,为什么,以及你是如何试图阻止它再次发生。对他们来说,这也是一个机会,他们可以根据公共岗位上的信息进行自己的小型验尸,扪心自问"如果这种情况再次发生,我将如何发现它,如何减轻对我服务的影响?"

决定分享多少,为什么?

我们认为,在决定是否向客户公开验尸的全部细节而不仅仅是摘要时,最重要的两个因素是:

我们发现,通过自动化和实践相结合,我们可以制作出一个可共享的内部验尸版本,加上大约10%的额外工作和内部检查复习。缺点是,你必须等待尸检完成或接近完成,然后再开始。相比之下,只要验尸报告的作者对根本原因有足够的信心,你就可以用同样的努力来写一份事故报告来自我们验尸模板的"根本原因和触发因素"和"哪里出错了"部分。"会不会更糟?"来自"我们幸运的地方"这是两个部分,你应该尽你最大的努力保留在外部尸检中,尽管你可能需要做一些修改以保持清晰。

"我们如何才能确保它不会再次发生"将来自尸检的行动项目表。

不说什么

其他需要注意的事项

谷歌SREs是在尸检中嵌入监控图的粉丝;监控数据是客观的,云服务器哪家好,一般不会撒谎给你(尽管我们的同事塞巴斯蒂安·基尔希有一些非常有用的指导,告诉你什么时候不是真的)。但是,当您在公司外共享验尸报告时,请注意这些图表显示的有关流量级别和服务用户数的信息。我们的经验法则是不使用X轴(时间),但是对于Y轴,大数据怎么样,要么去掉所有标签和数量,要么只显示百分比。这同样适用于将客户生成的数据合并到内部验尸中。

关于运气的作用的旁注

以及"哪些进展顺利"和"哪些进展不顺利"我们的内部验尸模板包括"我们从何处获得了幸运"一节。这是一个很有用的地方,海淘返利,可以梳理出客户发现的未来失败的风险事故。在许多情况下,事件的影响比可能的要小,因为相对随机的因素,如时间安排、特定人员的待命,或者与另一次大修同时发生,导致对生产系统的检查比正常情况更为积极。

"我们幸运的地方"是一个确定验尸后其他行动项目的机会,例如。,

把"我们倒霉的地方"归为一类的一个主要风险是,它被用来标记那些实际上不是由盲目的不幸造成的问题。从内部验尸来看这个例子:

我们不走运的地方

过去的中断和实验导致了各种生产不一致。这些东西没有清理干净,很难解释生产状况

分享给小伙伴们:
本文标签: 域名备案梦幻西游服务器代金券

相关文章

评论

发表评论愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。

签名: 验证码: 点击我更换图片

评论列表