内容字号:默认大号超大号

段落设置:段首缩进取消段首缩进

字体设置:切换到微软雅黑切换到宋体

服务器_阿里云组织架构_试用

2021-06-10 12:01 出处:欧普曼云计算 人气: 评论(0

服务器_阿里云组织架构_试用

编者按:我们很高兴为您带来这篇来自谷歌专家团队的博文,他们写了这本书(真的!)现场可靠性工程(SRE)几年前。这本书的第二版正在进行中,这篇文章深入探讨了与当今许多IT团队相关的SRE领域:云计算时代的故障排除。这是第二部分。查看第一部分"为云提供商提供更好的问题报告"。

计算机系统故障排除与计算机本身一样古老。有些人甚至称之为艺术。云计算模式需要对IT团队进行故障排除的方式进行根本性的改变。

成功的IT故障排除不仅取决于运气或经验,而且是一个可以教授的深思熟虑的过程。当您使用基于云的基础设施时,您通常会通过云提供商的帮助台进行故障排除,从而添加另一层来帮助用户。由于这种从传统IT团队模式的转变,您与提供商的沟通是必不可少的。(请参阅第一部分,大数据风控,了解有关如何编写有效的问题报告以从一开始就改进故障排除的更多信息。)

一旦您将问题告知您的提供商,您将与提供商的支持团队合作解决问题。

云故障排除的要点

从站点可靠性工程(SRE)的角度来看,一般的故障排除方法如下:

当您与云提供商合作解决问题时,这个过程有些部分你无法控制。但你可以跟着你这边的步骤走。以下是向云提供商支持团队提交报告时可以执行的操作。

1。沟通您在打开问题报告时已经完成的任何故障排除,您可能已经完成了一些故障排除。例如,您可能已经检查了提供者的状态页。分享你所采取的步骤和任何关键发现。保留一个时间表和日志,你做了什么,淘客联盟,并与供应商分享。这意味着你应该从发现你的问题开始,大数据服务,尽快开始记录日志。请记住,虽然云提供商可能有遥测功能,可以提供对其基础设施状态的实时全知感知,但特定实现产生的依赖性可能不太明显。根据设计,您对云资源的特定使用是专有的和私有的,因此您的故障排除优势是至关重要的。

如果您认为您有诊断,请解释您是如何得出这个结论的。如果您认为其他人可以重现该问题,请包括这样做的步骤。问题报告中的可复制测试通常会导致最快的解决方案。

您可能对问题的起因有想法或猜测。在不考虑相反证据的情况下,注意避免确认偏差寻找支持你猜测的证据。如果你曾经玩过电话游戏,玩家在人与人之间低声传递信息,你已经看到了人类的翻译和口译是如何导致沟通的鸿沟的。与其在提供者通信中描述信息,不如尝试共享它。这样做可以减少读者误解您所说内容的机会,并有助于加快故障排除。不要假设您的提供商可以访问所有这些信息;客户隐私意味着他们可能无法访问这些信息。

例如:

通常,当云提供商支持部门接到生产中断的警报时,他们会通过以下步骤快速分析情况:

通常,您可以期望快速响应并提供简短的提示消息,其中可能包含:

重要的是要快速创建一个问题报告,包括四个关键细节(在第一部分中描述),然后开始更深入的故障排除在您这边的等式。如果您的组织有定义的事件管理流程(请参阅管理事件),那么升级到云提供商应该是您的初始步骤之一。

4。报告特定的网络问题大多数云提供商的网络庞大而复杂,由许多技术和团队组成。快速发现特定于网络的问题并与能够修复该问题的团队合作是很重要的。

许多网络问题都有类似的症状,比如"无法连接到服务器",在高级别上。这一级别的详细信息通常过于通用,无法用于确定根本原因,因此需要提供更多的诊断信息。网络问题与连接性有关,它至少涉及两个特定点:源和目标。报告网络问题时,请始终包含有关这些点的信息。

要构建问题报告,请使用数据包流程图的概念工具:

许多表现为高延迟或间歇性数据包丢失的问题需要进行路径分析和/或数据包捕获以进行诊断。路径分析是数据包经过的所有跃点的列表(例如,MTR或tcptraceroute)。数据包捕获(又称pcap,来源于libpcap库的名称)是对真实网络流量的观察。同时为两个端点捕获数据包是很重要的,这可能很棘手。使用必要的工具(例如tcpdump或Wireshark)进行练习,并确保在需要之前安装好它们。

5。适当时升级如果情况发生变化,您可能需要升级问题的紧急程度,以便迅速得到关注。如果业务影响增加,如果一个问题在支持下反复多次后仍然没有进展,或者如果有其他因素需要更快的解决,请执行此步骤。

升级问题最明确的方法是更改问题报告的优先级(例如,从P3改为P2)。提供您为什么需要升级的意见,以便支持部门能够做出适当的回应。

6。为长期或困难的问题创建摘要文档问题状态和相关信息随着时间的推移而变化,因为新的事实被发现,假设被排除。与此同时,新的人加入了调查。通过收集摘要文档中的信息,帮助沟通相关的最新信息。

一个好的摘要文档有以下几个方面:

摘要文档格式示例:

$时间戳

13:00:00客户影响已得到缓解和解决。我们的网络供应商正在限制我们的流量,因为我们上个月忘记付账了。下一步是对我们的财务团队好一点。

12:00:00超过100名客户积极抱怨无法获得我们的服务。我们的网络提供商正在限制我们的一个负载平衡器的客户流量。响应团队正积极与我们的网络供应商的一级支持合作,以了解为什么以及如何发生这种情况。

11:00:00我们现在收到了来自四个不同地理位置的50个客户的100个投诉,他们无法始终到达我们的APIapi.acme.com网站. 我们的工程师目前认为是上游网络问题导致了这种情况。下一步是联系我们的网络供应商,看看是否有任何上游问题。

10:00:00我们收到了五个客户的投诉,他们无法联系api.acme.com网站. 我们的工程师正在调查这个问题。

尽量让每个问题的报告都集中在一个问题上。不要重新打开问题报告来提出新问题,即使它与原始问题相关。在你的新报告中引用类似的问题,以帮助你的提供者从系统的根本原因中识别模式。

保持你的沟通技巧敏锐

通过撰写详细的问题报告帮助减少认知负荷许多问题报告要求读者作出推论或计算。这引入了认知负荷,降低了解决技术问题的精神能量。

在撰写问题报告时,要尽可能具体和详细。虽然这种对细节的关注需要作者花费更多的时间,通信云,但考虑到一个问题报告只写了一次,却被许多人读了很多遍。有了全面的信息,人们可以一起更快地解决问题。避免使用缩写和内部公司代码名称。此外,在向任何第三方披露任何信息时,请注意保护客户隐私。

在某个时间,在一个遥远的地方,使用叙事技巧……

分享给小伙伴们:
本文标签: 服务器阿里组织架构试用

相关文章

评论

发表评论愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。

签名: 验证码: 点击我更换图片

评论列表