当前位置:salon36沙龙技术探讨 → 正文

出现IT灾难的8个前兆

责任编辑:cres 作者:Dan Tynan |来源:salon36沙龙  2018-07-10 11:18:15 原创文章 salon36沙龙
同样的系统反复崩溃,影子IT慢慢崛起,老旧的思想一成不变——那些忽视这些IT末日即将来临信号的人肯定会遭遇不幸。
 
您的IT部门可能已经存在一些问题,如果不尽快处理,可能就会遇到大麻烦。
 
虽然现在看起来一切都很正常。但预警信号早已经出现,只是你还没注意到它们。
 
网络突然间变得很不稳定,简单的问题需要更长的时间解决,有些事情就是这样一遍又一遍地重复着。每次大规模的代码发布之后都伴随着大量的bug修复。影子IT已经是商业运作中的一部分了。而你却是最后那个听到商业战略变化的人。
 
当你的员工离开的时候,一旦你的网站离线了,你的用户就会在云里建立他们自己的数据中心,而黑客已经把你的客户记录放在暗网上出售,此时一切都已经无可挽回。
 
以下是一些潜在灾难的预警信号,以及避免它们的方法。忽视他们,你必将承受相应的后果。
 
1.用户停止抱怨
 
你可能认为用户抱怨的减少是件好事。然而,Alvaka Networks的首席执行官Oli Thordarson说,你可能错了,其所在的​​公司为需要全天候运行的中型企业提供IT服务。
 
他说,投诉的减少往往意味着用户放弃了解决问题的希望,这可能导致各种各样的不良后果。
 
“求助的减少并不总是意味着经理做得很好,”他说。“这通常意味着用户社区对该IT团队失去了信心。接下来发生的可能是影子IT,备用用户支持机制,以及可能的解雇和人员改组。”
 
Thordarson说,当用户抱怨的时候,这意味着他们希望IT商店能够响应他们的需求。每个组织在任何时候都可以有一定数量的开放门票;诀窍是建立一个投诉数量的基线,然后密切关注这个数字是否发生了巨大变化。
 
投诉的增加可能是由于大规模升级或其他重大变化;支持票的减少可能是由于某个重大的过程改进或某些长期存在的问题正在得到解决。
 
“但是如果你不能回答为什么它们会上升或下降,那就意味着你本身存在着问题,”他说。
 
2.午餐室突然挤满了陌生人
 
如果你在办公室吃午饭,忽然发现周围都是你不认识的人,可能是因为你的公司收购了另一家公司,却没有告诉你。
 
这次收购可能对组织有利,也可能没有。不管怎样,你的团队可能需要搁置战略性项目,花时间整合新收购公司的系统和数据。这会削弱你的创新能力。
 
房地产网站Trulia的工程副总裁deep Varma在2005年前后在雅虎工作时亲眼目睹了这一点。那是在搜索门户收购adtech Overture公司和其他许多小公司的时候。
 
“雅虎收购了许多小公司和大公司,所以我们的大部分时间都花在了整合上,而不是寻找提高搜索关键词和质量的方法上,”他说。“我在那里的时候,我的员工总是说,‘天哪,我花了这么多时间来做整合’”。这大大减缓了创新的速度。
 
理所当然,很多都是你无法控制的——你不能确切地告诉CEO停止收购公司。但是,您可以集成业务领导者真正需要的部分,例如通过分析将产品、路线图和业务部门分开。
 
“Zillow Group (Trulia的母公司)多年来已经进行了许多收购,但我们的策略通常是创建一个能够自立的品牌组合,”他说。
 
虽然Varma仍然忠于他曾经认识的雅虎,但他表示,雅虎没有从战略上考虑每一笔收购如何能够融入其整体业务,因此失去了了创新能力。这最终导致了它的灭亡。
 
3.你一直在解决相同的问题
 
让一个组织的IT团队最终瘫痪的直接原因很少会是单一的戏剧性的事件;更常见的是由于技术债务的点滴积累。
 
通讯与协作公司xMatters的运营主管Adam Serediuk说:“深夜隐藏着的工作,微小但无法解释的宕机,简单但需要越来越长的时间才能完成的任务——企业忽然之间衰败的情况太频繁了。”
 
Serediuk承认,任何组织都存在一定程度的低效率,而且大多数流程都是为了提高效率。但是,当同样的系统不断崩溃,却没有人采取积极的措施来阻止它的发生时,它会造成难以置信的难以爬出的无底洞。其结果通常是员工的倦怠和高水平的人员流失。
 
“总有那么一刻,有人会决定离开一个组织,”他说。就像他们花了整整一个星期的时间来处理同样的问题,然后招聘人员在LinkedIn上给他们发了一条信息。就像‘你知道吗?我受够了。'然后继续前进。
 
最好的解决办法是抛弃旧的有问题的系统,如果可以的话,重建一个新系统。
 
他说:“当正确的方法摆在你面前时,你很容易陷入沉没成本谬论的陷阱:用从那次经历中学到的知识重建它并使它变得更好”。“然而技术变化太快,根本无法承受过去的错误。”
 
4.您提交的代码太多了
 
LinkedIn网站可靠性团队工程副总裁Bruno Connelly说,当你发布了大量的大块代码时,并有可能产生级联效应,从而导致整个系统瘫痪。
 
他说:“虽然我们很容易一下子就把所有的东西都搞砸,但是有大量微小变化的代码块显然要复杂得多”。“当出现问题时,它可能引发其他更系统性的故障。”
 
他说,以相对较少的更改交付较少的代码,并更频繁地交付代码,这样会更好。
 
“我们已经优化了我们的系统,以便尽可能多地发布代码,”他说。我们试着不断地输出少量的代码。这对我们的游戏很有帮助,我们可以验证所有的东西仍然具有相同的性能特征和下游依赖性。
 
专业人士的社交网络还通过故意模拟意外的系统故障来确保自己做好了准备。去年11月,该网站推出了LinkedOut框架,该框架允许可靠性工程师在应用程序中人为地触发故障,以查看服务处理故障的方式。
 
LinkedIn每天还会迫使它的一个主要数据中心进行故障转移,以确保它有足够的容量和自动化能力来承受实际的数据中心灾难。
 
“如果你对自己在故障转移场景下的生存能力不太自信,那是另一个警告信号,”他补充道。“你需要通过不断地去接受失败来适应它。”
 
5.员工不再与你进行沟通
 
当你挑战你的团队去解决棘手的问题或想出新的策略时,你所听到的都是唏嘘声时,你就知道你的团队有一个严重的士气问题了。
 
“如果经理和用户经常带着想法和热情的解决方案建议来找CIO,那说明经理在领导和管理方面就做得很好。”Thordarson说。“当用户不再有新想法时,他们要么是对自己的CIO失去信心,要么就是已经创建了影子IT。”
 
这可能源于经理未能积极鼓励合作和实验,缺乏成熟的文化。
 
“我见过一些公司,整个IT团队似乎都看不起其他人,”他补充道。“如果你开始认为你的雇主只是你翱翔在技术海洋的一个工具,那么你对你的公司来说并不是一个很好的资产,也许是时候引进一个新的领导者了。”
 
Serediuk说,有的时候员工可能不愿意提出新的想法,只是因为他们太累了。
 
“当团队精疲力竭时,你会遇到巨大的不情愿去改变的障碍,即使这种改变能改善他们自己的生活,”Serediuk说。他们会认为它会失败,因为这是他们迄今为止的经验。到目前为止,每一次变化都让他们的生活变得更糟,那么为什么这次会有什么不同呢?你需要能够看到这一点并做出适当的反应。
 
6.你已经从高层与会名单中消失了
 
在IT管理中,没有消息绝对不是好消息。如果你不熟悉重要的管理决策或不参加c级战略会议,你就会遇到问题。
 
Thordarson说:“没有被邀请参加高层管理人员会议,这是一个关键的迹象,表明你已经被边缘化,不再与公司有关”。 “很明显,他们不信任你,也不认为你有什么可以贡献的。”
 
Thordarson补充说,有些人怪罪于IT经理,但他们没有意识到,为了赢得管理层的尊重,他们需要根据业务成果制定技术问题。
 
“你不能只说,‘我们需要新的路由器,因为网络真的很慢’,或者新的软件,因为你每天晚上都必须重建数据库,”他说。“但是如果你告诉他们每天晚上重建数据库每年要花费200万美元,你就知道他们会做出反应。”
 
人工智能分析公司thought spot的首席数据传道者Doug Bordonaro说,首席信息官们常常迷恋于基础设施,却忽略了更大的商业前景。
 
他说:“通常,首席信息官更多的专注于安全性、合规性、数据管理和其他基本任务”。“在今天的数字经济中,这已经不再适合了。如果你没有花费相同的时间在数据货币化,启用业务线,并在整个组织中传播数据的力量,那么你可能就无法长期的担任首席信息官。”
 
7.你的团队正处于警报疲劳状态
 
IT经理知道他们需要实时监控关键的业务系统。但是有太多的警报几乎和没有警报一样糟糕。
 
“你可能有100台salon36沙龙或5,000台salon36沙龙,但你的监控仪表板总是有30个打开的警报,”Serediuk说。“它们可能只是信息性的,或其他已知的问题,但你仍然有这30个红色的盒子盯着你。所以,当一个关键警报弹出时,你如何将它与仅仅是噪音的30个警报区分开?”
 
基于云的监测平台SignalFx的解决方案工程负责人John Bruce表示,“警报疲劳”可能存在两个严重问题。一是IT经理最终会忽略嘈杂的警报,包括潜在的严重警报。二是导致倦怠和消磨心志。
 
他回忆说,他访问了一个潜在的SignalFx客户,该客户仍在使用遗留工具监控一个基于云的动态托管平台。
 
他说:“他们所使用的监控系统太吵了,以至于他们的操作人员都精疲力竭了”。“如果你在凌晨三四点不断收到错误警报的传呼,那的确不是一种好体验。”
 
Serediuk说,管理人员需要处理积压的问题,并确定优先顺序,把最重要的事情放在能够影响客户的问题上,而这反过来又会影响客户。
 
Bruce说,关键是要积极主动,在问题开始影响用户之前,使用指标作为预警信号。
 
“你需要一些早期的指标,比如,‘好吧,这个服务看起来正在退化;我能做些什么来防止这种情况?'而不是,‘好吧,salon36沙龙和客户端服务都已关闭;我们需要跳进去对抗这场灾难。'”
 
8.联邦调查局就在你家门口
 
每个CIO和CISO都在考虑数据泄露和安全违规问题,但并不总是清楚他们应该寻找什么。BugCrowd网站的网络安全专家和顾问Paul Moreno说,在大的安全问题出现之前,往往会有很多小的信号。
 
例如:无法解释的系统性能问题或高于平常的数据流量可能表明攻击者试图从您的公司中窃取信息。突然激增的来自新地点的登录尝试,可能意味着试图破坏客户数据库的尝试正在进行中。对您的API或管理端点的异常请求可能表示有人试图破解您的网络。
 
“如果你没有监控以上的情况,那现在开始行动也不算晚,”他说。“对于内部管理端点而言,具有更高灵敏度的监控甚至是能够自动触发的任务(例如锁定目标)对任何安全防护装备都至关重要。”
 
这也有助于主动防御。实施双因素身份验证可以防止窃贼使用被盗密码。Bug赏金计划可以帮助提前识别漏洞,特别是当你的组织发布了负责任的范围和信息披露指南时。此外,安全情报提供者可以扫描暗网,如果他们发现黑客出现妥协的迹象时,就可以通知你。
 
但是最可怕的(也是最糟糕的)迹象是什么?
 
“联邦调查局的特工或安全供应商联系你的组织,想要检查最近获得的数据是否与你的数据仓库中的任何信息相匹配,”Moreno说。“这通常说明数据泄漏已经发生。”
关键字:CIO 原创文章 salon36沙龙
出现IT灾难的8个前兆 扫一扫
分享本文到朋友圈
关于我们联系我们版权声明友情链接广告服务会员服务投稿中心招贤纳士 企业网版权所有©2010-2018 京ICP备09108050号-6
^
salon36