Bloomberg在Sres上赌注

来自纽约彭博工程部门的SRE团队成员。从左到右:(第一排)Yoga Ramalingan、James Vautin、Arundhati Kogekar;(第二排):Stig Sorensen, Michael Rembetsy, Saru Thuraisingham(摄影师:Lori Hoffman/Bloomberg)

当布隆伯格找到塔克·文托(Tucker Vento),向他提出一个在彭博担任系统可靠性工程师的机会时,文托一开始并没有被说服。他说:“在新闻网站工作听起来并不是很有趣。”“我的一个朋友说,不,不,跟他们谈谈。”

但他现在的工作并没有他想要的影响力。他说道:“在我之前的角色中,我觉得自己经常与开发者作对。“我在那里是为了确保产品保持快速,而他们想做的事情是放慢速度。”他认为,在一个强调技术质量而不仅仅是软件功能数量的地方,他可能会有更大的影响力和工作满意度。他很快意识到,彭博不仅仅是一家新闻机构;它是一个由全球金融专业人士使用的可信的人员和信息网络,由极其复杂的技术基础设施提供动力。

他现在是彭博社(Bloomberg)的一名SRE,与一群工程师合作开发了一款消息软件,每天可以处理超过10亿条消息。在彭博5000多人的工程部门,每个人都明白可靠性和速度的重要性。Tucker说道:“如果我的观点是关于可靠性,那么我们的开发者也想站在这一边。“这种共同责任创造了一种更合作的文化。”

Tucker Vento.

在过去的两年里,彭博对SRE人才进行了巨额投资,而且确实如此寻找更多的sre加入公司的团队继续改进其系统。与此同时,彭博的产品和系统正变得越来越先进,越来越多的机构客户将该公司作为一个单一的、企业级的统一数据源。简单地说,“需要专门的SRE团队,只专注于稳定性、可用性和规模,这变得更加重要,”彭博社技术基础设施工程组织生产可视性小组的负责人Stig Sorensen说。

三年前,Garry Ryan加入了彭博领导伦敦饲料开发团队,这创建将市场数据推入Bloomberg终端的软件,以获得全球500多美元的库存交易所.他现在是全球饲养的SRE经理。“我们的高级领导地位了解这是非常重要的,”他说。“全球工程负责人Vlad Kliatchko非常支持SRE,并正在推动一系列正在进行的技术改进。团队非常动力,因为他们了解他们所做的是如此重要。“

加里•瑞安

在彭博社,基本上有两种类型的SREs:基础架构SREs和应用SREs。基础设施SREs负责彭博社的基础设施即服务(IaaS)和平台即服务(PaaS)产品,而应用程序SREs则与应用程序开发团队合作,以提高特定产品的稳定性。他们一起构建了能够处理高度复杂和不断变化的问题的工具。Stig说:“这两个团队之间需要加强合作。”“这并不是简单地把软件交给SRE团队,而是与他们合作,以确保软件的稳定和可靠。”

在这两种情况下,Bloomberg Sres被视为一种特殊类型的软件工程师。他们不关心性能 - 稳定,可用性,可靠性和可操作性而不是痴迷。所有Bloomberg Sres(基础架构和应用)都专注于这些SRE原则:监控;供应,配置和编排;容量管理;部署和回滚;和事件管理。

此外,由于在没有实心开发过程的情况下具有稳定的系统,因此还可以包括软件开发生命周期(SDLC)实践。在某些情况下,SRE团队将导致改进持续集成/连续部署(CI / CD),自动化测试框架以及构建和发布工程(通过代码质量工具)是有意义的。

Sorenson斯蒂格

Sorensen说:“我们的SREs有一个共同的愿景,即通过软件开发利用自动化的力量,为我们的客户提供可靠、稳定的服务。”“他们关心我们如何更有效地管理我们的基础设施和应用程序,他们通过软件开发来做到这一点。”

在许多情况下,彭博最强大的SRE是曾经有过应用于系统可用性和稳定性的应用程序,他们转变为此新角色以帮助使产品更加可靠。Bloomberg最近还将其寻求寻找SRES,从其他科技巨头招聘。他们都在一起,共同努力,继续开发彭博内的SRE功能,对他们提供的机会,以及他们可以的影响。

Saru Thuraisingham.

“我认为我们的团队是力量倍增器,”Saru Thuraiman说交易系统工程集团确保买方的可用性(目的)及卖方订单管理系统(汤姆斯索莫),被金融行业成千上万的专业人士使用。“这可能是积极的,也可能是消极的。我们所做的任何有益的事情都将对每个人来说都是很棒的。但负面影响也可能是巨大的。因此,我们需要深思熟虑,对我们的功能团队抱有同理心,并通过SRE原则提高系统的整体稳定性。”

Saru很享受成为彭博社SRE社区的一员,并鼓励其他人也抓住这个机会。他注意到,在一些较大的公司,SRE几乎是一个已解决的问题,新员工走进来就像许多现有的SRE之一。在彭博社,他说:“我们有一个成功的产品,我们正处于一个转折点,我们正努力实现现代化,并更多地采用这些SRE原则。任何加入SRE团队的人现在都可以产生这种影响。还有很多创新和改变的空间。”

詹姆斯·瓦丁

在亚洲和澳大利亚工作了几年之后,詹姆斯•沃丁(James Vautin)最近搬到了纽约,加入了彭博社(Bloomberg)。回想起来,他意识到他做了很多的工作行为,甚至在这个词开始流行:试图保持一个房地产网站启动和运行,为电信公司监控系统,并试图匹配任务关键型数据中心软件需求和基础设施。在寻找下一个职位时,他知道自己想做一些有意义的事情。他说:“如果一个系统在这里崩溃了,这比人们不能在Facebook上更新状态要严重得多。”

As an early member of the Data & Analytics Infrastructure team, he’s now getting an opportunity to build a data science platform that will allow Bloomberg’s software engineers to use state-of-the-art tools like Spark, TensorFlow, and the company’s sizable GPU footprint in a consistent, easy-to-use way to build applications that leverage machine learning. “This is at the forefront of what is going on in technology right now,” he adds. “And we’re using Kubernetes, which has been a technology I’ve been interested in for a while.”

瑜伽Ramalingan

Yoga Ramalingam大约两年前成为SRE团队的负责人,负责内部遥测系统,监控公司所有运行开源和专有软件组合的数千台服务器。金宝搏网址

“通过开源,金宝搏网址挑战是挑选并选择为您提供的东西,”他说,注意到很多开源软件具有很酷的功能,但在企业内部部署时会破坏。他发现最好的开源产品,确定他们是否会金宝搏网址扩展并支持他需要监控的所有平台,如果没有,则决定是否值得尝试修复。“你正在学习新事物,有人付钱给你玩这些玩具,”他指出。如果瑜伽相信特定的开源应用程序可以改变以适应彭博的需求,他潜金宝搏网址入(如他的的贡献CollectdWin,这是一款类似于“collectd”)。“你感到非常自豪,因为你为开源社区做出了贡献,”他说。金宝搏网址“我们的高层领导鼓励我们这么做。他们总能找到时间让我们这么做。”

当然,SREs的概念对彭博社来说并不新鲜。新的是它的结构。为什么要正式转变呢?Sorensen说,问题在于“在软件开发团队中工作的SRE没有任何时间真正做SRE工作。”

Arundhati Kogekar.

这听起来对阿兰达蒂·科盖卡尔(Arundhati Kogekar)来说很熟悉,他在彭博通讯频道工程团队工作了10年,该团队负责每天处理超过10亿封电子邮件和即时彭博(Instant Bloomberg, IB)消息,以及大量的音频和视频。她说:“这些系统非常显眼,也非常关键。”“如果一个帖子有一点延迟,顾客就会注意到,因为这一点延迟可能会让他们损失很多钱。”团队知道让系统正常运行是多么重要。她补充道:“这必须与不断推出新功能相平衡。我们不能完全专注于稳定。”

现在,她和她的沟通渠道工程团队可以做到这一点。2017年4月,阿兰达蒂成立了她所在部门的第一个SRE团队。“建立这个新团队帮助我们集中精力,”她说。

她作为SRE的工作也提升了她在内部的知名度。她说:“这是我塑造自己道路的重要经历。”阿兰达蒂一直在制定团队应该如何运作的战略,以及它将如何与功能团队合作。她也在学习如何鼓励特性团队像她的团队一样投资于稳定性。她指出:“由于我们是先行者,这受到了很多关注,但我们也得到了高层领导的大力支持。”“如果我们能实现这一目标,这将是一个很好的模型,帮助SREs与功能团队合作,构建高度可伸缩和可靠的产品,同时跟上功能发布的快速步伐。”

迈克尔Rembetsy

Bloomberg技术基础设施工程集团自动化和系统经理Michael Rembetsy指出,对于SRE,Bloomberg的尺寸和规模是理想的。该公司足以让人们在不同的兴趣领域之间移动,但足够小,每个人都相互了解并积极合作。“这是两个世界上最好的,”他说。Bloomberg的工作尤其具有挑战性,因为该团队正在为市场数据提供全球服务 - 数十亿数据点每天都来自全球数千个来源。“有很少的地方你要走进去,并处理我们在这里的规模,”他说。“作为SRE,规模的挑战总是一个好的。”