双11背后的神秘人!!--原来是这些运维人

2017-11-09 14:40

一年一度的剁手节日如期而至……每逢双十一想必那些电商网站服务器的压力都很大

 

 

当然·...运维工程师们的压力更大,各种突发故障都可能让业务成交失败,而查找系统运行的日志又特别费时费力。挖故障如同大海捞针,这不仅让运维人员急得团团转,客户体验也将大大降低,比如这样:

 

 

更有这样:(⊙o⊙)…

 

 

今天的内容主要集中在秒杀及抢购背后的 IT 架构及实现 

电商秒杀活动的业务特点

1、活动波峰波谷状态明显

电商通过秒杀活动为其经营产品造势,秒杀活动一般时间较为固定,活动通常需要经历产品发布、秒杀倒计时、到点秒杀、优惠券抵扣、用户付款等一系列流程,在秒杀点前后服务器负载成峰值状态,服务器负载随着活动退却而减少。

 

2、秒杀通常涉及不止一个业务

电商秒杀活动,用户在等待秒杀的过程中也为电商网站带来了流量,尤其是今年,双十一前半个月就已经开始了各种秒杀环节,秒杀活动进行过程中,用户领取优惠券、身份认证、支付业务也会同时发生。

 

3、时间短、瞬时并发量高

秒杀活动是一个特别考验后台数据库、缓存服务的业务,对于数据库、缓存的性能要求特别严格。一旦后台数据服务没有跟上,秒杀活动将成为空谈。

 

秒杀背后的技术挑战

1、突增的服务器及网络需求

双 11 这个万众狂欢的节日,对于电商员工来说,每个环节都面临前所未有的考验。 对 IT 运维部门来讲,需要备足充分的服务器和网络带宽资源来应付这一挑战。通常情况下,双 11 的服务器使用是平时的 3-5 倍,网络带宽是平时 2-4 倍,如何在短时间应付这些问题,如何让 IT 投资利用最大化,是摆在电商 IT 们面前一大难题。

 

2、业务高并发,服务负载重

我们通常衡量一个 Web 系统的吞吐率的指标是 QPS(Query Per Second,每秒处理请求数),解决每秒数万次的高并发场景,这个指标非常关键。

假设处理一个业务请求平均响应时间为 100 ms,同时,系统内有 20 台 Web 服务器,配置最大连接数为 500 个,Web 系统的理论峰值 QPS 为(理想化的计算方式):100000 (10万QPS)意味着 1 秒钟可以处理完 10 万的请求,而“秒杀”的那 5w/s 的秒杀似乎是“纸老虎”。

 

实际情况,在高并发的实际场景下,服务器处于高负载的状态,网络带宽被挤满,在这个时候平均响应时间会被大大增加。随着用户数量的增加,数据库连接进程增加,需要处理的上下文切换也越多,服务器造成负载压力越来越重。

 

3、业务耦合度高,引起系统“雪崩”

更可怕的问题是,当系统上某个应用因为延迟而变得不可用,用户的点击越频繁,恶性循环最终导致“雪崩”,因为其中一台服务器挂了,导致流量分散到其他正常工作的机器上,再导致正常的机器也挂,然后恶性循环,将整个系统拖垮。

 

电商秒杀活动应对策略 

  1. 弹性资源伸缩,选择一个靠谱的服务商,在紧急情况下快速响应; 
  2. 转变IT运维管理工作方式和理念,强调从技术型向管理型转变;
  3. 建立完善的内部信息共享平台;
  4. 建立例行巡查和应急预案。

 

平台的选择至关重要 

选择一个好的服务商对于企业至关重要,神州光大是中国最大的利用共享经济模式,通过互联网平台聚合工程师资源,为客户提供有质量保证的按需使用工程师资源的IT服务的互联网平台公司。

 

神行云兽平台始终致力于服务交付及服务质量管控,神行工程师平台会对工程师在提供服务的全过程实施严格的质量管控,该平台标准化的服务流程可进行服务过程的跟踪记录。真正实现了“高质量、高效率、低成本”的服务目标。帮你度过每一次运维困境。