首页 > 科技资讯 > 正文

向上而生,华为云基础设施服务高可靠之路

        【每日科技网】

  科学家钱学森说过:”可靠性是设计出来,生产出来的,管理出来的“。公有云的可靠性,一直被人关注,并作为用户选择重要指标。可靠性做的好就无感知,当你感知到,那肯定已经出现问题了。华为云近期推出了“选择华为云更可靠”的海报,今天我们就谈一谈华为云基础设施服务的高可靠之路。

  产品设计理念:”可靠性为先”

  华为云基础设施服务的设计理念是以可靠性为先,所以在技术规划阶段,就已经包含了包括业务连续性、持久性、健壮性、数据冗余、数据完整、数据一致等一系列可靠性的规划和分析,并导入到产品或系统架构设计中,最终在研发阶段完成可靠性能力实现。

  例如最常见的云主机,云主机其可靠性需要硬件架构、网络链路层面考虑冗余,故障时能够快速切换和隔离,确保客户业务正常运行。而客户保存在云硬盘上的数据,更是采用三副本跨磁盘、服务器、机柜分布式部署,再通过数据强一致性复制协议,保障副本之间数据一致,使得任意类型节点故障都不会导致数据丢失。

  研发管理流程:引入流程,通过流程保障端到端可靠性

  可靠性是一个系统工程,除了可靠性为先的设计理念,在研发管理流程上,还通过可靠性部门以及专业人才,制定可靠性规范,从机房、工程组网、互联网出口和云服务软件等端到端的设计系统级可靠性。

  第一,引入潜在失效模式及影响分析FMEA(Failure Mode and Effect Analysis)。FMEA即在产品设计阶段和过程设计阶段,对构成产品的子系统、部件逐一进行分析,找出所有潜在的失效模式,并分析其可能的影响,从而预先采取必要的措施,以提高产品的质量和可靠性,从而确保用户满意的一种系统化活动。FMEA让华为云上产品服务在设计阶段就限度消除了潜在的可靠性隐患,确保了各系统、组件之间最有可靠的协同状态,在产品没有发生故障之前就可以提前进行分析,在出现故障之前提前预知,把损失降到最小化。

  第二,建立三线一库:可靠性需求基线、可靠性能力基线、可靠性测试基线和故障模式库。故障模式库是华为基于自身经验与业界故障分析,建立的包括机房、网络、硬件整机和部件、操作系统资源、软件架构、服务之间依赖等多种故障模式。通过故障模式库不断梳理可靠性需求,验证形成可靠性能力基线。同时可靠性测试也不断对故障模式库进行补充,使可靠性建设形成循环,不断演进。

  高质量硬件设备:采用广受市场认可的高可靠硬件底座,无后顾之忧

  数据中心、服务器、存储、网络等是公有云的底座,华为云采用的有着严苛的质量要求的自研自产设备,加强华为云的整体可靠性。如服务器生产过程,有元件严选、硬件设计流程、设计创新以及品质检测等多重手段来保障服务器的可靠性。其中元件严选是华为在选择供应商时选择采用TQRDC和ES原则,分别对技术、质量、响应、供货表现、社会责任以及环境保护等方面进行考量,在众多供应商之中选出能满足这些标准的供应商。生产过程中的严格标准,使得服务器质量更加可靠。目前华为服务器全球发货量排名第4、中国市场发货量排名第2(Gartner,2018Q3)。华为存储产品销售到全球150多个国家和地区,4家全球Top 10的银行选择了华为存储,获得了市场的广泛认可。

  业务可靠性:依托华为自身实践,帮助客户提升业务可靠性

  华为依靠在其自身IT系统可靠性建设和企业级市场的多年历练,积累了大量针对企业场景的可靠性技术和工程实践经验。通过华为云在线云服务的形式提供给客户。华为云率先推出SDRS存储容灾服务,构建同城RPO=0容灾能力,保障数据零丢失。华为云还是提供完整公有云灾备解决方案的云厂商,凭借华为17年的容灾实践,提供全栈容灾能力及创新云服务,助力客户以改造成本灾备上云,提升客户业务的连续性和稳定性。

  不仅如此,基于自身技术能力与经验,华为云帮助某大型互联网客户分析其业务架构,识别出中间件,数据库,NTP使用,DNS使用等5大类21个业务风险点,并提供了解决方案。针对某互联网货运客户,华为云根据客户容灾诉求,细致分析客户的业务系统,结合自身在企业容灾系统构建上的成熟经验,帮助客户快速完成业务系统的跨云容灾设计,并给出长期演进的合理化建议。

免责声明:本文仅代表作者个人观点,与每日科技网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们联系,本网站将在规定时间内给予删除等相关处理.