医院数据中心存储系统对称双活解决方案是在传统镜像备份方案的基础上,采用四控存储+镜像的双活方案。两台存储互为镜像,互为冗余,当一台存储故障发生故障时,另一台存储直接接管。进一步提升数据的可靠性和业务系统的连续性,真正做到RTO、RPO为零。
1.1 传统镜像备份方案
传统的基于存储镜像功能的灾备方案使用同样的硬件和软件环境创建一个与生产存储完全相同的镜像存储,并通过存储硬件镜像功能将生产存储设备上的数据复制到镜像存储。
存储镜像功能可以进一步分为同步镜像和异步镜像。采用同步镜像功能时,主站点把来自主机的数据写往本机磁盘的同时,将该数据转发给备份站点,只有两个站点的存储都拥有数据的拷贝以后,生产存储才会返回一个I/O完成指示。同步镜像能够在备份站点中保持最新的数据,可以做到RPO为0。而异步镜像在主站点完成写操作后立刻向上层通报成功,那么这样备份站点在数据更新上会有延迟,主站点出现问题后会造成数据丢失。如图3.2所示。
图3.2 传统镜像备份方案
基于存储镜像的灾备方案主要优势有:
(1)镜像存储可以为生产存储设备上所有的数据(数据库和文件系统)提供备份。
(2)能够提供数据零丢失或接近于零丢失(同步镜像可以做到数据零丢失)。
(3)基于存储设备实现镜像或复制,一般对主机业务性能影响较低。
(4)当需要进行灾备的服务器数量较多时,通过存储的统一镜像或复制功能,不需要在每一台服务器上安装复制软件,降低总成本。
主存储故障切换过程:
(1)手动断开镜像关系,将镜像卷提升为可访问状态。
(2)手动建立服务器与镜像存储之间的连接路径。
(3)手动在服务器上扫描发现的镜像LUN,识别为磁盘。因为UUID不一样,需要手动将应用的访问位置指向到新磁盘,并启动一致性检查。
根据它的切换过程可以看到这种备份方案的不足,因为生产卷与镜像卷是两个独立的卷,拥有不同的UUID,被服务器认为是两个LUN,服务器与镜像存储之间没有访问路径,必须手动设置连接访问路径,镜像卷平时不可见,必须手动执行提升操作,才可被服务器访问。所以当主存储发生故障时,必须手动进行故障切换操作,无法做到自动切换。
1.2 对称双活方案介绍
对称双活方案是对传统镜像备份方案的升级,它可以在一个数据中心内部实现,也可以在两个数据中心之间。
(1)一个数据中心内部的双活实现
在一个数据中心内部具体的组网连接如图3.4,3.5所示。
图3.4 双活架构图 图3.5 控制引擎之间组网
如图3.4所示,对称双活方案系统由两台存储阵列组成,分别对应存储引擎A、引擎B。整个系统架构为全冗余架构,保障了数据的安全可靠。存储引擎A和B上的卷可配置为双活镜像对,中间通过万兆以太网链路进行高速数据同步,数据完全一致。由于采用虚拟卷技术,双活镜像对中的两个卷对外形成一个虚拟卷。对服务器而言,双活镜像对就是可以通过多条路径访问的同一个数据卷,服务器可以同时对双活镜像对中两个卷进行读写访问。组成双活镜像系统的两台存储互为冗余,当其中一台存储阵列发生故障时,可由另一台存储阵列直接接管业务。整个切换过程所需的时间为秒级,真正实现数据零丢失和业务零停顿,RTO和RPO都接近于零。服务器访问双活存储系统可根据实际需要,选用FC、iSCSI方式,服务器访问存储的SAN网络与数据同步的万兆网络相互独立,互不干扰。
如图3.5所示,存储之间的镜像通道采用10GE链路,每个控制器上都配置10GE IO接口卡,采用光纤交叉直连的方式,一共需要四根直连光纤,建议链路长度不超过300米。
方案中两台存储要求配置完全一样,其中包括了控制器型号、缓存大小、接口配置;与对称双活相关空间的硬盘配置两端必须完全一致,包括硬盘种类、RAID类型、空间大小;与对称双活无关空间的硬盘配置,可以两端不一样。
对称双活在写IO的时候,生产觉、镜像卷可同时接受写IO,镜像卷的写IO会通过镜像通道传到对端引擎,完成写操作。在读IO的时候,生产卷、镜像卷可同时响应度IO,并发读写。如图3.4所示。
图3.4 读写IO示意图
对称双活故障的切换过程:如果任一引擎中任一控制器故障,业务将通过双控故障切换机制切换到该引擎中另外一个控制器上;如果任一引擎中两个控制器同时故障,将通过SDAS的引擎故障检测机制,触发引擎间切换,业务切换到另外一个引擎上。同时,针对计划内维护需求,当任一引擎中两个控制器需要同时重启或关机时,也会触发引擎间切换,业务切换到另外一个引擎上。
(2)两个数据中心之间的双活实现
对称双活解决方案可以布置在一个数据中心内部,也可以在两个数据中心之间,如果两个数据中心之间的距离在几十公里以内,链路的延迟小于5ms,就能够实现双活。如图3.5、3.6所示。
图3.5数据中心之间双活示意图 图3.6 控制引擎之间组网
如上图,存储与服务器之间的连接可以选用FC或者iSCSI网络,数据中心之间采用10GE链路,数据中心内部部署10GE以太网交换机,采用光纤互连。在两个数据中心之间需提供第三方的仲裁者,用于存储故障的判断。
1.3 虚拟化网关双活方案介绍
基于虚拟化引擎方案通过增加虚拟化引擎的方式,主机通过存储虚拟化引擎向两套存储同时镜像写数据,保证两台存储数据一致,并可以在一台存储损坏时,将业务自动切换到另外一台存储上,从而保障业务的连续性。如图3.8所示。
图3.8 虚拟化引擎原理图
基于虚拟化引擎方案,可打破存储设备的品牌限制,统一分配资源。存储网络层透明,完全在SAN网络层实现存储资源整合。无需在主机端安装任何代理或特殊驱动程序,不影响主机的性能,任何可以使用普通磁盘的主机系统,均可以立即使用虚拟池中所提供的存储资源。
例如,EMC、IBM、华为的双活解决方案都是基于虚拟化引擎,所有数据流经过虚拟化引擎,两地数据实时同步。不足之处在于,增加虚拟化引擎的成本,同时增加架构的复杂度和故障点,性能下降,与存储存在兼容性的风险。而且IBM的虚拟化引擎SVC不支持IP。
1.4 虚拟化网关双活方案与对称双活方案优劣性对比
简单了解了虚拟化网关双活解决方案和对称双活方案后,对它们的优劣性进行一些对比分析,如下表:
对比项 |
存储虚拟化 |
对称双活 |
数据可靠性 |
全冗余配置,但虚拟化引擎为新故障点。 |
全冗余配置,无单点故障。 |
业务连续性 |
较好 |
好 |
对主机影响 |
对主机性能没有影响 |
对主机性能没有影响 |
是否可异构 |
支持异构 |
不支持异构 |
实施复杂度 |
需增加硬件,实施较为简单 |
无需增加软硬件,实施简单方便 |
投资成本 |
较高 |
成本低 |
从上表可以发现,存储虚拟化解决方案,对数据可靠性和业务连续的支持也较好,对存储品牌异构的支持更加彻底,实施也较为简单,但其缺点存储虚拟化引擎容易成为性能瓶颈和新的故障点,购买成本一般也较高。推荐场景是在用户已有多台旧的生产存储,有存储资源虚拟化整合需求,且采购容量许可不大的情况下。
对称双活存储解决方案,在数据可靠性和业务连续上的表现较好,而且投资成本低,方案实施简单,不需第三方软硬件,对前端主机的性能没有影响,而且通过引擎之间的负载均衡,还能够提升整个存储系统的数据读写效率,综合考虑下来最佳。缺陷是只支持同型号的产品和配置,没有异构存储整合能力。所以推荐场景是用户在新建数据中心,想搭建双活存储环境,通过架构升级实现本地数据保护的情况下。
1.5 对称双活方案特点
相比传统双活实现方式,对称双活的特点。
1.双活工作模式,支持同时并发读写。
对称双活存储系统中的两台存储阵列同时处于工作模式,组成双活镜像对的数据卷可同时被服务器进行读写访问。得益于系统内部高效的数据同步技术,在两台存储同时进行数据写入时,数据的一致性也能得到有效保证。这种高效的双活工作模式,不仅有效的利用了两台存储阵列的资源,而且大大提高了故障切换的速度。
2.快速故障切换,无须人工干预
对称双活存储系统中的两台存储阵列相互冗余,当其中一台存储阵列发生故障时,可由另一台存储阵列直接接管。对于服务器而言,由于看到的是一个虚拟卷,因此存储阵列的故障切换仅相当于一次存储访问路径切换,切换速度为秒级,业务无须中断,且不需任何人工干预。
3.专用万兆以太网传输,高速数据同步
对称双活存储系统中的两台存储阵列采用万兆以太网进行数据同步。两台存储阵列上配置万兆以太网接口卡,通过光纤直接连接。任何一台存储阵列上写入的数据会通过万兆以太网同步到对端存储阵列。基于万兆以太网络的数据同步,不仅保证了数据同步速率,而且简化了对网络链路的要求。
4. 虚拟卷技术,服务器不需要额外第三方的软件。
对称双活存储系统采用了虚拟卷技术,组成双活镜像对的数据卷虽然物理位置在两台存储阵列上,但被虚拟成了一个逻辑卷。对服务器而言,双活镜像卷就是一个普通的数据卷,只不过可以通过多条路径访问。服务器上不需安装任何的第三方软件,只需通过服务器操作系统中自带的多路径软件(支持ALUA),就可以实现对数据卷的正常读写和故障切换控制,实施非常的简单方便。不占用服务器资源。
5.单阵列双控冗余,双活四控高可靠
对称双活存储系统是一个高度可靠的系统。每一台存储阵列本身就是一台双控冗余存储阵列,其自身具备了很高的可用性。通过两台双控存储阵列组成双活存储系统,这个系统相当于具备了四个控制器的冗余保护,而且有两份完全相同的数据,并且可以实时切换,这为应用系统提供了非常高的业务连续性保障。
6. 支持远距离扩展,实现双活数据中心。
对称双活存储系统基于万兆以太网的光纤互连,并且能够与主流应用厂商的双机、集群系统兼容。因此,双活镜像存储系统不仅可以部署在一个数据中心内部,也可部署在相距数十公里的两个数据中心之间。在一个数据中心内部,可实现双服务器+双阵列的高可用部署;在两个数据中心之间,通过配合远距离集群软件(比如VMware FT),可实现双数据中心的自动故障切换。
1.6 IP远程复制功能
(1)网络复制概述
复制是宏杉科技MS系列存储提供的存储功能选项。它可实现两台MS系列所管理的资源(SAN资源或者组)之间的数据复制。远程复制功能支持在远程办公地点与数据中心之间通过IP网络对关键业务数据进行策略性增量复制,实现数据的异地备份,并在发生意外灾难时对数据进行快速恢复,确保用户业务的持续性。
复制软件支持多点到
远程复制是在两台MS系列存储所管理的资源之间进行数据同步。这两台MS系列存储分别称为源服务器和目标服务器,它们所处的站点分别称为生产中心和灾备中心,其中,灾备中心为生产中心提供数据备份。
如图所示,当条件满足预设策略时,生产中心的MS系列存储启动数据复制,把源磁盘的数据复制到灾备中心的副本磁盘中,为源磁盘生成远端数据副本。
(2)复制策略
复制是将更改的数据从源磁盘传输到副本磁盘,以便同步磁盘。它有策略性复制和自适应复制两种方式。
l 策略性复制
策略性复制将根据设置的条件(按预定的时间周期或阈值)触发复制。启动初始复制,以后每隔设置的时间就触发复制。假如客户希望尽可能小的影响当前业务系统的性能,则建议使用周期性触发,每天半夜或间隔几小时开始执行复制。周期最短为10分钟。
l 持续复制
持续复制功能支持在远程办公地点和数据中心之间通过IP网络对关键业务数据进行自适应复制,在远端网络中保存数据的完整副本。
持续复制支持两种复制方法:策略性复制和不间断复制。如下图所示,配置持续复制时,需要先创建一个独立、专用的不间断复制资源,以提高数据磁盘的访问速度。初始状态下,持续复制采用不间断复制方法。在生产中心,当应用服务器写入数据时,MS系列存储同时把数据写入源磁盘和不间断复制资源。数据进入不间断复制资源后,就会被自动持续写入副本磁盘,实现对源磁盘持续的数据保护。
如果不间断复制资源被占满,那么系统将自动切换为策略性复制,当策略性复制触发的复制或执行手动同步复制完成时,系统会自动切换回不间断复制。
(3)复制速率
MS系列存储数据复制通过IP网络实现,只要IP可达,数据复制即可实现。但在不同的网络环境下,复制的速率会有较大影响。下表给出了在特定数据库环境下,复制的传输速率参考值。
测试环境:40公里距离,MPLS VPN网络,Oracle数据库
网络带宽 |
2Mbps |
10Mbps |
30Mbps |
50Mbps |
100Mbps |
1000Mbps |
压缩传输(MB/s) |
0.211 |
1.090 |
3.251 |
5.002 |
10.015 |
23.894 |
同步量(GB/小时) |
0.741 |
3.83 |
11.429 |
17.585 |
35.1 |
84.0 |
复制带宽利用率(%) |
84.4 |
87.2 |
86.7 |
80.03 |
80.12 |
19.16 |
由上表可得知如下结论:
l 155Mb以下带宽的IP链路,可充分利用带宽
l 小带宽链路下,复制压缩效果明显,可达2-3倍,不过压缩比与数据格式相关
1.7 空军医院HIS、PACS系统核心存储项目
1.8 湖北省荣军医院HIS业务系统升级项目
1.9 吉林大学第三医院HIS、PACS、虚拟化平台双活存储项目
1.10 吉林省人民医院HIS系统双活存储项目
1.11 北京朝阳医院虚拟化平台双活存储项目
1.12 长沙区域医疗卫生平台双活项目
1.13 新华医院EMR系统存储项目