提高韧性的最佳途径?

我在2010年列出的一个主要项目是试图减轻我目前pipe理的networking中的一些单点故障(SPOF)。 我们目前有一个包含几十台服务器的数据中心机架。
在机架内部,我们是冗余的,有弹性的,每个服务器有2个磁盘,可以承受一个故障。
我们的数据存储服务器有3个以上的磁盘,可以承受一个故障。 我们也很快修复/更换损坏的硬件。 每个服务器至less有一个复制伙伴,我们可以站在每个集群(即networking,数据库,存储)中丢失1或2个。

互联网连接是通过2个100MBit的以太网提供给我们的主要转接提供商,通过高可用性故障转移对连接到一对Cisco ASA5500防火墙。 这不是问题。

正如我所看到的那样,两大SPOF如下:

1)我们的互联网来自单一的过境提供者。 如果他们的networking出现故障,我们会停止上网。 由于我们处于一个运营商中立的数据中心,因此获得第二个IP传输相当容易。

2)如果我们的数据中心发生了什么事情,那么我们也走了。

理想情况下,我希望两个数据中心的服务器都使用多个IP传输提供商的不同路由,通过BGP进行通告。

在第二个数据中心中,我将会看到两个cisco 28xx系列路由器,两个ASA 5500防火墙,一对Catalyst 48端口交换机以及十几台戴尔服务器。 粗略地匹配主要位置。

pipe理层声称,这种方法涉及巨额费用,BGP路由过于昂贵。 虽然他们似乎很乐意获得第二个位置,但BGP似乎脱离了桌面。

最后的多重归属报价接近8万英镑。 (也许他们要求镀金的Ciscos报价!)

相反,pipe理层认为这将更好地利用基于DNS的解决scheme来解决,在这种解决scheme中,我们的路由由状态正常运行时间监控服务(如pingdom)控制,它将DNSlogging(以1s TTL)更改为指向备选位置在服务器故障的情况下。

大量的公司使用BGP是有原因的,这个DNS解决scheme并不会削减它,尤其是考虑到如此多的ISP等实际上忽略了短期的TTL,并用较长的TTL取而代之。

问题:

1)任何人都可以在西欧(阿姆斯特丹等)或美国东部(DC,VA,NY等)推荐一个良好的运营商中立数据中心吗?

2)有没有人使这个DNS解决scheme正常工作,或者是一个疯狂的情况?

3)我是唯一一个认为8000万英镑的报价(在1个地方)似乎绝对过分的报价?

4)有没有人有一个好方法可以说服pipe理层,BGP是唯一现实的解决scheme?

长度的道歉..:o)

    那么你是对的,DNS绝对不是答案 – 从运行多宿主ISPnetworking的人那里得到,现在用DNS来生活。

    什么是8万英镑的报价 – 只有BGP和一个额外的运输饲料,或者必要的思科路由器呢? 您目前列出的2800可能无法运行完整的路由表 – 目前全球BGP4表中有超过20万条路由,并且占用大量路由器内存。

    我真的这么做了几年,但实际上从运输供应商获得BGP不应该是昂贵的 – 事实上,大规模供应商期望提供BGP作为服务的一部分,特别是如果您采用100+ Mbps 。

    另外,目前的主要数据中心在哪里? 你不一定需要大规模的多元化 – 我的networking最初在伦敦有两个区域 – 一个在城市,一个在Docklands,相距约10公里。 这足以排除大部分的自然灾害。

    如果您在伦敦拥有两个站点,则有许多公司在城市的多个数据中心之间提供廉价的以太网链接。 其中最受好评的就是Datahop ,他们每年在网站之间build立1 Gbps的链接,年收入约为4千英镑。

    同样的备份网站,如果你只是想在紧急情况下使用第二条中转链接,那么我已经看到了像Cogent这样低廉的价格,以每英镑5英镑的价格。 我不会把它们作为主要的,但作为最后的过渡,他们是值得考虑的。

    1. 我以前的雇主是在Equinix的NJ工厂之一。 当我为他们工作的时候,他们似乎很高兴。 除此之外,对不起,我在这个世界上并没有太多的工作。

    2. DNS故障转移很糟糕。 正如你所看到的那样,有足够的提供商忽略DNS TTL,DNS故障转移会在第一次发生时导致pipe理人员胃口大开。

    3. 是的,对于BGP多宿主而言,这是一笔巨额的资金。

    4. 不知道你的pipe理的心理,我不能提出很多具体的。 find一个非愚蠢的BGP报价,并提醒他们真正需要完全冗余设备的成本 – 这显然比他们想象的要多得多,特别是一旦你需要定期进行故障转移testing,以确保一切仍然好好工作。

    另外,对失败情况和概率进行一些合理的分析,以及如果其中一个发生,实际成本是多less。 可能会发生这样的情况,即由于停电而每隔几年发生几小时的停机时间比冗余设备less得多。 很多时候,pipe理层(或者技术人员)都会进行一场没有任何经济意义的“冗余狂潮”。

    最后,请记住,大多数中断实际上是人为的煽动,哪些故障转移站点和所有额外的复杂性可能增加的机会,而不是减less它们。

    只是几个简单的想法;

    • 将您的套件分成两个机架,每个机架由PDU的同一相位的不同杂散电源供电。
    • 如果PDU没有,请将UPS放入每个机架。
    • 考虑通过BGP的全局负载平衡,这是我们如何做我们的主动 – 主动多站点的东西。
    • 考虑一下Telehouse(telehouse.net),它们在西欧和美国东部都有地位,并且是中性和高度重视的。

    简单而好的解决scheme:我们的中型电子商务网站使用Zoneedit DNS进行故障转移,AlertFox进行交易testing。 如果在切换过程中排除1-3分钟,我们今年的上涨时间是100%。 费用:Zoneedit 20美元/年(?),AlertFox PRO3 199美元/月。 另外两个专用服务器。