我们的计划备份策略是否适合我的新服务器基础架构?

我们正在build立一个新的服务器来迁移旧的服务器。
基本上我们将有一个Windows Server(2003或2008)在RAID 5上运行6个以上的虚拟机服务器(Windows和Linux开发,应用程序,数据库和一些testing工作站)。

此外,我们需要集中数据(文件和SVN存储库),所以需要一个文件服务器。 由于我们没有任何pipe理经验,以前从未做过备份您是否有任何虚拟化文件服务器的经验? 最好是在物理盒子上运行它们? 有关运行此任何build议将受到欢迎。

关于我们的备份策略,现在草拟的是:
注意:由于资金限制,现在磁带备份不是我们的select。

  • 每周做一次完全备份到RAID 5上的单独备份服务器(请参阅备份服务器是否使用RAID? )和外部驱动器(可怜的磁带机)
  • 差异日常备份
  • 计划每月备份到在线服务

你觉得这个方法合理吗? 我确定有很多方面需要承担,我们肯定是错过了。

最后,有人认为我们担心如何备份virtualbox机器。 一个简单的方法是简单的备份everithing(按照其中一个问题的build议,我找不到至极…)。
你对这个盒子中的数据有什么build议? 还应备份(“以防万一…”),或直接备份虚拟映像是安全的?

如果它作为附加信息,我们打算使用BackupExec。

谢谢你的时间阅读这个。

—– 2009/08/04更新—–

由于健康原因,我不能继续这个问题。 感谢那些回答我的问题的人,这是一个很大的帮助。

以下是我们已经绘制的备份计划,现在我们有了更多的背景:由于我们是一个小公司(从南美),现在我们买不起磁带机。

如果现在不是非现场和离线,我现在不是bacukp,但是我们正试图找出更好的策略,

数据丢失窗口:1天/ 8小时。 恢复时间:1天/ 8小时。 备份:所有(数据和服务器安装)

  • 每日:每日对物理备份服务器进行差异备份,可能使用BackupExec。 有人提议使用sata支持的外部存储集线器之一。 另一个build议上传到存储服务,而我们可以得到一个磁带。 我们现在没有select离开现场(所以数据丢失窗口是假的)
  • 每周:使用外部1TB驱动器进行完整备份。
  • 每月/每年:与每周相同。 我们有在哪里存储这些备份的问题

我们希望保持简单,但是我认为我们正在把所有这些日常的策略变得复杂以克服异地备份的泄漏。

我的标准备份build议:

备份的重点是能够恢复。 除非你完全相信你可以回收你的东西,否则你的备份是无用的 。 您在备份解决scheme中实施的所有内容都应该从“如何从此恢复”的angular度出发。

磁带不是那么昂贵,它的优点是它比磁盘更耐用。 运动部件less,没有活的电stream不断通过它,所有的好东西。 如果它保存你的屁股一次,那么它已经在我的书中支付了。

除了“有多less数据可以承受损失”之外,还需要考虑“在灾难恢复情况下能承受多less时间? 3天的恢复时间是3天的业务中断。 你应该用数小时和一只手的手指来计算你的恢复时间。

如果你让自己太偏执了,那么你可以很快陷入愚蠢的钱,所以你应该把你的服务器分成2或3个。 那些为了延续你的核心业务function而绝对需要现在回来的人,以及那些在核心业务回来之前可以推迟的人。 把大量的投资放在第一批,确保你有完整的文件恢复程序(对于操作系统,应用程序和数据),一只盲人麻烦的猴子可以跟在后面。 打印和装订一个副本,并将其保存在防火保险柜中 – 如果您拥有的只是电子副本,并且被丢失或毁坏,则将其拧紧。 但是不要认为这意味着你可以在第二批中松懈,只是你可以拖延时间或者延长一些时间(比如把它们放在较慢的媒体上)。

具体的例子:你的核心文件服务器进入第一批,当然。 你的人力资源服务器进入第二批。 这对于人力资源部门来说很重要,但是如果没有人力资源系统,你的核心业务function还可以吗? 是的,我想他们会的。

保持您的备份解决scheme简单而无聊。 我经常看到人们实施花哨的或复杂的备份解决scheme,结果太复杂,太复杂和不可靠。 备份是无聊的,因为备份应该是无聊的。 他们越简单,恢复就越容易。 你想要一个“我Og,Og单击button,Og取回数据”的方法。 在那里保持每日手动元素。 这有助于build立演练,这可以避免有人忘记更换磁带或旋转池中的高清。 如果发生这种情况,你可以解雇负责的人,但猜猜是什么? 你仍然处于丢失了一个月的数据的位置。

缺口,

我强烈build议你看一下O'Reilly出版的“Backup&Recovery”一书。

http://oreilly.com/catalog/9780596102463

它会向您解释诸如“单点故障”以及备份关键系统的一般策略。

这对任何人的书架来说都是一本好书。

关键问题是您准备失去多less数据? 1个月? 一天? 6个小时? 5分钟?

随着数据丢失窗口变小,它变得更加昂贵。

b我会做关于“备份”的评论:

备份是离线和离线的。 如果不在场外,则不是备份。

  • 如果build筑物烧毁,异地是非常重要的。 在现场但离线(想象一个抽屉里的拔下的外部硬盘驱动器),那么当build筑物烧毁时它就消失了(请参阅清除服务器中的碳粉 )。

  • 如果有人攻击你并试图破坏你的数据,脱机是很重要的。 如果不在现场但在线,那么它很容易受到攻击和“腐败”。 离线意味着“备份和networking之间的空隙”。

备份之道有点俗气,但网站上的信息都是真实而重要的。 我build议阅读。


我会在物理盒子上运行一个文件服务器。 文件服务是IO,虚拟化是IO的惩罚。 虚拟化对于“需求”单独的操作系统实例但不需要整个物理盒子的功率的应用程序来说是非常好的。 对于完全基于IO的应用来说,虚拟化意义不大。

您应该阅读我的服务器故障备份综述电子表格,比较各种备份解决scheme。 LTO-4和磁带5周的轮换并不昂贵。 如果使用LTO-3,LTO-2或VXA等低端磁带技术,则更是如此。

如果你想要更好的备份build议,请告诉我们:

  • 总共有多less数据将被备份
  • 多less数据每天都在变化
  • 备份窗口有多长时间?
  • 你想保留多less备份?
  • 每个时间段有多less备份将永久保存
  • 多久你会离线备份媒体
  • 你要旋转多less媒体/星期?

您现在可以在您的问题中说一些这些事情,但是我想知道您是否真的想过,例如,如果您正在进行每月一次的非现场复制,并且您在两天前发生灾难下一个每月的非现场复制。 我build议您在与业务人员交谈后重新检查您的需求,并询问需要多less美元才能损失公司的各种数据量(以小时/天/周的数据为单位)。

(你可以在我的“服务器故障备份综述”文档中得到更多关于假设的细节: 推荐备份媒体大约在2009年)?

  • Raid用于实时系统,可能/应该包含本地备份和/或日志快照。
  • 磁带是旅行,异地备份防震。 但磁带不处理高周期率(平均250次重写)
  • 磁盘比磁带更便宜,速度也更快,并具有更高的覆盖能力。

如果您没有专业知识,我不会build议单独为备份系统进行RAID。 冗余更重要。 由5个驱动器组成的RAID系统总体上比5个独立驱动器的故障率高得多。 如果备份系统发生故障,一切都将停止,直到新系统build成并testing完毕。 如果RAID控制器失败,一切都消失了。 如果比平价更多的驱动器失败,一切都消失了。 您经常被locking在同一个控制器中,要求您购买一个备用控制器,否则如果需要的话,需要花费相同的控制器才能查找和更换。 你有点被locking到一个磁盘大小和模型。 如果一个驱动器使用单独的磁盘失败,您可以购买一个更新,更大的驱动器,以同样的钱。

另一个select是购买5 – 1 TB的外置SATA硬盘每个90美元 – 总成本450美元

没有机器需要,没有RAID卡,没有RAIDconfiguration,每个驱动器可以是不同的品牌,型号和尺寸。

旋转驱动器,使用磁带在您的公司银行保pipe箱外存储。 您可能会有更大数量的潜在数据丢失窗口,但可以通过在每个备份计划备份两个或更多磁盘或磁带和/或在实时系统上添加快照/日记来缓解这一问题。

如果您可以将数据分区为公共和机密,则可以在工作站中使用额外的空间作为公共备份池。 在每个工作站放一个TB,分配500MB到备份池。 使用此区域进行公共数据备份或encryption的私人备份数据。

这是从最简单和最快的设置恢复。 Bacula很适合这种备份方式。 我见过和使用的最好的设置是带有本地备份的live raid系统,每小时使用本地备份进行日志logging的差异备份,然后写入外部磁盘 – 在本地工作站上进行encryption,备用空间用于冗余,并且每天进行录制,以便进行异地存储。

Raid对于主动系统是有意义的。 将你的RAID 5升级到RAID 60或者任何最适合你的数据和负载。 然后在实时系统上使用额外的空间来存储快照备份。 本地磁盘备份是可能的最快速度,意味着系统为备份事务locking的时间最短。 将这些快照备份到外部或磁带上可以在午餐时间和白天使用率低的情况下完成。

根据需要为每个数据types,目录,文件等创build不同频率的备份计划。 尽可能经常在本地备份,最好是每个文件写入。 (日志logging)尽快从系统获取本地备份。 (至less每天)尽可能多地复制备份数据。 (5通常比绰绰有余)

我build议在一个物理盒子上运行文件服务器,因为它很可能是I / O很重的。 在没有closures所有虚拟机的情况下,能够热切断一个驱动器也是很好的。 这取决于你的具体设置。

您的备份时间表听起来很合理,但取决于您能承受多less损失。 看起来你的大部分备份(除了每月的备份)都在现场,这意味着如果build筑物被烧毁或者被闯入,你最多会损失一个月。

如果将外部驱动器带回家,则必须将其保存在备份之前,直到备份到期,否则它不是真正的异地备份,是吗? 如果你受到纪律处分,最多一周就会输掉。 更好的办法是旋转一套三个外部硬盘,所以你将永远有最老的一个在现场,而最新的一个在现场。

不要忘记定期testing和logging备份; 您需要放心,每个备份系统都可以正确恢复。 您需要文档,以便您的同事可以恢复数据。 您还需要有关如何重build整个服务器的文档。 如果一个人失败了,你会想太多的记住每一个细节。

题外话:碰巧,我正在为我们的小公司寻找类似的基础设施。 尽pipe我们已经备份了类似的体验级别, 我会与你分享我们目前的devise,给你一个替代的视angular,而不是判断你的:
我们正在计划三台服务器:两台虚拟化主机和一台存储服务器。 存储服务器很可能运行Openfiler 。 它将通过(也许双)千兆以太网连接到两个主机,都具有良好的CPU和大量的内存,但几乎没有任何存储(可能只是小SSD)。 这些主机将在裸机上运行Citrix Xenserver (或者也许是VMWare ESXi ),因为它比在另一个基本没有太多操作系统的操作系统中运行虚拟化软件要有效得多(例如查看VMWare Server和VMWare ESXi之间的性能差异)。 Xenserver似乎最有趣,因为它提供了免费的企业function,而如果您不想要基础知识,ESXi可能会变得昂贵。 Xenserver主机本身不具备存储空间,但将通过Openfiler服务器的iSCSI使用块级存储作为虚拟硬盘 。 Openfiler可以做快照,RAID等等。 Xenserver可以将虚拟机从一台服务器实时迁移到另一台服务器,所以我们可以在一台服务器上进行维护而不closures任何访客虚拟机。 获取支持VLAN的千兆交换机,以便将存储stream量与VMstream量分开。 一些UPS允许在电源故障情况下进行受控关机并完成。 几乎所有的成本都是用于硬件的,因为这个软件是(惊人的)免费的。

对不起,这个答案结果有点长,但我希望另一个angular度对你有价值。

尼克的答案 – 请记住,这种方法是低成本的小型企业使用,为工作站购买名牌预build系统。 这是一个使用可用的额外浪费的资源的情况。 我们使用所有可用的资源。 当用户离开的时候他们的工作站被重新引导到群集中进行自动构build和testing。 我提出的备份方法是利用多台机器在每个工作站中多余的空间来利用冗余副本的方法。

乔,你现在的系统是什么意思? 生产服务器?

是。 Raid是为了减less时间损失。 因此应该在24/7运行系统上使用。 对于只需要在备份数据传输过程中运行的备份系统或仅在白天“需要”启用的工作站而言,它的价值要低得多。

…所以在select你描述的计划是:在每个工作站logging公共数据(encryption)。

是。 它可以是公共共享或跨工作站。 日记/快照每小时在raid系统上进行备份传输到另一个媒体(通常每天两次,中午和晚上)的更改。 (尽可能在生产系统上备份多达80%的磁盘空间的备份,这种性能可能会受到影响)。这样,用户就可以轻松地恢复被覆盖或删除的文件,而无需与系统pipe理员进行交谈/date/时间的文件夹,并使用标准的差异工具,有权访问当天的所有可用快照等。

encryption是为了防止工作站被盗和/或防止“窥探”。 我们有很好的开发人员,所以你相信他们不要试图解密。 他们可以通过许多其他方式损害业务,需要信任。

…这些快照每天通过5个外部磁盘进入系统,或者每天在5个磁盘之一中进行异地访问?

旅行数据总是在磁带上。 磁带幸存下来震惊。 磁盘查找速度更快,这就是为什么我们更喜欢磁盘作为“日志”备份。 磁带是完整备份或增量备份,通常没有日志/快照。 大多数数据恢复将在白天完成 – 为我们的用户群。 “我需要的文件是在午餐前。” “我刚刚删除了错误的文件。” 从前几天恢复的粒度通常足够每天使用一个版本。 如果需要更多日志logging,则调整备份或者实施修订控制系统,并且备份修订树。

五个磁盘是一个任意数字,以显示相对于仅磁带系统的成本。 具有相同数据副本的五个单独的磁盘具有比任何小型企业RAID系统高得多的冗余。 如果工作站有足够的空间,则可以使用一个专用的备份磁盘。 (鉴于多个副本在工作站和磁带上)

在设定的时间点,将数据从生产服务器的日志logging备份分区转移到备份系统,并连接外部驱动器,制作2-5份副本,一个位于内部磁盘上,一个位于外部磁盘上,另一个位于磁带上。 工作站备份到备份系统,然后在closures每个工作站之前收到共享生产系统备份的副本。 任何时候都不会有less于三份的备份数据的实际副本。 3份,5份等是需要针对每个业务和每种types的数据build模的冗余问题。 您可能需要5份发票,7份合同,只有2​​份标准graphics副本和当前testing版本可执行文件的单个副本等。

…另外,每个工作站的快照是平等的? 或者他们全部总结完整的公共数据?

无论是。 取决于可用空间和需求。 我们购买的系统总是带有比普通用户需要的磁盘大得多的磁盘(开发人员可以利用额外的空间,但接待员不需要500GB +磁盘)

…您对linkysbycisco.com/US/en/…这些外部存储中心有什么看法?

不知道。 我们更喜欢可以放到其他地方使用的机器,今天的备份服务器,明天某人的工作站,在重大升级过程中卸载虚拟机副本,以便快速进行故障转移等。这就是外部磁盘的原因之一 – 将所有工作站保持为类似尽可能。 因此,“备份服务器”将具有与每个工作站相同的500GB +磁盘。 这是同一台物理机器,按照购买的顺序购买,所以随着时间的推移,根据交易的date,CPU,内存和磁盘将会有所不同。 机器是根据性能需求分配的,换用新机器增加内存所需的总体系统pipe理员时间要less于在完美运行的机器上安装内存芯片。 如果我们保持CPU和video(AMD64,Nvidia)相对一致的机器交换是无痛的。

生产服务器使用两个raid卡,一个运行10k rpm scsi,另一个运行7200rpm scsi驱动器以获得最佳性能。 用于备份的价值60美元的SATA太字节驱动器可容纳多达数千美元的scsi驱动器,RAID控制器,热交换机箱等。开发服务器通常适合SATA RAID,更多的空间,但性能较差。 由于同时使用的用户较less,所以性能差异通常可以忽略不计。

简单来说 –

  1. 生产系统 – RAID主数据分区上的主动共享数据和操作系统
  2. 生产系统 – 自上次备份“RAID备份数据分区”以来每小时logging快照
  3. 工作站系统 – 非RAID主数据分区上的活动数据和操作系统
  4. 工作站系统 – 在非RAID“备份数据分区”上备份数据

平均工作站采用500GB +驱动器购买,最多使用40GB以上的多启动Windows / linux / bsd / opensolaris分区。 其余部分是备份分区,其中包含每个其他工作站操作系统,生产服务器的操作系统备份,生产服务器日志数据备份和/或生产服务器增量数据备份的备份副本。

如果任何两台机器在build筑物恢复中死亡需要几分钟。 每个操作系统上至less有三个物理副本,通常我们有足够的未使用的工作站+外部驱动器空间来保留生产服务器的一两个星期的增量备份和至less两个上一个完整备份的副本。

我们可以丢失raid系统,磁带和两个工作站,不会丢失任何数据,并在几分钟内启动。 (尽pipe没有突袭,直到它被修复)但数据是“即时”访问。 这样可以节省好几个小时的时间,而这个时间总是在最糟糕的时候发生。 在重要的销售会议/演示之前,电源总是失败。 Raid系统似乎总是在星期五晚上从来没有在星期五晚上,所以你可以修复它们,星期一早上备份。

描述备份过程的文档是公司财产。 我会尝试用图表和用例重新编写公共查看。 我已经使用了这种通用方法多年,当标准磁带系统出现故障时,它节省了时间和数据。 我在使用DLT,LTO等的IBM,Compaq,HP和Dell系统上看到了故障。常见故障是在备份期间没有错误,但是当您尝试恢复数据时已损坏。 总是testing恢复。 这就是为什么我们使用可以很容易地每天testing的在线日志备份的原因之一。 由于用户已经习惯了,我们从来没有超过一个星期没有使用日志备份,几乎从不使用磁带。 磁带是为了防止build筑物烧毁。