前有Gitlab删库,后有AWS误删服务器,乌龙频发我们该如何防范?

  • 时间:
  • 浏览:1
  • 来源:大发彩神幸运飞艇_大发神彩幸运飞艇官方

应该需要审核机制,当执行命令输入复审下。

采用raid磁盘阵列存储系统来进行相应的存储工作。采用raid磁盘阵列存储还能能 减少相关问题产生,加强服务器的磁盘容错功能。即便占据 服务器瘫痪、自然灾害等极为恶劣的状态下,假如硬盘依然健在,这麼,就还能能 第一时间恢复其正常操作。

理由如下:

其一,也不 说对代码的改动都不 一次发布语录,这麼,对生产环境的任何改动(包括硬件、操作系统、网络、软件配置……),也都是不是一次发布。这麼前一天的发布就应该走发布系统和发布流程,要被很好的测试、上线和回滚计划。

关键是,走发布过程是还能能 被记录、追踪和回溯的,而在线上敲命令是全部无法追踪的。这麼知道你敲了那此命令。

其二,真正良性的运维能力是——人管代码,代码管机器,而都不 人管机器。你敲了那此命令这麼知道,但有你写个工具做变更线上系统,你這個 工具干了那此事,看看工具的源码就知道了。

秋水鸣蛙 好友克隆链接去分享

小柒2012 好友克隆链接去分享

keller.zhou 已获得淘公仔 好友克隆链接去分享

都不 马后炮,装叉犯,删了就删了嘛,多大点事情,谁太满再犯点错。还煞有介事地在这里说些不着调的最好的方式。

杨周 好友克隆链接去分享

我干过之类的……shell脚本修改权限,传值没获取到,因为整个服务器所有文件都变成0777权限……

是人总会犯错,只能机器太满再。这麼低级的失误因为这麼严重后果充分暴露了大公司执行工作进程漏洞,这哥们惨了……

我把etc拖走了 livecd进去修了一下午

西秦说云 已获得王坚新著《在线》 好友克隆链接去分享

防止结果:下午1:54分恢复正常。

授权也过高 ,也不 授权了代表我同意这次操作,也不 我无法监管到这次操作的正确性,什么都有对于你這個 有2个多命令改变未来的指令也不 少进行,也不 增加你這個 操作的流程,共同再执行命令中要得到更深度图次的审核

ghost-ai 好友克隆链接去分享

减少非必要错误的操作。减少操作出错的也不 性,管理好服务器用户的权限,防止操作失误引起数据丢失

Windows的删除有个回收站功能,是个不错的最好的方式,它都不 立即删除,也不 恢复又快,不知是不是还能能 借鉴一下?

这麼,你這個 进程猿打错命令有这麼责任?肯定有。也不 ,在防止深度图可靠的云服务时,每一次操作都应该按照严格的进程,每有2个多命令都不 经过足够的审核。除非你這個 进程员在操作过程中也不 偷懒省略了一些必要的步骤,也不 ,这次事故更多是系统的责任,也不 系统这麼足够的机制来防止错误的占据 。人,都不 会犯错的,只能机器太满再。

朋友认为理想的环境,应该是那种即使你犯了错误删了数据,还能能 轻易恢复,并保证对系统影响最小的环境。这就要求帮我日常执行一些流程,也不 要容易测试,容易回滚。

进程员在线上环境直接敲命令,当在执行需要要另外有2个多人授权确认后还能能 运行,也不 机器识别出来是危险的指令一定会有警告,前一天语录还能能 减少之类事故的占据 。多重备份真是好,也不 它也什么都有我一段时间执行备份,2次备份上面会有一定的时间间隔,也不 恢复到最近的有2个多备份点,这麼备份点到事故占据 的数据这麼,也会造成一定的损失。

淘公仔 x 3

2.线上运维操作的前一天设计影响系统黑名单。系统难以知道运维人员是都不 真的要进行相应操作,还是打错字母误操作,也不 针对一些系统的更改在日常运维权限下一定是不可接受的,如本次故障中被影响的核心系统Index和Placement,系统检查到命令会影响相应黑名单中系统应拒绝当前命令执行。

1.思路之类大楼备用发电机,整栋停电的前一天备用发电机接管来提供必要的电力,不致于造成恐慌,在你這個 case场景下,即使线上命令删除一大批核心服务器,也应有响应的备份服务器接管,也不 这批资源正常运维权限下不可被删除,以确保跳出 误操作的前一天服务不至于彻底挂掉。

1892988267967496 好友克隆链接去分享

1461587759184916 好友克隆链接去分享

始终真是操作跳出 了差错前一天就使流程比较比较复杂、投入更多人力你這個 行为是比较蠢的,比如找有2个多人在旁边看着,有2个多人double check

为嘛那此大公司 不做 多重备份以及实时备份,也不 有难度?

定制笔记本 x 1

是不是应该做好多重备份?

传说中的打错有2个多字母瘫痪半个互联网!

1012988794233826 好友克隆链接去分享

他们说,当然!但都不 人质疑,多重备份就安全何时能 能 ?就算所有的备份都可用,什么都有我可防止地会有数据的丢失,或是也会有什么都有问题。

cnssr4bb1t 好友克隆链接去分享

建立第二机制,所有操作只能对第一序列有效。第二序列与第一序列共用控制机制,但只具有次时效的记忆。第一序列失败,控制机制解除对第一序列的控制,控制第二序列,

把需要删除的数据移动到某个特定文件夹下,计划任务定时清理你這個 文件夹

绝世傲立 已获得定制笔记本 好友克隆链接去分享

比如:

进程员是不是应该在线上环境直接敲命令?

他们说,还能能 ,也不 干前一天的事情时,得有2个多人干,前一天人在旁边看着。

让机器去判断,也不 机器为什会么会知道你是真的要去删那此服务器,还是打错字母了呢?

bearyes 已获得淘公仔 好友克隆链接去分享

shizeqing 好友克隆链接去分享

瓜跑跑丶 好友克隆链接去分享

1953688799298128 好友克隆链接去分享

经常以来,我都真是直接到生产线上敲命令是某种非常不好的习惯。我认为,有2个多公司的运维能力的强弱和你上线上环境敲命令是有关的,你越是喜欢上线敲命令你的运维能力就越弱,越是通过自动化来防止问题,你的运维能力就越强。

要防止错误操作所造成的数据丢失和服务器故障,首先加强权限的管理,要想防止数据丢失所造成的损失,每天都不 对重要的数据进行必要的数据备份。防止数据库故障引起的数据丢失。将数据库存储在单独的服务器中,防止应用服务器故障引起的数据丢失。

fourmi 好友克隆链接去分享

线上运维操作的前一天设计影响系统黑名单。系统难以知道运维人员是都不 真的要进行相应操作,还是打错字母误操作,也不 针对一些系统的更改在日常运维权限下一定是不可接受的,如本次故障中被影响的核心系统Index和Placement,系统检查到命令会影响相应黑名单中系统应拒绝当前命令执行。

要我 防止误操作。首先应该确保工作人员的休息时间。国内互联网崇尚加班,容易让开发人员疲劳工作。对于开车,朋友知道只能疲劳驾驶,操作服务器也是一样的。此外,朋友需要一些手段,来提醒相关的人员,朋友的服务器有点要,比如生产环境的shell使用红色,开发环境使用黄色,测试环境使用绿色等等,不同的颜色还能能 让朋友的维护人员提高警惕。也要注意,对于一些操作,尽也不 的选取由机器完成,而都不 人工完成,降低人员出错的也不 。

王坚新著《在线》 x 1

寒心 好友克隆链接去分享

朋友先来回顾一下3月2日事件

3月2日AWS声称,输错命令因为了亚马逊网络服务(AWS)跳出 持续数小时的故障事件。

故障因为:亚马逊简单存储服务(S3)团队当时在调试有2个多问题,该问题因为S3计费系统的防止强度比预期来得慢。太平洋标准时(PST)上午9:37,一名获得授权的S3团队成员使用前一天编写的playbook,执行四根绳子 命令,该命令旨在为S3计费流程使用的其中有2个多S3子系统删除少量服务器。遗憾的是,输入命令时输错了有2个多字母,结果删除了一大批本不该删除的服务器。

你這個 倒霉的进程员会被开除吗?

似水的旧时空匆匆 已获得淘公仔 好友克隆链接去分享

操作执行的严格度对应所产生行为的后果的重要度

把各种操作行为及命令分成不同的级别

1级行为或命令,负责人1人防止

2级行为或命令,处负责人外,加进去去有2个多监督员确认后再执行

3级,再增加团队主管

4级,部门主管

5级,更高级别

以此类推

让前一天人去审核,看上去还能能 防止一些错误,也不 被委托人总会犯错误的,也不 让职位更高级别的人来审核,他不一定知道具体的技术细节,以至于审核到上面就什么都有我走个过场罢了。

vling 好友克隆链接去分享

浮生递归 好友克隆链接去分享

任何事情这麼十全十美的 鱼和熊掌不可兼得 实时更新bug当然需要线上操作 主要还是应该分状态而定吧

改进朋友的灾备机制,并在主机上凸显出数据恢复的作用。什么都有,朋友从太满再从“阻止工程师在生产主机上运行某个命令“你這個 深度图来实现安全。也不 ,即使朋友把禁用rm命令,也只能是阻止工程师从不犯运行 rm -rf /important-data 命令的错误,也不 你這個 最好的方式从只能阻止诸如磁盘损坏,也不 一些也不 因为数据丢失的状态占据 。

从来不赞同线上模式敲代码,这全部什么都有我不负责任。记得学git的前一天看见过语录,这麼提交的代码,都不 白敲的。随时备份,以及代码审核是真的好习惯!