|
|
主 持 人:畅享网总编 程艳玲 播出时间:2013年11月29日 拍摄地点:360总部 地址:北京市朝阳区酒仙桥路6号院 |
|
主题介绍如今国内提及杀毒软件就不得不提及奇虎360,奇虎360科技有限公司的成长一直伴随着各种各样的争议。甚至有人打趣的说,争议似乎已经成了奇虎360成长的催化剂。伴随着奇虎360业务的不断发展,奇虎360公司的信息化建设也不断深入,如今,作为一家用户已经超过4亿的成功的互联网安全公司,奇虎360在IT建设上也有着更独特的“轻盈”要求。本期畅享视频有请360副总裁谭晓生为大家解读奇虎360的信息化“轻盈”战略。
|
嘉宾介绍谭晓生 360公司CTO兼VP、CPO(首席隐私官)、副总裁 1992年毕业于西安交通大学计算机科学与工程系计算机应用专业。曾任Myspace CTO兼任COO,2009年加入奇虎360,担任副总裁。在互联网技术圈子中有“谭校长”的称号。 |
视频实录
谭晓生:非常欢迎各位CIO来到360,今天的主题是轻盈IT。其实在3年零10个月之前我不是传统的IT范畴的,我是研发的背景。从1992年毕业,差不多搞了17年研发之后,突然有一天被咱们周鸿祎提前没有通知的情况下,在公司的高管大会上宣布,谭晓生你从今天开始管360的运维,IT等等这些事情。当时我的感觉是如五雷轰顶,当时觉得运维这个事挺难的。遇到我这样对网络协议也不懂,对硬件虽然说是学硬件的,但是基本很少搞硬件,对这个东西有天然的恐惧。突然有一天说在2010年年初的时候说你要去管这个了,我就感觉到我被扔到特别深的坑里面。因为大家搞信息化,搞运维之类都知道,其实对付就是各种各样的失效,你做程序如果人员水平高一点,准备可以做的充分一点,但是一到网络和硬件相关的东西都会失效。你会发现运营商会掉链子,骨干和网络解析会掉链子,服务器照样会掉链子。遇到这种失效的时候,业务人员不会管你这个,你没有办法讲芯片原来是会出问题的,高压不稳还会造成什么东西,这都是非常难解释的。对于业务部门和IT的要求,就是需要你的时候可以正常工作的。如果业务上做了一点什么事情,我们流量有了十倍增长的时候,可能也没有人给你足够的提前量,就背着特别大的压力上岗了。
第一年其实是很悲剧的,大概上岗以后5个月时间遇到了微软的巨大的访问流量,因为当时微软的补丁不知道怎么回事,那一个月过去的流量20多倍,我们当时的下载体系立即就被冲垮了。因为当时正好是戴尔在上海开一个会,世博会那一年,我是早上进世博园门的时候接到电话说出事故了立马回来。我就赶紧往回飞,回来之后一看当时特别惨,我们下载系统从P2P的服务器统统被打垮了,我们的CDN供应商那一天答应给我们80G流量,结果剩了50G再也上不去的,那个月我的工资被扣了1/4。
到年底的时候更悲催的事情发生,过去我们给用户提供下载,补丁文件和360文件的下载,后来他说用户玩游戏那么多也给他游戏下载也加速,于是这下载文件由300多G到10个T。这种情况下我们会遇到什么问题呢?下载文件的缓存率下降,过去为了省钱我们当时是做R210,这样一到10多个T硬件不行了。原来下载的服务器也存不了的,在2009年年底的时候中间有一段时间是事故率特别高,连续三个月事故率特别高。因为下载的IO成功率下降了,部门投诉加上运营商也捣乱,在做各种各样的劫持,我们运营团队就问几乎是每两天通报文件里面就会有这样的问题,当时真是觉得百口莫辩,这一件事情造成的后果是非常严重的,我差一点被周鸿祎开除了。当时他们已经讨论把谭晓生开除的事,觉得把你放到这个运维的位置上为什么你顶不住,360没有正式的CIO的抬头,其实我是担了CIO的工作,这在过去三年里面辛酸与泪水非常之多的,还好挺过来了。
后面的演讲更多是分享一下我怎么从这个坑里面一步一步爬出来的,虽然说在IT这领域里面挑战还是非常之多的,比如说今年年初周鸿祎扬言要把我工作流服务器要砸了,因为他觉得工作流导致它不能快速的响应等等问题,其实我觉得这比过去的纸介质审批文件快的多了,不能及时的响应老周觉得阻碍了业务的发展你是罪人,扬言要把我工作流服务器给砸了,前年上ERP的时候我是坚决反对的,我说如果你上ERP就是快速变化的业务满足不了这个要求,公司业务会受大的影响,在这坚持之下上了一个很简单的工作流,现在发展到这一步后面面临一个大的挑战,我真的要上ERP了,财务人力资源系统先要上,这也是没有办法的,以前我们用的财务系统的供应商要关门了,一月份要停止服务了,所以不得不上。
下面大概有30分钟左右的时间给大家尽可能快做一些分享,想跟大家分享的东西真的非常之多,也希望借这个机会认识一下大家,从大家这一边各位的经验和教训可以分享给我一些,让后面的工作可以少走一些弯路。
第一个是从硬件讲起,从IT来说首先架构在硬件平台上,第一个我们的服务器我是用多家供应商的策略,其中戴尔是供货量最大的,绝对采购量里面戴尔是采购量最大的,我用了9家服务器供应商包括IBM,惠普,戴尔这三家国外的,还有N多国产的,9家的策略原因就是说在供货上没有保障,因为各家都掉过链子,相对戴尔是最稳定的一家,基本什么下单你7到10天都可以拿到机器,别的都是供货有问题,你有多家供应商策略的时候你的机器销量比较大总是有办法可能解决的,就是A家搞不定,B家可以给你提供,这是供货上的保障。
这么多家没有办法形成共谋,招标上面可以获得比较好的商务条件,这个季度完不成任务它的价格就会跳水,所以控制采购成本是比较有好处的。
网络供应商我们是用了三家,思科,H3C,还有戴尔,网络设备的性能上差异比服务器要大,我们在今年遇到大交换机的问题,因为360服务器这个季度要过5万台了,像应用,搜索大数据分析这有内网交叉的流量,这流量会产生多打一的问题,今年就遇到了缓冲区不够的问题,这时候不是每一家都有这种合适的设备,比如说机柜这一级的交换机像华三有合适的型号,别的就没有,思科要有一个特殊的组合才行,就会有这种差异,如果是单一的供应商就面临着找不到能用设备的问题。在这个同时我们其实从今年年初开始考虑白牌服务器和白牌交换机的问题,量小白牌没有太大的意义,因为更多是服务品质稳定性之类,这是很重要的,但是如果量大到一定的程度,像单种型号需求量会超过一万台了,这种情况下白牌就会有好处了,白牌服务器和白牌交换机都开始做这种尝试了。
这里面的经验是什么呢,其实不管是国产服务器还是国外的服务器主要差别是在到货即损率,明显是国内的供应商比国外的三家要差一截,而这是在SAS卡RAID卡上问题最多的,他的新型号的芯片还不如老型号的,我们就在多家都遇到这个问题,就连芯片型号都要指定,在360这个公司对服务器用得特别狠,比如说插两张SAS卡四块用起来,芯片比较好的也就是只能带4片,带5片的话就会打折扣了,其中有一个新的型号芯片一上来对我们来说都是风险,用之前都要经过仔细的测试。戴尔服务器的供货厂商主要是在稳定性和保修条款上,比如说两台服务器之间把硬盘从另外一台插到另外一台就不保存了,这是要特别小心的,要不就跟厂商谈好要保留条款,要不就是通过中间的服务商把这个隔离一下,像我们每一个季度采购六七千台服务器,要我的配置不调整是不可能的,我的配置一定要调整,业务在变那下完单业务就会变了,配置不可能不做调整,这就是比较大的问题。
还有网络的事刚才已经说了。数据中心在IDC方面我们的经验是Opex是可怕的成本,运维费用而不是固定资产,实际运营的话你的机柜一个月的租金是多少,带宽费用是多少,相对我们的费用来说OPex是比较高的,还有IDC的标准,可能跟企业不一样,比如说金融、银行去租IDC的话要求会特别高,会T4或者是特别高的标准,对于我们互联网来说是运维品质和成本的平衡,对于我们来说T3+就OK了,甚至有的业务是T3就可以接受,因为这是允许出故障的,假设IDC会出故障,网络设备和服务器会坏,这怎么做到持续的运营是这样的假设条件,用一个特别贵的等级特别高的IDC是不划算的,像银行的这不一样的,我过去用的IDC说起来大家非常吃惊的,我遇到过漏水的,遇到空调要搬冰块进去的,这事多了去的。我们的业务允许IDC可以出故障,而且中国的IDC是巨不靠谱的,前不久北京电信的IDC一通知我们说我们要换设备了,全部断电,二话不说就把电断了,你找它索赔人家是爷,我们还是他的大客户啊,拥有他超过一千个机柜,一年供应好几千万呢,我可以找他投诉他下面的人会被骂,但是执行过程中根本不关心你的业务,所以这一定是要多IDC策略,我的业务不能因此受影响,不能因为你的错误而影响我。
在网络设备这一边的经验就是要建流量模型,这一个是能够保障你设备选型不错,第二个是可以帮助你省钱,比如说东西向流量多大,南北向流量多大,在多打一的情况下,如果大数据应用要考虑多打一情况下交换机的大小,这几家交换机都是用BUffer大小,要是有多打一的场景这时候要考虑更大Buffer的交换机,这里面比如说做流量模型这方面的经验在最新的一次招标里面用了762这种模型替代了752和7K+4948E,解决了多打一的问题,就是东西向的流量特别大,思科这成本比较高,后来推荐了752,这方案能满足要求,面临着未来可能退役的问题,最近是用762搭配,也可以解决这个流量模型下的问题,还有我们用了Juniper,在我的业务正式上市之前把两个重大的风险排除掉了,目前运营是比较稳定的,华三我们用12518,还有5830V2,这是一个大Buffer的交换机,戴尔是用S60也是可以解决多打一的问题,Buffer也是相对比较大。SSD我们实践在360超过三万片的SSD,有超过一百片的1TB以上的PCIESSD,这有高IOPS,低延迟,下载的话可以做到峰值一台服务器可以做到16G的下载带宽,最终就是靠多机缓存,过去一台服务器只能提供300兆到500兆的下载,下载可以做到16个G的下载,一个机柜实现了50个G的下载带宽,这对运营商是非常优质的用户。
我们用华为,Verident还有meMblaze,这原来用的时候只有800G的,现在有几T的了,华为的比较贵,我们用了它相对比较低端的产品。在360创立的时候有freeBSD和Linux一半对一半,现在社区活跃维护人员容易招聘是主要的原因,公司的创始人之一又是对这个BSD特别熟的,到后来这个人员都特别难招,到现在这个BSD的设备都非常少,基本换成了Linux,这两个脚本兼容性很强但是还有不一样,在脚本上逐渐实现归一化,去年年底微软找我们某一个机房里面超过一千台Windows了,如果有少量的业务要跑这应用,以前的应用不需要再迁移了,其他的尽量不用这个windows,如果你在一个公司里面搞几个不同的技术体系,那是非常有挑战的。讲到了某一个操作系统某一个细节,就是自选索有什么差异,或者是哪个性能更好一点,这都是非常好的技术人员,在一个团队里面为某一个东西每一次选型都要考虑是Windows还是Linux这是非常累的。
这MFs是用C和C++写的,效率很高,圈里面有朋友建议他用的挺好的,结果栽了一个大跟头,正常运行的时候没有事,出一点意外就很难收拾,当时我的兄弟们比较强悍,正在运行的系统里面把内存里面的数据倒出来了,业务中断了8个小时,但是数据没有丢,那一天晚上找人求助在圈里面找不到可以帮助我的人,最后是靠我几个兄弟们水平比较高的上去把它搞定了,那一天晚上召集了全公司高级人员进行调试,正在跑的生产系统里面对外的服务关了,但是里面是不能停的这也是老周想把我撤掉的原因之一,对我的质疑就是你为什么没有读过这个源代码。后来我们分布重点系统是用Hadoop,这个cassandra给的结论是稳定性不好,后来实际的云盘就是存在这个里面,现在有五千万用户,非常稳定,就是你的评估上评估结论不完全是客观的。那Lvs我们是用的很成功的,我们有能力去改造它,对付各种各样的攻击,做多台万兆LVS集群。
在Web服务器全面云化,每一台机器可以虚拟6到10台虚拟机,除非你有非常强的理由说我一定是比虚拟化跑的好,虚拟机可以做到是5分钟按照一个业务模板5分钟就可以上去,在各个机房都有资源池,能不花钱就不花钱,这个策略就是用Xen,后来发现openstack很好用,基本上不会争执什么事是我自己发明的,原来做的天蝎计划说机柜差两个U,我根本不管多少U,做出来了给人家用了觉得稳定就用,根本不管是42U还是多少,我觉得这个事对于我来说我不注重那些细节。
运维的自动化其实为什么我要搞运维自动化因为老板不给人头,在周鸿祎眼里面20人就是一个天文数字的团队了,整个公司到现在4000多人,恨不得分了400个小团队,都是一个小团队作战,我所管辖的团队有一百多人的时候开年会的时候齐总参加我们的会议说这么多人啊,其实这里面包括很多职责数据统计在360是绝对的小团队作战文化,觉得你团队大了肯定是不行的。这里面已经有了4万多台,我们运维人员还不到40人,远程的管控刚开始我接手的时候没有任何的远程控制东西,所有东西出了问题都是人到现场,后来开使用KVM开始做,这连线实在是太麻烦了,经常是机柜后面很多线,后来做远程控制端口,就是把IPM的特性给隔离开了,不需要知道具体是什么机器,可以在一个平台都可以发等效的指令,像重装操作系统都可以干,还有标准化的安装镜像,包括我们定制的东西,像远程控制的东西都有,不管是做文件的发布还是做机器配置的变更,通过Server就可以进行。智能DNS是我们自己研发的,如果这里面知道用户是从哪来的,分配到相应的数据中心区做会一套智能DNS,如果后台服务器死了就会自动摘掉,这是自动调度的问题,还有大家去上面参观电视墙的时候就可以看到。也实现了7乘24小时的网管人员可以负责,有7乘10个系统管理员值班,其他时间有问题大家打电话就可以处理。
上面去看电视墙的时候可以看到电视墙是用4万块钱,我买了九块电视机在墙上做了一个架子把电机一挂,用了3台PC就搞定了,这是典型的实用主义者,因为我们要搬新的办公室,老的办公室要拆,我当时并不知道要拆,老板知道我们要搬家了,刚开始批了预算后来又收回了,我是用工业拼接屏变成了电视机。
邮件系统我们是用防垃圾邮件网关,域控方面还是要买一个微软的顾问服务,我在这上面走了很多弯路,也找了一些Web顾问,后来还是找了微软的顾问服务,最终现在搞的还可以。OA系统就是上了一个最简单的工作流,去年我们跟微软关于许可证发生重大的纠纷,非要逼我买比员工总数还多的Windows合作非常不愉快,最后就是把这个不用微软的就不用,360整个公司的风格也是这样子,尽可能不用微软的东西。在台式机方面在2010年以前用的都是DIY的机器,2010年以后这个DIY已经绝迹了基本是用品牌机,戴尔是占80%左右的供货量,操作系统是预装的,我从戴尔买的,office是合法的,但是微软说这个贴签应该是出厂的时候就贴在这上面的,戴尔给我们供货的时候那贴条是随着这箱子来的,问微软说这是不是你们生产的,是不是真的,是不是戴尔作假的,微软说是真的,那就不是设计让贴到这上面去。软件正版化千万不要签EA,我们去年就是被EA套了,因为EA有一个条款说如果大家对这个采购数字不能达成一致可以请审计师进场,这一件事被竞争对手利用,我们在资本市场上受到的损失会很多,用这个东西讹诈了我一把,最后跟CIO谈,买吧。我今年的策略调整EA坚决不会再签了。
最后说安全方面,我的假设是做360本身是安全公司,本身就是风口浪尖上,做安全公司的信息安全部也是我管,四个假设下让你的企业可以安全运作下去就行,如果在这个上面无法生存都不行,第一假设你系统有没有发现漏洞,微软的操作系统每一个季度打的补丁都是一堆,因为每一个季度发现的漏洞都是一堆,你系统里面一定有没有发现的漏洞,还有管理的问题就是已经发现的漏洞还没有修补的,在360安全公司打开后台管理终端看总是有一些补丁没有做的,我们在4000多人的情况下总是会有人不自觉的,还有是你假设系统不是干净的,已经被渗透了,还不是说NSA渗透了,被其他黑客搞进来都很大,在互联网公司里面对员工不会管那么严,往往装什么东西都有,有没有别人早就埋下的木马你发现不了,像360这样的安全公司我们做的安全软件也是黑客可以过我们的,这是很正常的,你没有无坚不摧的矛,什么东西都可以防的住盾,员工是很不可靠的,有可能被渗透了,有可能是怎么怎么样,是你竞争对手的同行者这都有可能的,如何找出来你漏洞的攻击行为,第一点我可以不知道漏洞,但是有人利用漏洞搞我要知道这个行为是异常的,我要找出有哪些地方是打了漏洞的机器,不行的话人就上,假设我已经被渗透了,被渗透了以后如果是木马进到你系统里面最终是要干活的,他的行为肯定是有异常的,这异常怎么样逮住。还有如何发现员工的行为异常这一系列的事。
解决这个问题的做法第一个我要有专业和专职的团队,360就有一个信息安全部相当于已经也20多人了,经过3年左右的时间发展终于到了20多个人,第二个是做好准入,像诸位的电脑比如说在360网上一接,在内网上你一插上不了网,提醒你必须装360的软件,如果24小时机器没有重启也上不了网,这都是安全的策略,还有手机也是,你不登记的话收邮件也不行,还有对自身软件进行漏洞扫描,还要做源代码审计,谁要报我们的漏洞是给礼物和给钱的,还有谁登录到服务器做另外一个操作都会传到另外一个服务器上,Shelllog,还有Snort,还有天眼,天擎,还有天机,你要收邮件的话把这个全部封装在一个大的应用里面,这所有的存储数据是加密的,通讯是加密的,也提前做各种各样的环境检查,如果机器里面有其他的异常运行就不让你运行,丢了以后可以远程擦除。
我们防范的思想是云加端加边界,边界上面有各种的防火墙等等,其实在现在还是要加一个云端,因为我们面临得数据量特别大了,计算能力要求特别高,在端上和边界上做不行,特征的共享在云上做是更合适的,有什么新的木马未知的木马进行攻击的检测都在这里检测。这是终端的管理,我们做的基本是把360过去的软件,360安全卫士还有鲁大师就可以从软件分发,硬件管理全都搞定了,也做了各种准入,包括U盘是不是可以读写,3G上网卡允许不允许查,天眼是从5月份已经开始用了,这是比对美国的活眼做的东西,安全方面还有关注无线网络安全,大家看出用到360deom的这是访客的Wifi,真要访问网络要有VPN,专门是做内部员工的密码破解的,只要能破掉必须得改密码,第一次是给他三天时间自己改,再不改就开除了,我们的门禁卡都是经过特殊审计的,很多地方是用ID卡的话别人拿一机器一读就可以读出来了,这个一定要看是什么标准的,强度是什么样子的,就像北京公交一卡通的东西我们两年前就给破了,为此还有两个兄弟给逮进去了,IC卡不是让大家想得那么安全的,还有仿窃听,我是安排做过检查的,兄弟们还做了一些小玩意,扔到一个会议室这信号就给屏蔽了。
这是我的分享,谢谢!
网友评论 更多往期视频 |
现场图片 相关文章 栏目简介 致力于行业发展,关注企业信息化需求领域的实践和动态,畅享网推出《畅享视频》栏目,提供专业资讯与商务服务,共话企业信息化建设的成功之道。
《畅享视频》与知名专家、企业高层、成功客户代表等各类权威人士共同参与,分享权威人士的最新观点和体会,探讨企业经营真谛,与专家之家对话。锁定信息化领域,从不同的角度深入对话探讨,理论、实践、引导和执行的强力组合,以 “共享”理念,与您分享! 幕后制作:
|
|