当前位置：首页 > 云计算 > 云应用 > 正文

云计算管理的三大利器：Nagios、Ganglia和Splunk

来源：论坛

2012/5/7 10:31:55

大中小

在搭建趋势云计算平台时，遇到了很多的问题和挑战。开始搭建时，第一次来了那么多性能强劲的机器，我们在感到兴奋的同时，也不免有些顾虑。大家坐在一起讨论，问题就列了满满一白板。

分享到：新浪微博腾讯微博

本文关键字：云计算平台云计算管理

Splunk：像查Google一样查日志

有了Nagios和Ganglia，算是成功了一大半。作为一名优秀的管理员，我们需要具备一定的Troubleshooting能力，对一些常见的问题能给出解决方案。那么，对日志的分析就必不可少。

但Hadoop/HBase的日志分布在各个机器上面，而日志之间关联性强。Client端的错误有可能是Region Server引起，而Region Server的错误有可能是Zookeeper导致。有没有一个统一的日志管理平台呢?

众里寻它千百度，蓦然回首，我们找到了Splunk——日志界的Google。

很遗憾，Splunk不是开源的，但它的免费版本提供每天500MB日志索引。如果数据量较小，通过定义好Log的级别，基本上也能满足需求。但对于数据量较大的公司，就有些捉襟见肘。

Splunk支持AdHoc的日志搜索，而且可以与Nagios配合使用。比如Nagios报警某台RegionServer端口不可达，我们收到Notification后，登录Splunk，直接搜索shutdown和host名称，找到RegionServer退出的日志。点击详细信息，分析日志，就能快速定位问题。如图6所示。

图6 Splunk与Nagios配合使用进行日志搜索

对Hadoop和HBase有了进一步了解后，我们可以利用Splunk实时检测日志中的关键字，定义关键字规则，如监控 “shutdown”、“quit”、“ERROR”、“Zookeeper Session Expired”等，一旦出现，利用Splunk的Notification功能，发出邮件通知管理员，管理员通过Splunk定位问题，就可以在系统真正出现问题之前，对系统进行调整，防患于未然。

总结：搭建一套云计算平台，强大的监控管理系统是必不可少的。当然，任何工具都不是万能的，在实际维护过程中，我们也发现，Nagios和 Splunk经常出现误报，如果规则定义得不好，大量的警报邮件如潮水一样涌来，反而掩盖了真正的问题。可以说，在云计算平台的运维管理上，没有一劳永逸的事情，随着规模的不断增大和应用的不断多样化，需要大家不断地实践和总结。

责编：赵龙

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：畅享网文章著作权分属畅享网、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

文章: 物资管理八百客润乾报表伟库网 Xtools 中服软件中机盛科

用友T系列知识管理 ERP
软件: 用友中服软件 SAP 源天软件 Xtools 中机盛科

云计算管理的三大利器：Nagios、Ganglia和Splunk

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。