Spark技术解析及在百度开放云BMR应用实践

来源：CSDN

2015/1/14 14:23:27

2015年1月10日，一场基于Spark的高性能应用实践盛宴由Databricks软件工程师连城、百度高级工程师甄鹏、百度架构师孙垚光、百度美国研发中心高级架构师刘少山四位专家联手打造。

百度基础架构部高级工程师甄鹏——Spark在百度开放云BMR中的实战分享

百度分布式计算团队从2011年开始持续关注Spark，并于2014年将Spark正式引入百度分布式计算生态系统中，在国内率先面向开发者及企业用户推出了支持Spark并兼容开源接口的大数据处理产品BMR（Baidu MapReduce）。在甄鹏的分享中，我们主要了解了百度Spark 应用现状、百度开放云BMR和Spark On BMR三个方面的内容。

Spark在百度

甄鹏表示，当前百度的Spark集群由上千台物理主机（数万Cores，上百TBMemory）组成，日提交App在数百，已应用于凤巢、大搜索、直达号、百度大数据等业务。之以选择Spark，甄鹏总结了三个原因：快速高效、API 友好易用和组件丰富。

快速高效。首先，Spark使用了线程池模式，任务调度效率很高；其次，Spark可以最大限度地利用内存，多轮迭代任务执行效率高。

API友好易用。这主要基于两个方面：第一，Spark支持多门编程语言，可以满足不同语言背景的人使用；第二，Spark的表达能力非常丰富，并且封装了大量常用操作。

组件丰富。Spark生态圈当下已比较完善，在官方组件涵盖SQL、图计算、机器学习和实时计算的同时，还有着很多第三方开发的优秀组件，足以应对日常的数据处理需求。

百度开放云BMR

在BMR介绍中，甄鹏表示，虽然BMR被称为Baidu MapReduce，但是这个名称已经不能完全表示出这个平台：BMR是百度开放云的数据分析服务产品，基于百度多年大数据处理分析经验，面向企业和开发者提供按需部署的Hadoop&Spark集群计算服务，让客户具备海量数据分析和挖掘能力，从而提升业务竞争力。

如图所示，BMR基于BCC（百度云服务器），建立在HDFS和BOS（百度对象存储）分布式存储之上，其处理引擎包含了MapReduce和Spark，同时还使用了HBase数据库。在此之上，系统集成了Pig、Hive、SQL、Streaming、GraphX、MLLib等专有服务。在系统的最上层，BMR提供了一个基于Web的控制台，以及一个API形式的SDK。

在图片的最右边，Scheduler在BMR中起到了管理作用，使用它开发者可以编写比较复杂的作业流。

Spark On BMR

类似于通常的云服务，BMR中的Spark同样随用随起，集群空闲即销毁，帮助用户节省预算。此外，集群创建可以在3到5分钟内完成，包含了完整的Spark+HDFS+YARN堆栈。同时，BMR也提供Long Running模式，并有多种套餐可选。