连城:Spark一体化大数据分析流水线
发布时间:2015-02-13 10:51 点击数:

简介:第六届中国云计算大会于2014年5月20-23日在北京国家会议中心拉开帷幕。本次大会立足实践,以国际化的视野,帮助与会者了解全球云计算技术的发展趋势;从应用出发,探讨交通、医疗、教育、金融、制造、数字娱乐等行业领域的实践经验;并通过技术专场、产品发布和培训课程等方式,深度剖析云计算大数据的核心技术。

Spark创始团队公司Databricks工程师连城认为,虽然在成熟度上Spark远逊于Hadoop,但是在速度、兼容性、易用性及多种分析范式串接和混合上,Spark更具优势。首先,Spark很快,在迭代型类似于机器学习这样的数据分析上,Spark在内存中运行速度比Hadoop MapReduce快100倍,在磁盘上快10倍;其次,兼容性上,Spark几乎兼容HDFS上的所有流行存储系统,新用户部署Spark时不必要使用ETL;接着,易用性上,支持Scala、Java、Python API,代码减少2-5倍。