导航：首页 > 互联网科技 >

IMF前期知识储备-What is Spark详细讲解（四大特性）

发表于：2024-11-23 作者：热门IT资讯网编辑

编辑最后更新 2024年11月23日，Spark 官方网站使用如下简洁的语言描述了Spark我们可以从中提取出如下信息：Spark是一个引擎快速通用Spark可以用来处理数据数据是大规模的Spark本身并不提供数据存储能力，它只是一个计算

Spark 官方网站使用如下简洁的语言描述了Spark

我们可以从中提取出如下信息：

Spark是一个引擎

Spark可以用来处理数据

Spark本身并不提供数据存储能力，它只是一个计算框架

它的快速体现在什么地方呢？

如果处理的数据在内存中，运行MapReduce比hadoop要快100倍以上，要是数据在磁盘中，也比Hadoop快10倍以上。

为什么会快呢，Spark在处理数据的时候，使用了一个高级的执行引擎：DAG - 有向无环图。以及内存计算。

易于使用：

可以使用scala、java、Python等语言快速的开发应用程序。Spark提供了超过80个操作来简单的构建并行应用。只需几行代码，就可以完成wordcount的计算。

通用性：

Spark 提供了大数据一栈式解决方案。包含了流计算、图计算、机器学习、SQL等。

对于开发、维护、学习成本都是大大的降低。

运行在任何地方：

Spark可以运行在Hadoop的YARN、Mesos, standalone,或者运行在云上。

Spark 处理的数据，可以存储在HDFS, Cassandra, HBase,和S3等等。

Spark的发展非常快速，TimeLine如下

Spark进入Apache后，发展非常迅速。版本发布比较频繁。

Spark的生态体系(BDAS，中文：伯克利分析栈)

BDAS生态体系图：

MapReduce和Spark比较

异同点：

2. 模型上

3. 容错性

相关文章