Professional Documents
Culture Documents
spark分享
spark分享
Java-liao
1.What is spark
2. Spark VS Hadoop VS Hive VS Storm
3. Spark 1.x VS Spark 2.x
4. Spark and me
What is spark?
运行在分布式内存的特性,使得速度飞快。
Spark 可以运行在多种文件系统之上,单机,集群等模式。
One Stack to rule them all
1.What is spark
2. Spark VS Hadoop VS Hive VS Storm
3. Spark 1.x VS Spark 2.x
4. Spark and me
Spark VS Hadoop (1)
Spark 并不是要成为一个大数据领域的“独裁者”,不是一个人霸占大数据
领域所有的“地盘”,而是与 Hadoop 进行了高度的集成,两者可以完美的
配合使用。 Hadoop 的 HDFS 、 Hive 、 HBase 负责存储, YARN 负责资源调度
; Spark 复杂大数据计算。
Spark 计算模
Map Reduce 型
YARN
Hadoop
HDFS
3 、更智能
引入 Structured Streaming 替代 Spark Streaming ,提供跟多功能,仅仅作为实
验版本。目前用的是 spark 1.5x
1.What is spark
2. Spark VS Hadoop VS Hive VS Storm
3. Spark 1.x VS Spark 2.x
4. Spark and me
The futrue of spark
1 、大数据开发
熟悉 Hadoop 、 hbase 、 hive 、 storm 、 spark ;
熟悉 Java ee 等技术整合;
数据仓库建模;
主要针对业务需求,编写 MR , spark 算子对数据进行
处理,统计分析。
2 、大数据运维
大型集群的运维和管理,
精通 Hadoop 、 spark 、 storm 源码等;
精通计算机基础知识:磁盘、网络、 IO 、数据库、 CPU 、
操作系统;二次开发;
3 、大数据挖掘工程师
数据科学家:
熟悉 R 、 MATLAB 等数据挖掘工具, MLLib,mahout 等。
熟悉数据挖掘、机器学习算法,
硕士学历以上
How to use spark?
Next
下期关注