Welcome to Scribd!

High Performance Computing Using Apache Spark

Uploaded by

0% found this document useful (0 votes)

43 views10 pages

The document discusses using Apache Spark for high performance computing. It introduces Spark, explaining that more data means more computational challenges that exceed the capabilities of single machines. It then outlines some key Spark concepts, including SparkSession and SparkContext for connecting to clusters, RDDs for distributed datasets, transformations and actions for processing RDDs lazily and in parallel, and Spark SQL for querying structured data like tables. The document provides an overview of Spark as a tool for distributed computing on large datasets across clusters of machines.

Original Description:

Original Title

High Performance Computing using Apache Spark

Copyright

Available Formats

PPTX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pptx, pdf, or txt

0% found this document useful (0 votes)

43 views10 pages

High Performance Computing Using Apache Spark

Uploaded by

Eliezer Beczi

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pptx, pdf, or txt

Jump to Page

You are on page 1of 10

Search inside document

High Performance Computing

using Apache Spark

Eliezer Beczi December 7,

2020
Introduction
● More data means more computational challenges.

● Single machines can’t handle data sizes anymore.

● The need to extend computation to multiple nodes.

PySpark

Why Apache Spark?

● Open-source.

● General-purpose.

● Fast.

● APIs.

● Libraries.
Spark essentials
● SparkSession:
○ the main entrypoint to all Spark functionality.

● SparkContext:
○ connects to a cluster manager;
○ acquires executors;
○ sends app code to executors;
○ sends tasks for the executors to run.
Spark essentials
● RDD (Resilient Distributed Datasets):
○ immutable and fault-tolerant collection of elements that can be operated on in parallel.

● RDD operations:
○ transformations;
○ actions.
Spark essentials
● Transformations:
○ produce new RDDs;
○ lazy, not executed until an action is performed.

● The laziness of transformations allow Spark to boost performance by optimizing how a sequence
of transformations is executed at runtime.
Spark essentials
● Actions:
○ return non-RDD objects.

● Map-Reduce processing technique.

Spark SQL
● DataFrames:
○ immutable and fault-tolerant collection of elements that can be operated on in
parallel.

● DataFrames are organized into named columns.

● Conceptually equivalent to a table in RDB.

Spark SQL
● DataFrames can be easily queried using SQL
operations.

● Spark allows to run queries directly on DataFrames

similar to how transformations are performed on
RDDs.
Thank you for your attention!

Hadoop Capacity Planning and Dimensioning
Document9 pages
Hadoop Capacity Planning and Dimensioning
Uneq Solutions
No ratings yet
Kunci Jawaban Ccna 1
Document7 pages
Kunci Jawaban Ccna 1
Nabil Said Basyamchoh
No ratings yet
Apache Spark: Data Science Foundations
Document55 pages
Apache Spark: Data Science Foundations
TRAPMUZIC HDTV
No ratings yet
Introduction To Spark
Document84 pages
Introduction To Spark
Namruta G H
No ratings yet
Gpu Cuda 2
Document72 pages
Gpu Cuda 2
Joaquin Fuentes
No ratings yet
Parallel Programming With: MPI For Python
Document17 pages
Parallel Programming With: MPI For Python
Trâm Thùy
No ratings yet
19.3.3 Regresi Di Spark
Document5 pages
19.3.3 Regresi Di Spark
Yafi Shalihuddin
No ratings yet
19.3.4 Klasifikasi Di Spark
Document5 pages
19.3.4 Klasifikasi Di Spark
Yafi Shalihuddin
No ratings yet
Cluster Analysis: Basic Concepts Partitioning Methods Hierarchical Methods Density-Based Methods Grid-Based Methods Evaluation of Clustering
Document53 pages
Cluster Analysis: Basic Concepts Partitioning Methods Hierarchical Methods Density-Based Methods Grid-Based Methods Evaluation of Clustering
Maha Lakshmi
No ratings yet
19.3.2 Data Preprocessing Di Spark
Document5 pages
19.3.2 Data Preprocessing Di Spark
Yafi Shalihuddin
No ratings yet
Big Data Tools 2 - Apache Spark With PySpark
Document33 pages
Big Data Tools 2 - Apache Spark With PySpark
Aulia Fiqri Wicaksono
No ratings yet
Spark On Hadoop Vs MPI OpenMP On Beowulf
Document10 pages
Spark On Hadoop Vs MPI OpenMP On Beowulf
ravigobi
No ratings yet
Petrophysica Chart
Document1 page
Petrophysica Chart
Nam Van
No ratings yet
#10 Reducing Project Duration
Document22 pages
#10 Reducing Project Duration
ghozi azmy
No ratings yet
CC Schedule HEG
Document16 pages
CC Schedule HEG
vomicih221
No ratings yet
DBSCAN Clustering
Document22 pages
DBSCAN Clustering
movie download
No ratings yet
Spark 20 Tuning Guide
Document21 pages
Spark 20 Tuning Guide
ajquinonesp
No ratings yet
Parallel Programming With Spark: Matei Zaharia
Document40 pages
Parallel Programming With Spark: Matei Zaharia
Amit Dubey
No ratings yet
PySpark Tutorial For Beginners - Python Examples - Spark by (Examples)
Document19 pages
PySpark Tutorial For Beginners - Python Examples - Spark by (Examples)
pysparkv
No ratings yet
Spark SQL
Document25 pages
Spark SQL
Rishi
No ratings yet
Apache Spark Primer 170303
Document8 pages
Apache Spark Primer 170303
selives
No ratings yet
Cloudera Overview PDF
Document20 pages
Cloudera Overview PDF
jennykena
No ratings yet
Modul 9 - Data Warehousing and Business Intelligence - DMBOK2
Document59 pages
Modul 9 - Data Warehousing and Business Intelligence - DMBOK2
Alfi Fadel Majid
No ratings yet
GPU Computing With Spark and Python
Document33 pages
GPU Computing With Spark and Python
2IA16 MUHAMMAD APRIENALDY
No ratings yet
Streamlit Interface For Multiple Disease Diagnosis
Document8 pages
Streamlit Interface For Multiple Disease Diagnosis
IJRASETPublications
No ratings yet
Apache Spark For Beginners
Document30 pages
Apache Spark For Beginners
ankesh patel
No ratings yet
Buku DSS II
Document490 pages
Buku DSS II
didik
No ratings yet
Potensi Obyek Wisata Alam Air Terjun Entoba Di Desa Nyanggai Kecamatan Pinoh Selatan Kabupaten Melawi
Document11 pages
Potensi Obyek Wisata Alam Air Terjun Entoba Di Desa Nyanggai Kecamatan Pinoh Selatan Kabupaten Melawi
Zuhry Haryono
No ratings yet
Decision Tree Algorithm in Spark SQL
Document6 pages
Decision Tree Algorithm in Spark SQL
JP Vijaykumar
No ratings yet
Web Application Testing Using Watir
Document10 pages
Web Application Testing Using Watir
Dmytro Shteflyuk
No ratings yet
Big Data Hadoop Training Certification 7
Document40 pages
Big Data Hadoop Training Certification 7
Anims Dcc
No ratings yet
Spark Training in Bangalore
Document36 pages
Spark Training in Bangalore
kellytechnologies
No ratings yet
Gpu History and Cuda Programming Basics
Document44 pages
Gpu History and Cuda Programming Basics
Fransiskus Yoga Esa Wibowo
No ratings yet
Weka - Knowledgeflow Normalize
Document15 pages
Weka - Knowledgeflow Normalize
Maanassa Sudha
No ratings yet
A Course On Big Data
Document11 pages
A Course On Big Data
Spades POG
No ratings yet
Dashboard Python
Document18 pages
Dashboard Python
Eduardo Ruiz Gutiérrez
No ratings yet
Bda Module 4 PPT (KM)
Document76 pages
Bda Module 4 PPT (KM)
Ajay Bhuj
No ratings yet
PPT05-Hadoop Storage Layer
Document67 pages
PPT05-Hadoop Storage Layer
TsabitAlaykRidhollah
No ratings yet
SPARK
Document125 pages
SPARK
Nessrin Hamdi
No ratings yet
Machine Learning in Spark
Document26 pages
Machine Learning in Spark
brockthebone
No ratings yet
Big Data and Hadoop For Developers - Syllabus
Document6 pages
Big Data and Hadoop For Developers - Syllabus
vkbm42
No ratings yet
PPT04-Hadoop Infrastructure Layer
Document40 pages
PPT04-Hadoop Infrastructure Layer
TsabitAlaykRidhollah
No ratings yet
Clustering Algorithm (Dbscan) : Vishal Bharti Computer Science Dept. GC, Cuny
Document27 pages
Clustering Algorithm (Dbscan) : Vishal Bharti Computer Science Dept. GC, Cuny
Muthu Kumaran
No ratings yet
Multi Core Architectures and Programming
Document10 pages
Multi Core Architectures and Programming
RIYA GUPTA
No ratings yet
1 Introduction To Project Management
Document41 pages
1 Introduction To Project Management
ghozi azmy
No ratings yet
Mastering Apache Spark 2.0
Document62 pages
Mastering Apache Spark 2.0
Cesar Celis
No ratings yet
2021 - #6 Develop Project Plan
Document44 pages
2021 - #6 Develop Project Plan
ghozi azmy
No ratings yet
Concepts and Techniques: - Chapter 10
Document97 pages
Concepts and Techniques: - Chapter 10
sebpky
No ratings yet
Data Mining by Worapoj Kreesuradej
Document43 pages
Data Mining by Worapoj Kreesuradej
Vijayalakshmi Vengattaramane
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
Document1 page
Cheat Sheet: From Spark Data Sources SQL Queries
Karthigai Selvan
No ratings yet
16 SparkAlgorithms
Document57 pages
16 SparkAlgorithms
Petter P
0% (1)
Spark SQL
Document34 pages
Spark SQL
Roxana Godoy Astudillo
No ratings yet
Density Based Spatial Clustering (DBSCAN) : With Data Analysis
Document36 pages
Density Based Spatial Clustering (DBSCAN) : With Data Analysis
Kristina Sinaga
No ratings yet
Presentation Openaichatgpt 43 230329060627 Ee89193f
Document26 pages
Presentation Openaichatgpt 43 230329060627 Ee89193f
gül kabakcı
No ratings yet
Bigdata With Python
Document19 pages
Bigdata With Python
Amrit Chhetrib
No ratings yet
PPT08-Big Data Analytics (Apache Spark & SparkML)
Document53 pages
PPT08-Big Data Analytics (Apache Spark & SparkML)
TsabitAlaykRidhollah
No ratings yet
2018 02 08 Whats New in Apache Spark 2 180213220045
Document57 pages
2018 02 08 Whats New in Apache Spark 2 180213220045
shan4u4me
No ratings yet
PPT02-Big Data Architecture
Document44 pages
PPT02-Big Data Architecture
TsabitAlaykRidhollah
No ratings yet
Pentaho Data Integration
Document99 pages
Pentaho Data Integration
Rugal
No ratings yet
SPARK Interview Questions
Document12 pages
SPARK Interview Questions
aditya.rana.datascience
No ratings yet
A Short Review in Model Order Reduction Based On Proper Generalized Decomposition
Document11 pages
A Short Review in Model Order Reduction Based On Proper Generalized Decomposition
Eliezer Beczi
No ratings yet
The Wind Energy Revolution
Document18 pages
The Wind Energy Revolution
Eliezer Beczi
No ratings yet
Nectar Review
Document16 pages
Nectar Review
Eliezer Beczi
No ratings yet
galaxies: Small Scale Problems of the ΛCDM Model: A Short Review
Document46 pages
galaxies: Small Scale Problems of the ΛCDM Model: A Short Review
Eliezer Beczi
No ratings yet
Chitosan and Alginate Wound Dressings
Document7 pages
Chitosan and Alginate Wound Dressings
Eliezer Beczi
No ratings yet
A Short Review of Failure Mechanisms of Lithium Metal and Lithiated Graphite Anodes in Liquid Electrolyte Solutions
Document12 pages
A Short Review of Failure Mechanisms of Lithium Metal and Lithiated Graphite Anodes in Liquid Electrolyte Solutions
Eliezer Beczi
No ratings yet
A Short Review of Catalysis
Document12 pages
A Short Review of Catalysis
Eliezer Beczi
No ratings yet
Evolutionary Many-Objective Optimization
Document8 pages
Evolutionary Many-Objective Optimization
Eliezer Beczi
No ratings yet
Multiple Biological Activities of Curcum
Document7 pages
Multiple Biological Activities of Curcum
Eliezer Beczi
No ratings yet
Nano Patterned SERS Substrate Applicatio
Document7 pages
Nano Patterned SERS Substrate Applicatio
Eliezer Beczi
No ratings yet
Classical Biological Control
Document34 pages
Classical Biological Control
Eliezer Beczi
No ratings yet
Adaptive Clustering Algorithm
Document1 page
Adaptive Clustering Algorithm
Eliezer Beczi
No ratings yet
Image Segmentation Adaptive Clustering
Document9 pages
Image Segmentation Adaptive Clustering
Eliezer Beczi
No ratings yet