Welcome to Scribd!

Skip carousel

Bigdata Lecture

Uploaded by

Suraj Sharma

0% found this document useful (0 votes)

6 views47 pages

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

0% found this document useful (0 votes)

6 views47 pages

Bigdata Lecture

Uploaded by

Suraj Sharma

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

Jump to Page

You are on page 1of 47

Search inside document

Big Data ecosystem

M. Fanilo Andrianasolo
Data Analytics Tech Lead & Product Manager

2013 - 2016 2016 - 2017 2017-2019 2019-current

Big Data Data Analytics Data Science Data Analytics
Engineer Evangelist Tech Lead Product Manager
Data is at the center of all IT activities

Data Hardware Innovations

Explosion of data
3Vs of Big Data

Volume

Big Data Variability

Value
Velocity
Vulnerability
Vwhatever..

Variety
Problem

Daily rate in 2014

21,000 $ 600 TB 75 days

Cost of 1 TB Time to read 1 TB
~35$ ~3 hours

How should we store and query such data ?

Scaling ?

Vertical scaling Horizontal scaling

Less power PRICE Much cheaper Bigger energy footprint

consumption, cooling
costs Hardware failure causes Easier fault-tolerance Higher utility cost
bigger outages (electricity, cooling)
Less challenging to “Easier” upgrade by
implement Vendor lock-in adding new machines More networking
equipment
Less licencing costs Limited upgradeability

(Sometimes) less
network hardware
Scaling is hard
Big Data ecosystem
Apache Hadoop

Open-source software for reliable, scalable, distributed computing

Apache Hadoop ecosystem

More than 30 open source projects for managing and analyzing Big Data

…
Hadoop distributions
Hadoop distributions vs Cloud providers
Hadoop ecosystem use cases

Web indexing from web crawlers

Playlist generation from every listens

Log analysis

Product recommendation from purchases

A data platform canvas

Acquisition Transport Storage Processing Servicing

Security
Orchestration
A data platform canvas

Acquisition Transport Storage Processing Servicing

Security
Orchestration
Acquisition
Acquisition

Import

Hadoop
RDBMS
FS
Export
A data platform canvas

Acquisition Transport Storage Processing Servicing

Security
Orchestration
Transport
Transport

{
"type" : "record",
"namespace" : "test",
"name" : "Employee", emp e1=new emp( );
"fields" : [ e1.setName("omar");
{ "name" : "Name" , "type" : "string" }, e1.setAge(21);
{ "name" : "Age" , "type" : "int" }
]
}

.ascv .java
A data platform canvas

Acquisition Transport Storage Processing Servicing

Security
Orchestration
Hadoop Distributed File System

NameNode

DataNode1 DataNode2 DataNode3

block 1 block 2 block 1

block 2 block 1 block 1

block 1 block 1 block 2

HBase

Key U:cookie U:is_auth U:has_t P:Product1 P:Product2 P:Product3

1960:Fanilo c13e 1 3

2001:Fanilo c13e 1

1990:Omar d45 1
A data platform canvas

Acquisition Transport Storage Processing Servicing

Security
Orchestration
YARN – Yet Another Resource Negotiator

YARN hides the resource management details from the user to

facilitate the management of parallel applications.
Batch processing - Map Reduce

Data locality : Moving Computation is Cheaper than Moving Data

Batch processing

music_sales.csv

1, « Let it go », 4.99€, 5
2, « Snow », 7.99€, 1
HiveQL MapReduce
3, « Lion King », 0.99€, 1
4, « SISE », 1.99€, 2
5, « Lyon is great », 2.99€, 3
Metastore
Batch processing

music_sales.csv

recordings = LOAD '$file' USING PigStorage(',') AS 1, « Let it go », 4.99€, 5

(id, price, artist, title,
duration, year);
limit = LIMIT recordings $size;
2, « Snow », 7.99€, 1
DUMP limit;
3, « Lion King », 0.99€, 1
4, « SISE », 1.99€, 2
MapReduce 5, « Lyon is great », 2.99€, 3
Batch processing
Realtime processing
Realtime processing
A data platform canvas

Acquisition Transport Storage Processing Servicing

Security
Orchestration
Visualizing
Visualizing
A data platform canvas

Acquisition Transport Storage Processing Servicing

Security
Orchestration
Security

Kerberos
Orchestration
Orchestration
Overview

Acquisition Transport Storage Processing Servicing

Security
Orchestration
Architecture design
Multiple architectures
Lambda architecture
Kappa architecture
CONCLUSION
THANKS

@andfanilo

andfanilo@gmail.com

Mastering Kubernetes
From Everand
Mastering Kubernetes
Gigi Sayfan
Rating: 5 out of 5 stars
5/5 (1)
Blob L100
Document22 pages
Blob L100
adityakumar60
No ratings yet
Cohesity With Cisco UCS v1.3
Document104 pages
Cohesity With Cisco UCS v1.3
Jesper Würfel
100% (1)
Socal: Migrate Anything To Mongodb Atlas
Document46 pages
Socal: Migrate Anything To Mongodb Atlas
ishaan90
100% (1)
S1 1040 Gannon Presentation
Document30 pages
S1 1040 Gannon Presentation
Dang Huu Anh
No ratings yet
The Future of Network Storage: by Patrick Khoo
Document23 pages
The Future of Network Storage: by Patrick Khoo
BGDADIBGDA
No ratings yet
Huawei OceanStor 9000 Overview Presentation
Document26 pages
Huawei OceanStor 9000 Overview Presentation
HUMANMAN
No ratings yet
Netflix OSS
Document66 pages
Netflix OSS
tbarua1
No ratings yet
Dhansham - Engineer's Notebook Checkpoint Firewalls Gaia - Palo Alto - Useful CLI Commands
Document11 pages
Dhansham - Engineer's Notebook Checkpoint Firewalls Gaia - Palo Alto - Useful CLI Commands
Heera Singh
No ratings yet
Versity VSM Data Sheet PDF
Document2 pages
Versity VSM Data Sheet PDF
ngole ngole
No ratings yet
DP-200 - Implementing An Azure Data Solution - Exam Prep - Taygan
Document7 pages
DP-200 - Implementing An Azure Data Solution - Exam Prep - Taygan
sr_saurab8511
No ratings yet
DS Tools Lec 03
Document24 pages
DS Tools Lec 03
Youmna Eid
No ratings yet
Mobile Edge Forum Pre-Event Editorial Webinar Slides PDF
Document24 pages
Mobile Edge Forum Pre-Event Editorial Webinar Slides PDF
楊健宇
No ratings yet
TW Log Center Data Collection Capabilities Ds
Document5 pages
TW Log Center Data Collection Capabilities Ds
neeta.satpute
No ratings yet
Architecting and Managing Apps Matt Tavis July 2010
Document30 pages
Architecting and Managing Apps Matt Tavis July 2010
Xinyu Dai
No ratings yet
Farley San School Book
Document71 pages
Farley San School Book
Farha Azad
No ratings yet
Cloud Services Comparison
Document1 page
Cloud Services Comparison
blackops88.legion
No ratings yet
Caching Product Comparison
Document2 pages
Caching Product Comparison
Rajeev Jain
No ratings yet
WW INFO-02 - Wonderware Historian Best Practices Final
Document72 pages
WW INFO-02 - Wonderware Historian Best Practices Final
Administrador Portal Web
No ratings yet
Big Data System: Prepared For: Dell Financial Services August 10, 2017
Document12 pages
Big Data System: Prepared For: Dell Financial Services August 10, 2017
sanjiv.sureshbabu
No ratings yet
Recon2015 01 Joan Calvet Marion Marschalek Paul Rascagneres Totally Spies PDF
Document58 pages
Recon2015 01 Joan Calvet Marion Marschalek Paul Rascagneres Totally Spies PDF
james wright
No ratings yet
Pulling Data From A Cloud-Based DNS Security
Document21 pages
Pulling Data From A Cloud-Based DNS Security
know_idea8867
No ratings yet
Compare Cloud
Document1 page
Compare Cloud
YahyaNouali
No ratings yet
Drawbridge PDF
Document28 pages
Drawbridge PDF
Alok H Tripathi
No ratings yet
Data Migration 100
Document29 pages
Data Migration 100
Abhi
No ratings yet
Bigdata Hadoop: Fundamentals Hive
Document3 pages
Bigdata Hadoop: Fundamentals Hive
Quantico Smith
No ratings yet
Understanding Nutanix Core Datapath Architecture Slides
Document32 pages
Understanding Nutanix Core Datapath Architecture Slides
cloud scape
No ratings yet
An Introduction To Openstack: by Mohamed Rahal Gec - 2019
Document46 pages
An Introduction To Openstack: by Mohamed Rahal Gec - 2019
Nouradin Hassan Darar
No ratings yet
Amazon Rds For Postgresql & Amazon Aurora Postgresql
Document65 pages
Amazon Rds For Postgresql & Amazon Aurora Postgresql
KoushikKc Chatterjee
No ratings yet
Storage Solutions For Bioinformatics: Li Yan
Document30 pages
Storage Solutions For Bioinformatics: Li Yan
Lamberto Rosario
No ratings yet
Scalar Tape DS00559A
Document4 pages
Scalar Tape DS00559A
Atiyeh Mahdavi Moayed
No ratings yet
Jain ™ SLEE Tutorial
Document78 pages
Jain ™ SLEE Tutorial
Oleg Zender
No ratings yet
Emc Clariion Cx700 Networked Storage System: Specifications
Document2 pages
Emc Clariion Cx700 Networked Storage System: Specifications
Ryan Lewis
No ratings yet
Data Pipelines From Zero To Solid
Document58 pages
Data Pipelines From Zero To Solid
Robert Ngenzi
No ratings yet
Spark Traning
Document32 pages
Spark Traning
Mocha
No ratings yet
100Tb Migrations - Keep The Downtime Low
Document52 pages
100Tb Migrations - Keep The Downtime Low
jamesie
No ratings yet
Io Server Lhc2
Document41 pages
Io Server Lhc2
舒敏
No ratings yet
Azure Data Factory v2 (PDFDrive)
Document78 pages
Azure Data Factory v2 (PDFDrive)
Pratyush Jain
No ratings yet
Berkeley Data Analytics Stack BDAS Overview Ion Stoica Strata 2013
Document28 pages
Berkeley Data Analytics Stack BDAS Overview Ion Stoica Strata 2013
dineshgomber
No ratings yet
EMC CLARiiON CX3 Model 20 Networked Storage System Specification Sheet
Document2 pages
EMC CLARiiON CX3 Model 20 Networked Storage System Specification Sheet
David Wong
No ratings yet
Cloud Computing: An Important Big Data Enabler
Document23 pages
Cloud Computing: An Important Big Data Enabler
Kosuru ratnasai
No ratings yet
Technologies For Handling Big Data: Prepared By: Saidatul Rahah Hamidi
Document49 pages
Technologies For Handling Big Data: Prepared By: Saidatul Rahah Hamidi
syahmina
No ratings yet
Microsoft SDL Threat Modeling: Michael Howard
Document43 pages
Microsoft SDL Threat Modeling: Michael Howard
anon_320877389
No ratings yet
Getting Started With Amazon Redshift
Document51 pages
Getting Started With Amazon Redshift
rohit kumar
No ratings yet
Omnis Data Streamer - SECPDS - 022
Document2 pages
Omnis Data Streamer - SECPDS - 022
dmiguelez123
No ratings yet
Oracle Streams PEOUG Day2009 18112009 MPalacios
Document24 pages
Oracle Streams PEOUG Day2009 18112009 MPalacios
mpalacios.pe
No ratings yet
TR 96 09
Document11 pages
TR 96 09
albertof00
No ratings yet
Azure Basics
Document3 pages
Azure Basics
Anish R
No ratings yet
TCS Big Data Lake Presentation - VIL - 17apr2019
Document21 pages
TCS Big Data Lake Presentation - VIL - 17apr2019
1977am
No ratings yet
M1 - Introduction To Processing Streaming Data
Document16 pages
M1 - Introduction To Processing Streaming Data
Edgar Sanchez
No ratings yet
Ibm Aix Online Training - Ibm Aix Online Classes - Aix Online Certification in USA - India - Hyderabad
Document20 pages
Ibm Aix Online Training - Ibm Aix Online Classes - Aix Online Certification in USA - India - Hyderabad
sudeeptechnologies
No ratings yet
Arcsight Connector Supported Products Flyer
Document8 pages
Arcsight Connector Supported Products Flyer
Ramnesh Dubey
No ratings yet
Data Mining Foster
Document26 pages
Data Mining Foster
api-3798592
No ratings yet
All Databases List
Document8 pages
All Databases List
samrat
No ratings yet
01 - Storage Basics and Application Environments
Document56 pages
01 - Storage Basics and Application Environments
MohammadBakir
No ratings yet
Archsummit全球架构师峰会北京站2015: 梁胜 Rancher Labs
Document37 pages
Archsummit全球架构师峰会北京站2015: 梁胜 Rancher Labs
JJamesran
No ratings yet
Module 2 Existing Threat Modeling Approaches (COMPLETE)
Document68 pages
Module 2 Existing Threat Modeling Approaches (COMPLETE)
KESTREL KELLNER CERVANTES
No ratings yet
Administering ArcGIS for Server
From Everand
Administering ArcGIS for Server
Hussein Nasser
No ratings yet
Learning Hadoop 2
From Everand
Learning Hadoop 2
Garry Turkington
Rating: 4 out of 5 stars
4/5 (1)
Implementing Cloud Storage with OpenStack Swift
From Everand
Implementing Cloud Storage with OpenStack Swift
Amar Kapadia
No ratings yet
Chapter 7 - 02 Reliability and Maintainability
Document35 pages
Chapter 7 - 02 Reliability and Maintainability
Muket Agmas
No ratings yet
IPC 221 Eng
Document50 pages
IPC 221 Eng
oscar perez perez nieto
No ratings yet
(Download PDF) Programming With Microsoft Visual Basic 2017 Diane Zak Online Ebook All Chapter PDF
Document42 pages
(Download PDF) Programming With Microsoft Visual Basic 2017 Diane Zak Online Ebook All Chapter PDF
troy.balder425
100% (13)
Snowflake Partner Technical Foundations
Document10 pages
Snowflake Partner Technical Foundations
Felipe de Jesús Muñoz González
No ratings yet
What Is The Difference Between Bandwidth Percent and Bandwidth Remaining Percent
Document7 pages
What Is The Difference Between Bandwidth Percent and Bandwidth Remaining Percent
vilask
No ratings yet
Tigd-Ci3: Design Guide: Doc#417605 Ver:2.5 CRB: Doc#439675 Ver:1.0
Document28 pages
Tigd-Ci3: Design Guide: Doc#417605 Ver:2.5 CRB: Doc#439675 Ver:1.0
Márcio S.A, Salvador-BA
No ratings yet
Edtc 6325 E-Learning Module Part 2 Birch
Document5 pages
Edtc 6325 E-Learning Module Part 2 Birch
api-281965445
No ratings yet
COS 318: Operating Systems Processes and Threads
Document24 pages
COS 318: Operating Systems Processes and Threads
kiran_y2
No ratings yet
Syllabus IAO202 Summer 2021
Document27 pages
Syllabus IAO202 Summer 2021
Crystals YY
No ratings yet
Technology Listening and Vocabulary
Document2 pages
Technology Listening and Vocabulary
Sofía
No ratings yet
Ie433 Cad/Cam Computer Aided Design and Computer Aided Manufacturing Part-1 Introduction To CAD/CAM
Document27 pages
Ie433 Cad/Cam Computer Aided Design and Computer Aided Manufacturing Part-1 Introduction To CAD/CAM
Jackson ..
No ratings yet
Selenium Python PDF
Document80 pages
Selenium Python PDF
Gabriel Romero
100% (1)
Binary Overloading Operator: Syntax
Document8 pages
Binary Overloading Operator: Syntax
Manivasagan Vasagan
No ratings yet
Computer MCQ
Document6 pages
Computer MCQ
Adesh Partap Singh
No ratings yet
Seed To Sale Cost
Document22 pages
Seed To Sale Cost
Diego Villalobos
No ratings yet
3 - MMUP Engineer Registration Process
Document4 pages
3 - MMUP Engineer Registration Process
DU A NE
No ratings yet
Case Study ICM Solution For MindTree
Document3 pages
Case Study ICM Solution For MindTree
vinod
No ratings yet
Raymond 7400
Document3 pages
Raymond 7400
Ismael Gonzalez
No ratings yet
How Does Digitalization Change The Role and Way of Working of Internal Audit - An Exploratory Overview
Document29 pages
How Does Digitalization Change The Role and Way of Working of Internal Audit - An Exploratory Overview
Chaima Lejri
No ratings yet
The Hacker's Manual 2015
Document146 pages
The Hacker's Manual 2015
Amanda Dean
100% (7)
Vinay Resume - US IT RECRUITER
Document7 pages
Vinay Resume - US IT RECRUITER
Priyadarshini Saroj
No ratings yet
Huawei NE20E-S Router Product Brochure
Document8 pages
Huawei NE20E-S Router Product Brochure
saleh
No ratings yet
10 Best Computer Networking Books For Beginners & Experts
Document16 pages
10 Best Computer Networking Books For Beginners & Experts
Shanta Walker
No ratings yet
YAML Handwritten Notes
Document5 pages
YAML Handwritten Notes
Ashwani Kumar
No ratings yet
Diagnostic Card User Manual
Document28 pages
Diagnostic Card User Manual
NSun
No ratings yet
Fisa Tehnica Termostate de Perete Afisaj Electronic Cu Modul WIFI+Modbus TP528
Document2 pages
Fisa Tehnica Termostate de Perete Afisaj Electronic Cu Modul WIFI+Modbus TP528
Cristi Soarece
No ratings yet
Ashu Registration and Login Form
Document16 pages
Ashu Registration and Login Form
Aniket Nsc0025
No ratings yet
Manual
Document359 pages
Manual
Jesús Martínez
No ratings yet
Ethernetip Modbus Fieldbus Profibus DP
Document3 pages
Ethernetip Modbus Fieldbus Profibus DP
sandystays
No ratings yet
Exto Standard Brochure
Document4 pages
Exto Standard Brochure
Piyush Tarun Verma
No ratings yet