Welcome to Scribd!

Skip carousel

Pyspark Sejal Pittala

Uploaded by

angadranyal16

0% found this document useful (0 votes)

2 views9 pages

Accenture assessment sheet

Original Title

Pyspark.sejal.pittala

Copyright

Available Formats

DOCX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Accenture assessment sheet

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as docx, pdf, or txt

0% found this document useful (0 votes)

2 views9 pages

Pyspark Sejal Pittala

Uploaded by

angadranyal16

Accenture assessment sheet

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as docx, pdf, or txt

Jump to Page

You are on page 1of 9

Search inside document

Section A

1)movies=sc.textFile('file:///home/ubuntu/Desktop/movies.dat',3)

movie=movies.map(lambda x:x.split("#"))

movies.take(5)

tothor=movie.filter(lambda x: x[2]=="Horror")

tothor.count()

users=sc.textFile('file:///home/ubuntu/Desktop/users.dat',2)

user=users.map(lambda x:x.split("#"))
5)

FemaleEmp=user.filter(lambda x: x[1]=="Female").filter(lambda x: x[3]=="Educator")

cd female

cat part-00000

hdfs dfs -put /home/ubuntu/female /user/ubuntu/female

hdfs dfs -cat /user/ubuntu/female/part-00000

FemaleEmp.toDebugString()

ratings=sc.textFile("file:///home/ubuntu/Desktop/ratings.dat")

rating=ratings.map(lambda x:x.split("#"))

9)
Section B

MovieDf=spark.createDataFrame(movie)

MovieDF=MovieDf.toDF('MovieID','Titles','Genres')

2) ratingDF=spark.read.options(inferSchema=True,sep="#",header=False).csv("file:///home/ubuntu/
Desktop/ratings.dat")
ratingsDF=spark.read.format("csv").option("header",False).option("delimiter","#").load("file:///home/
ubuntu/Desktop/ratings.dat")

RatingDF=ratingDF.toDF('UserID','MovieID','Rating','TStamp')
3)

RatingDF.createOrReplaceTempView("RatingView")

MovieDF.createOrReplaceTempView("MovieView")

m1=spark.sql("select * from MovieView")

r1=spark.sql("select * from RatingView")

5)
Section C:

ubuntu@ip-172-31-69-2:~$ cd bigdata/kafka

ubuntu@ip-172-31-69-2:~/bigdata/kafka$ kafka-topics.sh --create --topic Rating --bootstrap-server

localhost:9092 --replication-factor 1 --partitions 2

Created topic Rating.

ubuntu@ip-172-31-69-2:~/bigdata/kafka$ kafka-topics.sh --describe --bootstrap-server localhost:9092 --

topic Rating

Topic: Rating TopicId: XDwz9oVuQiCPIRcXN-5cHw PartitionCount: 2 ReplicationFactor: 1 Configs:

Topic: Rating Partition: 0 Leader: 0 Replicas: 0 Isr: 0

Topic: Rating Partition: 1 Leader: 0 Replicas: 0 Isr: 0

ubuntu@ip-172-31-69-2:~/Desktop$ cat ratings.dat | nc -lk 9999

from pyspark.sql import SparkSession

from pyspark.sql.functions import explode

from pyspark.sql.functions import split

from pyspark.sql.types import *

from pyspark.sql.functions import *

spark = SparkSession.builder.appName("RatingStructuredStreamingDF").getOrCreate()

socketDF = spark.readStream.format("socket").option("host", "localhost").option("port", 9999).load()

RatingDF =
socketDF.select(split(socketDF.value,"#").getItem(0).alias("UserID"),split(socketDF.value,"#").getItem(1).
alias("MovieID"),split(socketDF.value,"#").getItem(2).alias("Rating"),split(socketDF.value,"#").getItem(3)
.alias("Tstamp"),split(socketDF.value,"#"))

RatingDFwithCol=RatingDF.withColumn("UserID",col("UserID").cast(IntegerType())).withColumn("MovieI
D",col("MovieID").cast(IntegerType())).withColumn("Rating",col("Rating").cast(IntegerType())).withColu
mn("Tstamp",col("Tstamp").cast(IntegerType()))

RatingCount = RatingDFwithCol.groupBy("Rating").count()

Ratingcountquery = RatingCount.writeStream.outputMode("complete").option("checkpointLocation",
"file:///home/ubuntu/ratingcount").format("console").start()

Not able to get the desired output because the task size is very large

Linux InterviewQuestions - For - Level - 2 - Ratnakar PDF
Document225 pages
Linux InterviewQuestions - For - Level - 2 - Ratnakar PDF
KOLLI MALLIKARJUNAREDDY
80% (10)
Code Checkpoint 1 - ESS-DWW Courseware - Snowflake University - On-Demand
Document6 pages
Code Checkpoint 1 - ESS-DWW Courseware - Snowflake University - On-Demand
kuldeep singh
No ratings yet
A.2.2 Outline The Functions and Tools of A DBMS.: 1. Data Dictionary Management
Document3 pages
A.2.2 Outline The Functions and Tools of A DBMS.: 1. Data Dictionary Management
Preeti Singhal
No ratings yet
DBA Sheet 6.1
Document520 pages
DBA Sheet 6.1
Claudiu George David
100% (1)
The DAMA Guide To The Data Management Body of Knowledge - First Edition
Document430 pages
The DAMA Guide To The Data Management Body of Knowledge - First Edition
kakarotodesu
100% (11)
Automating Disk Forensic Processing With Sleuthkit, XML and Python
Document35 pages
Automating Disk Forensic Processing With Sleuthkit, XML and Python
Ante Markic
No ratings yet
UP Assignment
Document13 pages
UP Assignment
Amruth Gowda
No ratings yet
Day 1
Document8 pages
Day 1
poorvaja.r
No ratings yet
Week11 14
Document7 pages
Week11 14
setawo8674
No ratings yet
Extras
Document8 pages
Extras
Charlie Villanueva
No ratings yet
Ganpat Uni Assigment Solved Srijit-Das
Document4 pages
Ganpat Uni Assigment Solved Srijit-Das
August Miles
No ratings yet
System Administration Basics: Michael Opdenacker Thomas Petazzoni
Document22 pages
System Administration Basics: Michael Opdenacker Thomas Petazzoni
sabhari
No ratings yet
Console I/O and File I/O: Sun Educational Services
Document17 pages
Console I/O and File I/O: Sun Educational Services
Sab
No ratings yet
Linux Programming Lab Record
Document29 pages
Linux Programming Lab Record
DVADONE
No ratings yet
User/Groups Administration: Username. Password Flag
Document18 pages
User/Groups Administration: Username. Password Flag
krishan_ydsap
No ratings yet
1.presentation Command Line and Shell Programming
Document48 pages
1.presentation Command Line and Shell Programming
yogeshwari bahiram
No ratings yet
Tutorial 8 FileSystem
Document3 pages
Tutorial 8 FileSystem
Subhas Chandra
No ratings yet
Post Exploit
Document22 pages
Post Exploit
Research Guy
No ratings yet
A Crash Course On Some Recent Bug Finding Tricks
Document70 pages
A Crash Course On Some Recent Bug Finding Tricks
hprasad316@gmail.com
No ratings yet
Unix and Shell Lab Programming Manual Week6,7,8,9,10
Document7 pages
Unix and Shell Lab Programming Manual Week6,7,8,9,10
Kalyan Kumar
No ratings yet
ABD00 Notebooks Combined - Databricks
Document109 pages
ABD00 Notebooks Combined - Databricks
Bruno Teles
No ratings yet
Mac OSMetadata
Document11 pages
Mac OSMetadata
jminnihan
No ratings yet
Bash Shell Cheat Sheetv2 PDF
Document7 pages
Bash Shell Cheat Sheetv2 PDF
vladimir1923
No ratings yet
Data Files - C Interview Questions and Answers Page 6
Document3 pages
Data Files - C Interview Questions and Answers Page 6
ANUSHA SINGH V H
No ratings yet
Report
Document5 pages
Report
Raghul Krishna
No ratings yet
Linux Interview Questions Part4
Document3 pages
Linux Interview Questions Part4
Bharath
No ratings yet
Unix and Shell Programming
Document50 pages
Unix and Shell Programming
Anupam Ghosh
100% (1)
File Deletion
Document9 pages
File Deletion
marwan omar
No ratings yet
Lecture 3 - Part 1
Document5 pages
Lecture 3 - Part 1
Dani Sha
No ratings yet
SVM
Document2 pages
SVM
vishavanath vk
No ratings yet
FRST
Document12 pages
FRST
Anonymous G2DzbO
No ratings yet
SOLARIS Commands
Document34 pages
SOLARIS Commands
Yahya Lateef
No ratings yet
Rust Error
Document6 pages
Rust Error
MiNStanG Gaming
No ratings yet
Java As An Object-Oriented Programming Language
Document64 pages
Java As An Object-Oriented Programming Language
vu long
No ratings yet
Cara Remasterlinux Mint Remaster
Document12 pages
Cara Remasterlinux Mint Remaster
Sonny Aji Arbinta
No ratings yet
Output Log
Document11 pages
Output Log
Matias Torres
No ratings yet
Opearating System LAb Files
Document128 pages
Opearating System LAb Files
Ashish
100% (1)
Core Dump Analysis
Document4 pages
Core Dump Analysis
vento_ssb
No ratings yet
Window Forensics by VIEH Group
Document24 pages
Window Forensics by VIEH Group
s. Pradeep
No ratings yet
ProQuestDocuments 2024 05 24
Document6 pages
ProQuestDocuments 2024 05 24
David Alvarez
No ratings yet
100 Unix Commands
Document8 pages
100 Unix Commands
Padmaja Manikonda
No ratings yet
MEGO Writeup
Document5 pages
MEGO Writeup
Toby Mac
No ratings yet
DBA Sheet 6.1
Document520 pages
DBA Sheet 6.1
mudit rander
100% (1)
OTL
Document19 pages
OTL
Marian Gallo
No ratings yet
Unix Basics
Document179 pages
Unix Basics
Akash Kumar
100% (1)
Quota RH133 Unit 7
Document4 pages
Quota RH133 Unit 7
Priyanka Thillan
No ratings yet
Windows Post-Exploitation Command List
Document15 pages
Windows Post-Exploitation Command List
Andres Miranda
No ratings yet
016 - OS Thurs Mar 17 2022 Assignment - Lec - 15
Document3 pages
016 - OS Thurs Mar 17 2022 Assignment - Lec - 15
pamanacanada
No ratings yet
M.A.M. School of Engineering: Siruganur, Trichy - 621 105
Document78 pages
M.A.M. School of Engineering: Siruganur, Trichy - 621 105
Sesuraja
No ratings yet
Linux Basics: Weesan Lee
Document20 pages
Linux Basics: Weesan Lee
SaravanaRaajaa
No ratings yet
Readme
Document1 page
Readme
Amirabbas Nazari
No ratings yet
R Command
Document52 pages
R Command
koustav naha
No ratings yet
Basic Linux Commands
Document4 pages
Basic Linux Commands
siddiqueyounus458
No ratings yet
Python Course
Document43 pages
Python Course
Antonio Mirko Macan
No ratings yet
101 Unix Commands
Document4 pages
101 Unix Commands
brahmaqa1
100% (1)
Os Labmanual Bcaiv
Document21 pages
Os Labmanual Bcaiv
Rahul Joshi
No ratings yet
Unix Basics: Presented By: Benjamin Lynch
Document42 pages
Unix Basics: Presented By: Benjamin Lynch
Nakul Maheshwari
No ratings yet
01 Introduction To Linux System Os 2024
Document50 pages
01 Introduction To Linux System Os 2024
panulande7
No ratings yet
Lec4 Android
Document39 pages
Lec4 Android
Ganesan San
No ratings yet
Fpse
Document66 pages
Fpse
Kratik Mehta
No ratings yet
Extras OTL
Document17 pages
Extras OTL
wordmix-freak_mfc
No ratings yet
Part One: Review Questions: Middle East Technical University, Northern Cyprus Campus
Document3 pages
Part One: Review Questions: Middle East Technical University, Northern Cyprus Campus
Firat
No ratings yet
DBA Sheet v7.0
Document547 pages
DBA Sheet v7.0
Sunil J Shet
No ratings yet
Linux Commands By Example
From Everand
Linux Commands By Example
Khaled Jamal
Rating: 4.5 out of 5 stars
4.5/5 (3)
ICS 143 - Principles of Operating Systems
Document54 pages
ICS 143 - Principles of Operating Systems
Darajjee Dhufeeraa
No ratings yet
Instruction and Parts List
Document2,812 pages
Instruction and Parts List
Nagarajan Raja
No ratings yet
PDF PPSC Imtiaz Shahid Model & Past Papers 97th Original Edition 2024
Document101 pages
PDF PPSC Imtiaz Shahid Model & Past Papers 97th Original Edition 2024
DanishIsf
0% (1)
Couchbase N1QL CheatSheet
Document2 pages
Couchbase N1QL CheatSheet
Sotsir Núñez
No ratings yet
FP Tree Basics
Document67 pages
FP Tree Basics
Swapnil Joshi
No ratings yet
Vault Log
Document2 pages
Vault Log
John Lourd Alejo
No ratings yet
Database Concepts
Document622 pages
Database Concepts
abapman
No ratings yet
PPT12-W12-Big Data Visualization
Document29 pages
PPT12-W12-Big Data Visualization
annisaaam72
No ratings yet
Explaining The EXPLAIN - Part 1: Joe Ramon
Document41 pages
Explaining The EXPLAIN - Part 1: Joe Ramon
hyd.rasool
No ratings yet
DBMS Unit-6
Document35 pages
DBMS Unit-6
महेश विजय खेडेकर
No ratings yet
How To Create A User Login Form in Microsoft Access
Document4 pages
How To Create A User Login Form in Microsoft Access
cjaz05
100% (1)
Fathan Mubina - 185150400111055 - Lat1
Document5 pages
Fathan Mubina - 185150400111055 - Lat1
Fathan Mubina
No ratings yet
Extract Archived Data From Sap
Document9 pages
Extract Archived Data From Sap
MD NASEERUDDIN
No ratings yet
Transaction Processing (Chapter 21) : What Is A Transaction?
Document70 pages
Transaction Processing (Chapter 21) : What Is A Transaction?
Priya Singh
No ratings yet
All-In-One D2K PDF
Document123 pages
All-In-One D2K PDF
csalas71
No ratings yet
Practical-File Python Jobscaptain
Document12 pages
Practical-File Python Jobscaptain
Rohan Mehra
No ratings yet
DBMS Consolidated Assignment Solution
Document122 pages
DBMS Consolidated Assignment Solution
C-31 Arnav Balpande
100% (2)
VMWARE THICK and THIN Disk
Document20 pages
VMWARE THICK and THIN Disk
viveksabc123
No ratings yet
MySQL SHOW DATABASES - List All Databases in MySQL
Document7 pages
MySQL SHOW DATABASES - List All Databases in MySQL
ahmed
No ratings yet
Chapter 5 - Types of Data
Document22 pages
Chapter 5 - Types of Data
Saadia Umar
No ratings yet
Determine Data Base Functionality TVET
Document12 pages
Determine Data Base Functionality TVET
mohammed ahmed
No ratings yet
RDBMS
Document17 pages
RDBMS
Nadim Momin
No ratings yet
Entity-Relationship Model
Document55 pages
Entity-Relationship Model
Raghav Nagpal
No ratings yet
11.batch Updations
Document5 pages
11.batch Updations
Harman Singh
No ratings yet
Fresher Informatica
Document2 pages
Fresher Informatica
Naga Balaram-pandu
No ratings yet
Oracle 12 C
Document87 pages
Oracle 12 C
anhditimemVNA
100% (1)