Welcome to Scribd!

Code

Uploaded by

0% found this document useful (0 votes)

7 views2 pages

This document contains code snippets for text mining and predictive modeling. It includes code to import common libraries for data manipulation, text mining, and machine learning models. It also includes code for preprocessing text data by removing HTML, URLs, numbers, stopwords, and stemming/lemmatizing words. Finally, it shows code for vectorizing text data using TF-IDF after preprocessing.

Original Description:

code

Copyright

Available Formats

RTF, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as RTF, PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as rtf, pdf, or txt

0% found this document useful (0 votes)

7 views2 pages

Code

Uploaded by

amiea.purchase

Copyright:

Available Formats

Download as RTF, PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as rtf, pdf, or txt

Jump to Page

You are on page 1of 2

Search inside document

Code 1: libraries

# Basi libraries to manipulate data

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Libraries for text mining

import nltk
from nltk.tokenize import RegexpTokenizer
from nltk.stem import WordNetLemmatizer,PorterStemmer
from nltk.corpus import stopwords
import re
from collections import Counter
from wordcloud import WordCloud
from ast import literal_eval
from textblob import TextBlob #sentiment
from PIL import Image
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')

# Libraries for predictive models

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC, LinearSVC, NuSVC
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.linear_model import LinearRegression

Code 2: text cleaning

# Lowercase conversion, HTML tag removal, URL removal, digit removal,
# tokenization, stopword removal, stemming, and lemmatization.

def preprocess(sentence):
sentence=str(sentence)
sentence = sentence.lower()
sentence = sentence.replace('{html}',"")
cleanr = re.compile('<.*?>')
cleantext = re.sub(cleanr, '', sentence)
rem_url = re.sub(r'http\S+', '',cleantext)
rem_num = re.sub('[0-9]+', '', rem_url)
tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(rem_num)
filtered_words = [w for w in tokens if len(w) > 2 if not w in stopwords.words('english')]
stem_words = [PorterStemmer().stem(w) for w in filtered_words]
lemma_words=[WordNetLemmatizer().lemmatize(w) for w in stem_words]
return " ".join(filtered_words)

Code 3:
tokenizer = RegexpTokenizer(r'\w+')
vectorizer = TfidfVectorizer(ngram_range=(1, 2), tokenizer=tokenizer.tokenize)
full_text = list(x_train.values) + list(x_valid.values)
vectorizer.fit(full_text)
train_vectorized = vectorizer.transform(x_train)
test_vectorized = vectorizer.transform(x_valid)

Deep Learning TensorFlow and Keras
Document454 pages
Deep Learning TensorFlow and Keras
Zakaria Allito
No ratings yet
House Price Prediction: Project Description
Document11 pages
House Price Prediction: Project Description
POLURU SUMANTH NAIDU STUDENT - CSE
No ratings yet
ResNet 50 CNN Transfer Learning With CIFAR 10 Dataset
Document2 pages
ResNet 50 CNN Transfer Learning With CIFAR 10 Dataset
Jaydev Raval
100% (1)
Tutorial Pytorch Best Commands
Document8 pages
Tutorial Pytorch Best Commands
Ronaldo Benitez
No ratings yet
Source Code
Document21 pages
Source Code
Kresna Pandu
No ratings yet
Python Project
Document2 pages
Python Project
bebshnnsjs
No ratings yet
Amazon-Fine-Food-Review - K-Means, Agglomerative & DBSCAN Clustering
Document79 pages
Amazon-Fine-Food-Review - K-Means, Agglomerative & DBSCAN Clustering
krishna
No ratings yet
7-Iris Species Classification and Naïve Bayes-NLP-SP22
Document3 pages
7-Iris Species Classification and Naïve Bayes-NLP-SP22
Crypto Genius
No ratings yet
6 - Text Vectorization-CSC688-SP22
Document5 pages
6 - Text Vectorization-CSC688-SP22
Crypto Genius
No ratings yet
AI Phash3
Document11 pages
AI Phash3
techusama4
No ratings yet
Week7 N9
Document2 pages
Week7 N9
20131A05N9 SRUTHIK THOKALA
No ratings yet
PR 7
Document12 pages
PR 7
prathamesh g
No ratings yet
Bitcoin Price Prediction Using Machine Learning in Python
Document2 pages
Bitcoin Price Prediction Using Machine Learning in Python
Yitayewamlak Arega
No ratings yet
Deep Learning R18 Jntuh Lab Manual
Document21 pages
Deep Learning R18 Jntuh Lab Manual
nphotographer99
No ratings yet
Tiktok Review Finale
Document27 pages
Tiktok Review Finale
ANIS NABIHAH BINTI MOHD JAIS
No ratings yet
Pattern
Document1 page
Pattern
ahmadkhalil
No ratings yet
Aped For Fake News
Document6 pages
Aped For Fake News
Bless Co
No ratings yet
Talking Avatar Application
Document9 pages
Talking Avatar Application
labnexaplan9
No ratings yet
Lab Manual
Document100 pages
Lab Manual
aleesakhan28
No ratings yet
SwellHEV Assignment
Document2 pages
SwellHEV Assignment
Abdulrhman Alshameri
No ratings yet
7 Aiml
Document4 pages
7 Aiml
bharath vaj
No ratings yet
CV Lab 4 Muhammad Umer Siddiq
Document6 pages
CV Lab 4 Muhammad Umer Siddiq
hik um
No ratings yet
Dokumen - Pub - Natural Language Processing Practical Using Transformers With Python
Document275 pages
Dokumen - Pub - Natural Language Processing Practical Using Transformers With Python
RAZ
No ratings yet
60 ChatGPT Prompts For Data Science 2023
Document67 pages
60 ChatGPT Prompts For Data Science 2023
T L
100% (2)
Lab 8 - Text Visualization
Document2 pages
Lab 8 - Text Visualization
Nalesh Anansha
No ratings yet
DL Lab Ex - No.5
Document2 pages
DL Lab Ex - No.5
21jr1a43d1
No ratings yet
Experiment No 6
Document2 pages
Experiment No 6
Shubham Baikar
No ratings yet
Assignment 01
Document7 pages
Assignment 01
Muhammad Husnain
No ratings yet
Ohkkwell
Document1 page
Ohkkwell
shivkumar620400
No ratings yet
Model Evaluation and Selection Cheatsheet 1708023215
Document7 pages
Model Evaluation and Selection Cheatsheet 1708023215
felipe.burneo.posavac
No ratings yet
DL Programs
Document12 pages
DL Programs
Madhubala J
No ratings yet
H7 W5 NLP - Merged
Document17 pages
H7 W5 NLP - Merged
Sanathan
No ratings yet
Deep Learning Lab Manual
Document19 pages
Deep Learning Lab Manual
doreamon2619
100% (1)
NN & DL Lab Manual 1-1
Document23 pages
NN & DL Lab Manual 1-1
samueljason733
No ratings yet
Deep Learning Lab
Document20 pages
Deep Learning Lab
6005 Saraswathi. B
No ratings yet
Scikit Learn
Document25 pages
Scikit Learn
aslamzohaib
No ratings yet
Anaconda
Document2 pages
Anaconda
Raze
No ratings yet
Machine Learning
Document22 pages
Machine Learning
tina
No ratings yet
Ccs369 - Text and Speech Analysis - Lab Manual
Document23 pages
Ccs369 - Text and Speech Analysis - Lab Manual
I yr IT 10-Cherisha S
No ratings yet
R Language 1
Document12 pages
R Language 1
vikneshraj2004
No ratings yet
NLP Lab Manual
Document15 pages
NLP Lab Manual
shalima
No ratings yet
Efficient Python Tricks and Tools For Data Scientists - by Khuyen Tran
Document20 pages
Efficient Python Tricks and Tools For Data Scientists - by Khuyen Tran
Khagen
No ratings yet
Efficient Python Tricks and Tools For Data Scientists
Document20 pages
Efficient Python Tricks and Tools For Data Scientists
Javier Velandia
100% (1)
ML 1
Document22 pages
ML 1
irfanasif235
No ratings yet
NLP - Cheatsheet
Document10 pages
NLP - Cheatsheet
ADITYA MANWATKAR
No ratings yet
ASTW RA03 PracticalManual
Document18 pages
ASTW RA03 PracticalManual
Diksha Nasa
No ratings yet
Script
Document12 pages
Script
aryasurve1210
No ratings yet
Programming Questions
Document5 pages
Programming Questions
Hari Sree. M
No ratings yet
Week13 N9
Document3 pages
Week13 N9
20131A05N9 SRUTHIK THOKALA
No ratings yet
Scikit Hca
Document8 pages
Scikit Hca
hade.bisns
No ratings yet
Model Diagram:: A Neural Network For SGD Algorithm
Document8 pages
Model Diagram:: A Neural Network For SGD Algorithm
m malik
No ratings yet
Adv ML Lab Record
Document36 pages
Adv ML Lab Record
21131A4232 CHUKKALA PRUDHVI RAJ
No ratings yet
Developing Application Steps
Document1 page
Developing Application Steps
likhithaj76
No ratings yet
PML KNN
Document9 pages
PML KNN
Jasmitha B
No ratings yet
Finance
Document1 page
Finance
ahmadkhalil
No ratings yet
Combine PDF
Document124 pages
Combine PDF
rsdhiva22
No ratings yet
1 - Serialization - Django REST Framework
Document10 pages
1 - Serialization - Django REST Framework
Prince Takyi Arthur
No ratings yet
Steps To Use Pytorch
Document2 pages
Steps To Use Pytorch
Andrew mill
No ratings yet
Machine Learning
Document15 pages
Machine Learning
5177RAJU
No ratings yet
Mastering Python
From Everand
Mastering Python
Rick van Hattem
No ratings yet