TH KhamPhaDL

THỰC HÀNH KHÁM PHÁ DỮ LIỆU
Các thư viện sử dụng
import pandas as pd
import numpy as np
I. Cách đọc dữ liệu trong Pandas Python
1. Cách đọc dữ liệu từ một file CSV
pd.read_csv(filename)
2. Cách đọc dữ liệu từ một file TSV
pd.read_table(filename)
3. Cách đọc dữ liệu từ một file Excel
pd.read_excel(filename)
II. Cách xuất dữ liệu từ Pandas DataFrame

1. Cách xuất dữ liệu từ DataFrame ra file CSV
df.to_csv(filename)
2. Cách xuất dữ liệu từ DataFrame ra file Excel
df.to_excel(filename)
III. Cách xem và kiểm tra dữ liệu

1. Cách xem n dòng đầu tiên của DataFrame
df.head(n)
2. Cách xem n dòng cuối cùng của DataFrame
df.tail(n)
3. Cách lấy số dòng số cột của DataFrame
df.shape
4. Xem thông tin về Index, kiểu dữ liệu và dung lượng của DataFrame
df.info()
5. Tổng kết thông tin thống kê cho các cột có kiểu dữ liệu là số
df.describe()
IV. Trích xuất một phần dữ liệu trong Pandas DataFrame

1. Trả về một cột của DataFrame dưới dạng Series
df[col] # Trả về cột có label là col như một Series
2. Trả về các cột trong danh sách dưới dạng một DataFrame mới
df[[Col1, Col2]]
3. Chọn dữ liệu theo vị trí

s.iloc[0]
4. Chọn dữ liệu theo index

s.loc['index_one']
5. Chọn dữ liệu ở dòng đầu tiên
df.iloc[0,:]
6. Chọn dữ liệu ở dòng đầu tiên, ô thứ nhất của DataFrame
df.iloc[0,0]
V. Cách làm sạch dữ liệu trong Pandas DataFrame

1. Đổi tên các cột trong DataFrame theo thứ tự
df.columns = ['a','b','c']
2. Kiểm tra dữ liệu với giá trị null

pd.isnull()
3. Kiểm tra dữ liệu với giá trị khác null

pd.notnull()
4. Cách bỏ toàn bộ dòng có dữ liệu null
df.dropna()
5. Cách bỏ toàn bộ cột có dữ liệu null

df.dropna(axis=1)
6. Cách bỏ các dòng có nhiều hơn n giá trị null

df.dropna(axis=1, thresh=n)
7. Cách thay toàn bộ giá trị null bằng giá trị x
s.fillna(s.mean()) #Thay gia tri null trong Series bởi gia tri mean cua cac gia
tri trong Series
8. Cách thay toàn bộ giá trị null bằng giá trị khác
s.replace(1,'one') # Thay tat ca cac gia tri bang 1 bởi one
9. Cách thay giá trị này bởi giá trị khác

s.replace(1,'one')
10. Cách thay nhiều giá trị cùng lúc

s.replace([1,3],['one','three'])
11. Cách đổi tên cột cụ thể trong DataFrame

df.rename(columns={'old_name': 'new_ name'})
12. Cách đổi index trong DataFrame

df.set_index('column_one')
VI. Cách lọc, sắp xếp, nhóm dữ liệu trong Pandas DataFrame
1. Lọc dữ liệu theo điều kiện
df[ df[col] > 5 ] # Loc ra cac dong thoa man đieu kien col lởn hởn 5
# Lọc ra các dòng thỏa mãn điều kiện: có giá trị cột col trong khoảng 100 đến 200
df[ df[col] > 100 & df[col] < 200 ]

2. Sắp xếp dữ liệu
# Sắp xếp dữ liệu trong cột col1 theo chiều thuận (ascending)
df.sort_values(col1)
# Sắp xếp dữ liệu trong cột col2 theo chiều nghịch (descending)
df.sort_values(col2, ascending=False)
# Sắp xếp col1 theo chiều thuận và col2 theo chiều nghịch
df.sort_values([col1,col2],ascending=[True,False])
3. Tính mean của tất cả các cột

df.apply(np.mean)
4. Tính max mỗi dòng
#Áp dụng hàm np.max() cho mỗi dòng dữ liệu
df.apply(np.max,axis=1)
VII. Nối dữ liệu, gộp dữ liệu bằng Pandas DataFrame

o
1. Nối dữ liệu DataFrame theo chiều dọc
Nối các dòng của df1 xuống dưới df2 (Số lượng các cột trong 2 DataFrames này phải
giống nhau)
df1.append(df2)
2. Nối dữ liệu DataFrame theo chiều ngang
#Nối các cột của df1 sang phải các cột của df2 (Số lượng các dòng trong 2 DataFrames
này phải giống nhau)
pd.concat([df1, df2],axis=1)
VIII. Thống kê dữ liệu bằng Pandas DataFrame

o
1. Thống kê dữ liệu cho các cột số
df.describe()
2. Tính mean cho tất cả các cột
df.mean()
3. Tính correlation giữa các cột
df.corr()
4. Đếm số giá trị không null cho các cột
df.count()
5. Tìm giá trị lớn nhất cho mỗi cột
df.max()
6. Tìm giá trị nhỏ nhất cho mỗi cột
df.min()
7. Tìm giá trị median cho mỗi cột
df.median()
8. Tìm giá trị độ lệch tiêu chuẩn cho mỗi cột
df.std()

TH KhamPhaDL

Uploaded by

Copyright:

Available Formats

You might also like

TH KhamPhaDL

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

TH KhamPhaDL

Uploaded by

Copyright:

Available Formats

THỰC HÀNH KHÁM PHÁ DỮ LIỆU

Các thư viện sử dụng

I. Cách đọc dữ liệu trong Pandas Python

1. Cách đọc dữ liệu từ một file CSV

2. Cách đọc dữ liệu từ một file TSV

3. Cách đọc dữ liệu từ một file Excel

II. Cách xuất dữ liệu từ Pandas DataFrame

2. Cách xuất dữ liệu từ DataFrame ra file Excel

III. Cách xem và kiểm tra dữ liệu

2. Cách xem n dòng cuối cùng của DataFrame

3. Cách lấy số dòng số cột của DataFrame

IV. Trích xuất một phần dữ liệu trong Pandas DataFrame

df[col] # Trả về cột có label là col như một Series

3. Chọn dữ liệu theo vị trí

4. Chọn dữ liệu theo index

5. Chọn dữ liệu ở dòng đầu tiên

6. Chọn dữ liệu ở dòng đầu tiên, ô thứ nhất của DataFrame

V. Cách làm sạch dữ liệu trong Pandas DataFrame

2. Kiểm tra dữ liệu với giá trị null

3. Kiểm tra dữ liệu với giá trị khác null

5. Cách bỏ toàn bộ cột có dữ liệu null

6. Cách bỏ các dòng có nhiều hơn n giá trị null

7. Cách thay toàn bộ giá trị null bằng giá trị x

s.replace(1,'one') # Thay tat ca cac gia tri bang 1 bởi one

9. Cách thay giá trị này bởi giá trị khác

10. Cách thay nhiều giá trị cùng lúc

11. Cách đổi tên cột cụ thể trong DataFrame

12. Cách đổi index trong DataFrame

df[ df[col] > 100 & df[col] < 200 ]

3. Tính mean của tất cả các cột

4. Tính max mỗi dòng

#Áp dụng hàm np.max() cho mỗi dòng dữ liệu

VII. Nối dữ liệu, gộp dữ liệu bằng Pandas DataFrame

2. Nối dữ liệu DataFrame theo chiều ngang

VIII. Thống kê dữ liệu bằng Pandas DataFrame

2. Tính mean cho tất cả các cột

3. Tính correlation giữa các cột

4. Đếm số giá trị không null cho các cột

5. Tìm giá trị lớn nhất cho mỗi cột

6. Tìm giá trị nhỏ nhất cho mỗi cột

7. Tìm giá trị median cho mỗi cột

8. Tìm giá trị độ lệch tiêu chuẩn cho mỗi cột

You might also like