Download as txt, pdf, or txt
Download as txt, pdf, or txt
You are on page 1of 1

DATA Cleaning in Pandas

Dùng để xóa các dữ liệu bị trùng lặp trong bộ data


"drop_duplicates"

Xóa các kí tự đặc biệt hoặc dư thừa trong bộ data


ls là ở đầu phần chữ
rs là ở cuối phần chữ
s dùng cho tất cả trong chuỗi
Data['tên_cột'].str.lstrip("...") xóa ... ở trước
Data['tên_cột'].str.lstrip("/") xóa / ở trước
Data['tên_cột'].str.rstrip("_") xóa _ ở sau
hoặc dùng
Data['tên_cột'].str.strip("123._/") dùng để xóa tất cả kí tự trong cột này
Lưu ý
không được dùng
Data['tên_cột'].str.lstrip(["..." ,"_"])

Xóa các chữ cái a-z , A-Z , 0-9 hoặc ^


df['tên_cột'].str.replace('[^a-zA-Z0-9]' , '')

dùng để chuyển các giá trị trong DATA frame đang là oblect về "str"
data["Ten_Cột"].apply(lambda x : str(x))
hoặc
data['Cột_A'] = data['Cột_A'].astype(str)

để định dạng như só điện thoại hoặc chuyển hóa một cái gì đó về một kiểu có dấu -
khi 3 số
data["Tên_cột"].apply(lambda x : x[0:3] + '-' + x[3:6] + '-' + [6:10])
nhưng trong trường hợp Na thì nó sẽ thêm Na--
thì mình dùng
data['Tên_cột'].str.replace('nan--','')
dùng để xóa nan-- và thay bằng ''

split để tách một chuỗi dài thành từng phần


vd name = ['Pham van linh'] => result name = ['Phạm' , 'Văn' , 'Linh']
khi dùng name.split(", ")

You might also like