Professional Documents
Culture Documents
Bài Toán Phân Lo I
Bài Toán Phân Lo I
Bài Toán Phân Lo I
Tiếp theo, ta cần phải chọn cách biểu diễn nhãn. Ta có hai cách làm hiển nhiên.
Cách tự nhiên nhất có lẽ là chọn y∈{1,2,3}
lần lượt ứng với {chó, mèo, gà}. Đây là một cách lưu trữ thông tin tuyệt vời trên
máy tính. Nếu các danh mục có một thứ tự tự nhiên giữa chúng, chẳng hạn như {trẻ sơ
sinh, trẻ tập đi, thiếu niên, thanh niên, người trưởng thành, người cao tuổi}, sẽ
là tự nhiên hơn nếu coi bài toán này là một bài toán hồi quy và nhãn sẽ được giữ
nguyên dưới dạng số.
Nhưng nhìn chung các lớp của bài toán phân loại không tuân theo một trật tự tự
nhiên nào. May mắn thay, các nhà thông kê từ lâu đã tìm ra một cách đơn giản để có
thể biểu diễn dữ liệu danh mục: biểu diễn one-hot. Biểu diễn one-hot là một vector
với số lượng thành phần bằng số danh mục mà ta có. Thành phần tương ứng với từng
danh mục cụ thể sẽ được gán giá trị 1 và tất cả các thành phần khác sẽ được gán giá
trị 0.
(3.4.1)
y∈{(1,0,0),(0,1,0),(0,0,1)}.