NguyenThiThuHa TKNC

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 25

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

KHOA TOÁN – CƠ – TIN – HỌC

Phân tích thống kê nhiều chiều

BÀI TẬP PHÂN TÍCH PHÂN LỚP VÀ PHÂN BIỆT

Sinh viên

Nguyễn Thị Thu Hà

K63A4 Máy tính và Khoa học thông tin

Mã sinh viên: 18001122

1
I. Mở đầu và đặt bài toán

Tiến hành phân loại là một trong những nhiệm vụ cơ bản của khoa học để đưa thế giới
về trật tự. Và mục đích của phân loại là xác định xem một đối tượng quan sát được sẽ
xếp vào lớp nào. Như vậy cho tập hợp n đối tượng và các quan sát định tính của
chúng, ta đòi hỏi tạo chúng thành các nhóm dựa trên tính tương đồng nội tại. Chủ đề
của phân loại là rất rộng và chúng ta chỉ giới hạn ở những vấn đề mà các nhà thống kê
có thể đóng góp. Các nhà phân loại có trong tay các số liệu không thuộc kiểu thống
kê: các nhà động vật học ghi lại tiến trình phát triển của loài vật, các nhà ngôn ngữ
học có các kiến thức về sự di dời của cư dân ảnh hưởng đến việc phân loại của ngôn
ngữ nhân loại ... Tuy nhiên chúng ta không để cập trực tiếp đến những rằng buộc xa lạ
này trong quá trình phân loại, mặc dù nó cần được đưa vào khi giải thích thực tế. Mục
tiêu chúng ta chỉ đơn thuần là: dựa trên quan sát p dấu hiệu U1, U2, Up, của một cá thể
hoặc một đối tượng, cần phải xác định xem đổi tượng hoặc có thể đó thuộc vào 1
trong k nhóm xác định nào. Chẳng hạn một nhà sinh học dựa trên quan sát p dấu hiệu
của một đối tượng sinh học, ông ta cần phải liệt đối tượng đó thuộc vào 1 trong k loại
sinh vật nào để đổi lại đối thiết là giữa chúng chẳng nói ra trúc nào cả.

Khác với việc phân loại là phân tích phân biệt. Phân tích phân biệt là một kỹ thuật
phân tích sử dụng cho việc phân biệt giữa các lớp. Chúng ta biết trước có hai quần thể
A và B tồn tại và ta có một mẫu ngẫu nhiên từ đặc trưng nào đó của các cá thể. Ngoài
ra ta cũng có một mẫu biết chắc chắn là lấy từ A còn một mẫu khác biết chắc là lấy từ
B. Ta muốn đưa ra quy tắc để xếp một cá thể, mà ta chưa chắc chắn thuộc loại nào
(nhưng biết chắc là thuộc một trong hai loại trên), vào loại A hay loại B. Mong muốn
chúng ta là quy tắc này tối ưu theo một nghĩa nào đó chẳng hạn là càng ít ai lầm càng
tốt hoặc giá (trung bình) phải trả cho các sai lầm là thấp. Sự phân tích phân biệt
thường được sử dụng trong trường hợp mất thông tin (chẳng hạn phân loại giới tính
của các ngôi mộ cổ); không nhận được đủ thông tin, dự đoán ...

II. Phân tích phân biệt

Ký hiệu U là số đo của p dấu hiệu của một đối tượng và S là không gian mẫu –tức là
tập hợp các giá trị có thể có của U (S ⊂ Rp). Trên cơ sở số đo U, ta phải xác định xem
đối tượng quan sát thuộc vào nhóm 1,2,... hoặc nhóm k

1. Quy tắc phân biệt không ngẫu nhiên

Chia không gian S thành k miền rời nhau W1, ..., Wk, và quy tắc phân biệt của ta là:

 Coi đối tượng thuộc nhóm i nếu U ϵ W i (i=1÷ k ) .

2
 Điều đó tương đương với việc xác định quy tắc phân biệt δ (U ) ϵ { 1 , 2, … , k } với
k
δ (U )=i coi đối tượng thuộc nhóm i, hàm δ (U ) có dạng δ (U )=∑ i I W ( U ) ,trong i
i=1

đó I A ký hiệu hàm chỉ tiêu của A.


2. Quy tắc phân biệt ngẫu nhiên
k
Xác định k hàm không âm λ 1 ( U ) , … , λk ( U ) sao cho ∑ λi (U )=1. Khi đó quy tắc phân
i=1

biệt ngẫu nhiên là:

 Coi đối tượng thuộc nhóm i với xác suất là λ i ( U ) .


 Ký hiệu λ=( λ ¿ ¿ i (U ) , … , λ k ( U ))¿là quy tắc ngẫu nhiên. Rõ ràng quy tắc không
ngẫu nhiên là trường hợp đặc biệt của quy tắc ngẫu nhiên khi λ i ( U ) chỉ nhận giá
trị 0 hoặc 1, chẳng hạn

λ i ( U ) =I W ( U )
i

3. Hàm tổn thất

Giả sử P1(u), …, Pk(u) là mật độ xác suất của U (khi U có mật độ) hoặc là xác suất để
U nhận giá trị u (khi U rời rạc) khi cá thể thuộc vào nhóm 1 ,... , k .

Ký hiệu rij là tổn thất gây ra khi liệt cá thể thuộc nhóm i vào nhóm j . Bây giờ ta hãy
xét quy tắc phân biệt không ngẫu nhiên xác định bởi quy tắc phân biệt
δ (U ) ϵ { 1 , 2, … , k } xác định trong phần 1.

Nếu đối tượng thuộc nhóm i và quy tắc quyết định là δ (U ) thì tổn thất trung bình sẽ là:
k k
Lδi = Er =∑ r ij Pi { δ ( U ) = j } =¿ ∑ r ij Pi (W i)¿
iδ (U )
j=1 j=1

k (1)
Li =∑ r ij ∫ Pi (u) ⅆu =r i 1∫ Pi (u) ⅆu +…+r ik∫ P i (u) ⅆu
δ

j=1 wj w1 wk

(Nếu U rời rạc ta thay tích phân bởi tổng).

Nếu quy tắc phân biệt ngẫu nhiên xác định bởi các xác suất λ 1 ( U ) , … , λk ( U ) thì tổn thất
khi ta áp dụng quy tắc đó là:
Li (U )=r i 1 λ1 (U ) +…+r ik λk ( U )

Còn tổn thất trung bình khi đó sẽ là:


Li =E Li ( U )= ∫ [ r i 1 λ 1 ( u ) + …+r ik λ k ( u ) ] Pi ( u ) du .
λ
(2)
Như vậy véc-tơ tổn thất

(3)
3
δ δ λ λ
(L1 , … , Lk ) hoặc (L1 , … , L k )

đặc trưng cho chất lượng của quy tắc quyết định sự lựa chọn.
Cho hai quy tắc lựa chọn δ 1 , δ 2 với véc-tơ tổn thất tương ứng là:
δ1 δ1 δ2 δ2
(L1 , … , Lk ) hoặc (L1 , … , Lk )

Rõ ràng δ 1 là tốt hơn δ 2nếu:


δ1 δ2
Li ≤ Li , ∀ i=1 ,… ,k (4)
và với ít nhất một i : Liδ < Liδ . Nếu đẳng thức trong (4) xảy ra ∀ i=1÷ k thì ta nói rằng
1 2

hai quy tắc δ 1 , δ 2 là tương đương theo định nghĩa trên về tính tốt (≤) của các quy tắc
quyết định. Ta thấy lớp các quy tắc quyết định là lớp được sắp từng phần. Bằng cách
tương tự, ta cũng có thể sắp thứ tự của các quy tắc phân biệt ngẫu nhiên.
 Quy tắc phân biệt chấp nhận được
Quy tắc phân biệt δ hoặc λ gọi là quy tắc chấp nhận được nếu không tồn tại quy tắc
nào khác tốt hơn nó.
4. Quy tắc phân biệt Bayes

Giả sử π 1 ,… , π k là xác suất tiên nghiệm của nhóm 1 , 2, ... , k . Nói khác đi là một đối
tượng được quan sát sẽ thuộc nhóm i với xác suất π i. Trên thực tế, các xác suất π i
được thay bởi tần suất của các cá thể đã được quan sát trước đây thuộc nhóm i. Trong
trường hợp như vậy giá trị trung bình của tổn thất sẽ là:
δ δ δ δ
L =π 1 L1 + π 2 L2 + …+ π k Lk (5)

Đối với quy tắc phân biệt không ngẫu nhiên δ (U ) xác định trong mục 1 ta có:
k
Lδ =∑ ∫ [ π 1 r j 1 P1 (u )+ …+ π k r k 1 P k ( u ) ] du .
j=1 w j

¿−∫ S 1 ⅆu −∫ S 2 ⅆu −…−∫ S k ⅆu
w1 w2 wk
(6)
Trong đó:
S j ( u )=−¿
(7)
được gọi thông tin phân biệt thứ j .
Với quy tắc phân biệt ngẫu nhiên ( λ 1 ( U ) , … , λk ( U ) ¿ kỳ vọng toán của tổn thất có dạng:

[∑ ]
k
L =−∫λ
λ i ( u ) S i ( u ) ⅆu
w1 i=1
(8)

4
¿ ¿ ¿
Định lý 1. Giả sử w 1 , … , w k là các miền rời nhau và ¿ 1 ¿ k wi =S sao cho:
¿
u ϵ W i ⇔ S i ( u ) =max S i ( u )
0 ≤ j≤ k (9)
Khi đó kỳ vọng toán của tổn thất của quy tắc phân biệt không ngẫu nhiên tỉnh theo
¿
(6), (7) là nhỏ nhất khiw i được thay bởi W i ,i=1 ÷ k
¿ ¿
Chứng minh. Ký hiệu L là trung bình của tổn thất ứng với các miền W 1 , … , W k xác
định bởi (9). Khi đó:
k k

∑ 1 w ( u ) S i ( u )=¿ 0max
¿
i
≤j≤k
S i ( u ) ≥ ∑ 1w ( u ) S i ( u ) ¿ i
(10)
i=1 i=1

Lấy tích phân hai vế của (10), ta được :


k k

∑ ∫ 1 w ( u ) S i ( u ) ⅆu ≥ ∑ ∫ 1 w ( u ) S i ( u ) ⅆu
¿
i i
i=1 S i=1 S

Hoặc:
k k

∑ ∫ S i ( u ) ⅆu ≥ ∑ ∫ Si ( u ) ⅆu ⇔ Lδ ≤ Lδ
¿

i=1 w ¿i i=1 wi

 Điều phải chứng minh.


Định lý 2. Đối với quy tắc phân biệt ngẫu nhiên, ta đặt:
¿ ¿
λ i =1 , λ j ( u )=0 ∀ j ≠i nếu S i ( u ) >S j ( u ) ∀ j≠ i

Nếu S i1 ( u )=…=Si > Si ( u ) ≥ … ≥ Sik ( u )


r r +1

k
λ i =…=λ i =0 còn λi , … , λi có thể chọn tùy ý sao cho ∑ λ¿i ( u ) =1
¿ ¿ ¿ ¿
r+1 k 1 r j
i=1

Khi đó L¿ ≤ Lλ , ∀ λ k há c .
Chứng minh. Thật vậy, ta có
k k

∑ λ¿i (u)S i ( u )=max


0 ≤ j ≤k
S i (u ) ≥ ∑ λ i ( u ) Si ( u ) ∀ λ=( λ1 , … , λk )
i=1 i=1

k
sao cho ∑ λ ¿i (u).Vì vậy
i=1

k k
−∫ ∑ λ (u) S i ( u ) du ≤−¿∫ ∑ λi ( u ) S i ( u ) du ⇔ Lλ ≤ Lλ ¿
¿
¿
i
S i=1 S i=1

 Điều phải chứng minh.


Các quy tắc phân biệt δ ¿ và λ ¿ xác định trong định lý 1, 2 được gọi là các quy tắc quyết
định Bayes đối với phân bố tiên nghiệm π=(π ¿ ¿ 1 ,… , π k )¿ .

5
5. Quy tắc phân biệt khi U có phân bố chuẩn N p ( μ , A )

Giả sử nếu cá thể thuộc nhóm thứ i thì dấu hiệu U =U 1 … ,U p của nó có phân bố chuẩn
N p ( μi , A i ) ; i=1 , … , k . Khi đó:

−1 /2
Pi ( u )=( 2 π )− p /2|A i| exp {−12 (U−μ ) A
i
T −1
i ( u−μi ) }
Do đó khi r ii =0 , r ij =1 , với i ≠ j ta có
~
Si ( U )=ln ⁡¿ ¿
(11)
~
Nếu ma trận phương sai Ai ≡ A thì gọi mọi Si ( U ) đều chứa một số hạng giống nhau
−1 p 1 T −1
ln | A|− ln 2 π − U A U .
2 2 2
~
Do đó ta có thể thay thông tin phân biệt Si bởi
~ T −1 1 T −1
Si ( u )=μ i A U − μi A μi +ln π i ,i=1 ÷ k (12)
2

là hàm tuyến tính đối với U. Hàm (12) được gọi là hàm phân biệt tuyến tính.
Trong trường hợp này, ta sẽ liệt cá thể vào nhóm thứ i nếu Si (U ) là lớn nhất. Ta hãy
xét trường hợp khi k =2, tức là ta cần phải liệt kê cá thể có dấu hiệu U vào nhóm 1
hoặc 2.

Đặt L ( U )=S1 ( U )−S 2 ( U )

¿ ( μT1 −μT2 ) A−1 U−



2 [
1 T −1
( μ1 A μ1−μT2 A−1 μ2 )+ ln π 2−ln π 1 ]
C (C làhằng số )

¿ ( μT1 −μT2 ) A−1 U−C

Khi đó ta có thể thay L ( U ) bởi

L(U )=( μ T1 −μ T2 ) A−1 U

Và ta sẽ liệt cá thể vào nhóm 1 khi và chỉ khi L ( U ) ≥ C .

Ví dụ 1: (Rao và Slater-1949). Xét việc phân biệt trạng thái thần kinh của một người
dựa trên các số đo về 3 dấu hiệu tâm thần U 1 , U 2 , U 3 . Sau đây là số liệu thống kê dựa
trên việc đo 3 dấu hiệu trên 256 người dưới dạng các trung bình mẫu và ma trận hiệp
phương sai mẫu.

Cỡ mẫu Véc tơ trung bình mẫu của các nhóm


Các nhóm (i)
u1
(i)
u2
(i)
u3

6
1- Tâm thần bất an 114 2.9298 1.667 0.7281
2- Bị điên 33 3.0303 1.2424 0.5455
3- Bệnh thái nhân cách 32 3.8125 1.8438 0.8125
4- Bệnh hoang tưởng 17 4.7059 1.5882 1.1176
5- Thay đổi cá tính 5 1.4000 0.2000 0.0000
6- Trạng thái bình thường 55 0.6000 0.1455 0.2182
Bảng 1

Ma trận hiệp phương sai mẫu Nghịch đảo của ma trận hiệp phương sai
S=(sij ) mẫu S−1 =(s¿¿ ij) ¿

N −¿ ¿ 0 1 2 3 N −¿ ¿ 0 1 2 3

1 2.3008 0.2516 0.4742 1 0.5432 -0.2002 -0.4208


2 0.2516 0.6075 0.0358 2 -0.2002 1.7258 0.0558
3 0.4742 0.0358 0.5951 3 -0.4208 0.00558 2.0123

Bảng 2

Giả sử phân bố xác suất Pi (u) của các dấu hiệu U có phân bố chuẩn N 3 (μi , A ). Khi đó
~ (i)
μi =u ; S là ước lượng không chệch của μi và A, còn hàm thông tin phân biệt (12)
được thay bởi

^Si ( u )=u(i)T S−1 U− 1 u (i) S−1 u(i )T + ln π i (14)


2

với π i được thay bởi tần xuất của nhóm i.

Nếu đặt uT =( u1 , u2 , u3) là trung bình mẫu của nhóm và đặt

l (i)T =( l1(i) ,l (2i) ,l (3i) ) =u(i)T S−1 (15)

Khi đó
(16)

(i ) 11 (i ) 12 ( i ) 13 (i) (i ) 21 (i) 22 (i) 23 (i ) (i ) 31 ( i ) 32 (i) 33 (i )


l 1 =s u1 + s u2 +s u3 l 2 =s u1 + s u 2 + s u3 l 1 =s u1 + s u 2 + s u3

Khi đó hàm thông tin phân biệt thực nghiệm ^Si ( U ) có dạng:

^Si ( U )=l (1i) U 1+l (2i) U 2+l (3i) U 3− 1 ( l (1i) u (1i )+l (2i ) u (2i) +l (3i ) u(3i) ) + ln π i , i=1÷ 6 (17)
2

7
3
1
Bảng 3 cho ta giá trị của các đại lượng l , l , l , ∑ l j u j và
(i ) (i )
(i ) (i ) (i )
1 2 3
2 j =1

1 (i) (i ) ( i) (i ) ( i) (i)
ln π i− ( l u +l u +l u )
2 1 1 2 2 3 3
3 3
1 1
(i ) (i ) (i )

2 j=1
l (ji ) u(ji) ln π i− ∑
2 j=1
l (ji) u (ji)
Các nhóm l1 l2 l1

1- Tâm thần bất an 0.9513 2.3310 0.3253 3.4549 -4.2639


2- Bị điên 1.1678 1.5678 -0.1081 2.7139 -4.7626
3- Bệnh thái nhân cách 1.3599 2.4641 0.1336 4.9182 -6.9977
4- Bệnh hoang tưởng 1.7680 1.8611 0.3571 5.8375 -8.5495
5- Thay đổi cá tính 0.7204 0.0649 -0.5780 0.5107 -4.4465
6- Tâm thần bình thường 0.2050 0.1431 0.1947 0.0931 -1.6311
Bảng 6.3.

Với chú ý rằng

π 1=144 :256=0.4453π 2=33 :256=0.1289π 3=32 :256=0.1250π 4 =17 :256=0.0664


π 5=5 :256=0.0195π 6=55 :256=0.2148

Bây giờ giả sử quan sát một đối tượng mới, ta thấy
U 1=0.8201; U 2 =1.6 ; U 3=0.68

Khi đó các hàm thông tin phân biệt ^Si ( U ) ,i=1÷ 6 sẽ là

^S1=0.4671; ^S2=−1.3699; S^ 3 =−1.8490 ^S4 =−3.8790 ; S^ 5=−4.1449 ; S^ 6=−1.1016

^ ^ ^ ^
Như vậy S1=max
1 ≤ i≤ 6
S i> S 2 , … , S6 . Do đó ta cần phải liệt cá thể vào nhóm I: tâm thần bất

an.

Để đánh giá hiệu quả của phương pháp phân tích phân biệt ta cần xác định tỷ lệ phân
biệt lỗi:

Giả sử ta có n số liệu quan sát về dấu hiệu U của các cá thể đã biết thuộc vào một
trong K lớp các cá thể L1 , L2 , … , Lk và lớp Li chứa ni cá thể, i=1 ÷ k ;
n1 +n 2+ …+nk =n . Ứng với lớp Li, ta có hàm phân biệt Si (u), i=1 ÷ k . Dựa trên các hàm
Si (u) ta tiến hành định vị cá thể ứng với dấu hiệu U i , j=1 , 2 ,... , n. Nếu cá thể đó trên
thực tế đang thuộc lớp thứ i mà dựa trên các hàm phân biệt S1 ( u ) , … , S k (u) , ta phân cá
thể đó vào lớp thứ l ≠i thì đó là một sự phân biệt lỗi, khi đó tỷ lệ m/n cho ta thông tin

8
về chất lượng của quy tắc phân biệt (định vị) đã được xây dựng. trong đó m là số lần
phân biệt bị lỗi.

III. Phân tích phân lớp

Việc phân lớp dựa trên sự hiểu biết về bản chất của các mối quan hệ xác định bởi
nhiều biến mô tả trạng thái của các đối tượng và sự vật. Kỹ thuật sẽ được sử dụng
trong phần này dựa trên việc tính các khoảng cách mô tả sự gần nhau của các đối
tượng và ghép dẫn các đối tượng thành các nhóm các đối tượng “gần nhau".

1. Các độ do về sự gần nhau của các đối tượng hoặc các phần tử

Để làm ví dụ ta hãy xét một doanh nghiệp có các biến mô tả tình trạng (trạng thái)
hoạt động của doanh nghiệp đó như sau (ở cuối mỗi thời kỳ: quý, 6 tháng, 1 năm).
x 1 : tỷ số giữa thu nhập và tổng các khoản nợ x 2 : lợi suất = phần lãi/vốn
x 3 : chi phí
x 4 : doanh thu
x 5 : tổng số nhân viên, …

Ký hiệu x=(x ¿ ¿1 , … , x 5)T ¿ hoặc tổng quát hơn x=(x ¿ ¿1 , … , x k )T ¿ là biến trạng thái
của doanh nghiệp. Ta hãy xét hai doanh nghiệp (hai đối tượng) có vec – tơ trạng thái
là x=(x ¿ ¿1 , … , x k )T ¿ , y=( y ¿ ¿ 1 , … , y k )T ¿. Sau đây là các khoảng cách thường dùng để
đo sự “ gần nhau” giữa hai đối tượng:

a) Khoảng cách Euclide


k
d ( x , y )=∑ (x i – y i)2= ( x – y ) (x− y )
2 T
1
i =1

b) Khoảng cách thống kê


2 T
d 2 ( x , y )=( x – y ) A ( x− y )
trong đó A là ma trận đối xứng xác định dương.
c) Khoảng cách Minkowski

( )
k 1

∑|x i− yi|
m m
d 3 ( x , y )= , m=1 , 2, 3 …
i=1

d) Khoảng cách Canberra


k
d 4 ( x , y )=∑ |x i− y i|/( x ¿ ¿ i− y i)¿
i=1

(chỉ xác định cho các x i , y i >0 )

e) Hệ số Czekanowski
k k
d 5=1−2 ∑ min ( x i , y i ) / ∑ (xi + y i )
i=1 i=1

9
(chỉ xác định cho các x i , y i >0 )

Chú thích:

 Hệ số Czekanowski không phải là một khoảng cách thông thường.


 Với các biến nhị phân x i , y i chỉ nhận hai giá trị 0 và 1 thì khoảng cách
d 1 ( x , y )=m=¿ số các cặp ( x i , y i ) sao cho x i ≠ y i. Trong trường hợp này ta đã
không tính đến tầm quan trọng của các cặp 1−1 và 0 – 0 . Đối với các biến nhị
phân hoặc các biến định tính khác người ta thường tính đến trọng số của các
cặp 1 – 1 ; 0 – 0 và thay vì xét (x i – y i)2 ta xét các hệ số sau đây:
T T
+ Xét hai đối tượng có véc tơ trạng thái x=( x 1 , … , x k ) và y=( y 1 , … , y k ) . Ta sẽ
có bảng 4 sau đây về số các cặp ( x i , y i ) nhận giá trị 1−1 ; 1−0 ; 0−1 ; 0−0
+ Khi đó thay vì các khoảng cách d 1−d 5 người ta xét các hệ số đo sự gần nhau
giữa hai phần tử như sau:

Phần tử 1 Tổng số

10
1 ab a+ b
Phần tử 2
0 cd c +d
Tổng số a+ c b +d k =a+ b+c +d
m=c+b=số các cặp 1−0 , 0−1

Bảng 4:

Hệ số Ý nghĩa
1) (a + d)/k Các cặp 1 - 1; 0 - 0 có trong số như nhau
2) 2(a + d)/[2(a + d) + b + c] Các cặp 1 – 1; 0 – 0 có trọng số gấp đôi
3) a/k Tỷ lệ cặp 1 - 1 trên tổng số các cặp
4) (a + d)/[(a + d) + 2(b + c)] Các cặp 1 – 0; 0 – 1 có trọng số gấp đôi
5) a/(a + b + c) Tỷ lệ các cặp 1 – 1 trên tổng số không có cặp 0 - 0
6) 2a/(2a + b + c) Trọng số gấp đôi cho các cặp 1 – 1 không tính đến các
cặp 0 - 0
7) a/(a + 2(b + c)) Trọng số gấp đôi cho các cặp 1 – 0, 0 – 1 không tính đến
các cặp 0 - 0
8) a/(b + c) Tỷ lệ các cặp 1 – 1 trên tổng số các cặp 0 - 1; 1 - 0

10
 Ta có thể xây dựng các hệ số đo sự gần nhau hoặc tương tự với nhau từ các
khoảng cách d(x, y). Chẳng hạn hệ số
1
e ( x , y )= (0<e ≤1)
1+d ( x , y )
Các hệ số tương tự có giá trị càng lớn thì các phần tử càng gần nhau hoặc tương tự với
nhau

 Nếu các thành phần của véc-tơ trạng thái x, y có một số biến định lượng, một
số biến định tính, ta có thể sử dụng tổng các hệ số tương tự cho các thành phần
định lượng và các thành phần định tính hoặc đưa tất cả các biến định tính về
các biến định lượng như trong ví dụ dưới đây:
Ví dụ 2. Tính giá trị của các hệ số tương tự cho các cặp của các phần tử có véc-tơ
trạng thái cho trong bảng 5.
Phần Chiều cao Trọng lượng Màu mắt Màu tóc Thuận tay Giới tính
tử
(inch) (pound)
1 68 140 xanh vàng phải nữ
2 73 185 nâu nâu phải nam
3 67 165 xanh nước biển vàng phải nam
4 64 120 nâu nâu phải nữ
5 76 210 nâu nâu phải nam

1 inch = 2.54 cm. 1 pound = 453.584g (Đơn vị TL Anh, Mỹ)


Bảng 5
Nếu đặt

{
X 1 = 1 , nếu chiều cao ≥ 72inch
0 , nếu chiều cao<72 inch

X ={1 , nếu trọng lượng≥ 150 pound


2
0 , nếu trọnglượng< 150 pound

X ={1 , nếu màu mắt nâu


3
0 , nếu ngược lại

X ={1 ,nếu tóc màuvàng


4
0 ,nếu ngược lại

X ={1 , nếu thuận tay phải;


5
0 , nếu ngược lại .

X ={1 , nếu là nam;


6
0 ,nếu là nữ .

11
Khi đó véc-tơ trạng thái của 5 cá thể trên là:
Cá thể X1 X2 X3 X4 X5 X6
1 0 0 0 1 1 1
2 1 1 1 0 1 0
3 0 1 0 1 1 0
4 0 0 1 0 1 1
5 1 1 1 0 0 0

Hệ số tương tự eij , i, j = 1  5 giữa các cặp cá thể được cho trong bảng dưới đây nếu ta
a+ d a+ d
sử dụng hệ số e= = , trong đó a + d số các cặp ( x i , y i ) là 1- 1; 0 – 0. Ta có
k 6
e 25=5/6 là lớn nhất. Vậy 2 phần tử 1, 2 là gần nhau nhất. e15 = 0 là bé nhất nên phần tử
1 và 5 ít gần nhau nhất. Từ đó nếu phân làm hai lớp thì {2, 5} và {1, 4, 3} sẽ là hai
lớp các phần tử tương tự.

Cá thể 1 2 3 4 5

1 1

2 1/6 1

3 4/6 3/6 1

4 4/6 3/6 2/6 1

5 0 5/6 2/6 2/6 1


Bảng 6
Nếu hai véc-tơ x=(x ¿ ¿1 , … , x k )T ¿ ; y=( y ¿ ¿ 1 , … , y k )T ¿ có các thành phần nhị phân và
số các cặp (xi, yi) nhận các giá trị 1 – 1; 1 – 0; 0 – 1; 0 – 0 cho bởi bảng 4 thì hệ số
tương quan tuyến tính giữa hai véc-tơ đó được cho bởi công thức sau:
ad−bc
r xy= 1
[ ( a+ b ) ( c+ d ) (a+ c)(b +d )] 2

Nếu chúng ta đặt


2 2 2 2
(a−( c +a )( a+b ) / k) (b−(a+b)(c +d )/k ) (c−(c+ a)(c+ d)/ k) (d−(b+ d)(c+ d)/k )
❑2= 2
+ 2
+ 2
+ 2
[ ( c +a )( a+b ) /k ] [(c+ a)( b+d )/k ] [( c+ a)(c +d )/k ] [ ( b+ d ) ( c+ d ) /k ]

12
2
thì ❑ =r và có thể dùng r 2 hoặc ❑2 để kiểm tra tính độc lập giữa hai biến x và y và
2
k
có thể dùng nó để đo mức độ “gần” giữa hai phần tử.
2. Phương pháp phân lớp theo thứ bậc

Ta khó có thể kiểm tra tất cả các cách tách một tổng thể gồm n phần tử thành tất cả
các lớp có thể khi n lớn ngay cả với máy tính lớn nhất và nhanh nhất. Vì vậy ta cố
gắng tìm cách phân lớp một cách hợp lí.

Đầu tiên ta chia tất cả các phần tử thành hai lớp sao cho mỗi phần tử của một nhóm
cách xa các phần tử của nhóm kia, sau đó mỗi lớp con lại phân thành 2 lớp theo quy
tắc trên cho đến khi mỗi nhóm con chỉ còn 1 phần tử. Phương pháp phân lớp như vậy
gọi là phương pháp phân chia lớp theo thứ bậc.

Một kỹ thuật khác được gọi là kỹ thuật kết hợp theo thứ bậc được tiến hành như sau:
Các cá thể gần nhau hoặc tương tự với nhau nhất được ghép với nhau thành một
nhóm, sau đó các nhóm ban đầu đó lại được ghép với nhau thành các nhóm lớn hơn
tương ứng với các khoảng cách bé nhất giữa các nhóm. Tiếp tục quá trình như vậy cho
đến khi chỉ còn một nhóm duy nhất.

Kết quả của hai phương pháp phân chia và phương pháp gộp được thể hiện dưới dạng
lược đổ hai chiều được gọi là Dendogram.

Ta sẽ tập trung nghiên cứu phương pháp gộp theo thứ bậc và cụ thể hơn nghiên cứu
phương pháp kết nối. Phương pháp này rất thích hợp cho việc phân lớp các đối tượng.

Chúng ta sẽ nghiên cứu phương pháp kết nối đơn (dựa trên khoảng cách ngắn nhất
hoặc tương tự nhau nhất), phương pháp kết nối đầy đủ (dựa trên khoảng cách trung
bình) để xác định khoảng cách giữa các lớp.

Sau đây là các bước trong việc phân lớp theo thứ bậc kết nối một tập gồm N phần tử

1) Bắt đầu với N cụm, mỗi cụm chứa 1 phần tử và lập ma trận các khoảng cách
cấp N là D = {d ik }
2) Tìm một ma trận khoảng cách của các cặp các cụm gần nhất. Giả sử khoảng
cách giữa hai cụm gần nhất U, V là d UV
3) Gộp cụm U với V. Ký hiệu cụm mới là (UV). Lập các phần tử của ma trận
khoảng cách mới bằng cách
a. loại các hàng và các cột tương ứng với cụm U, V;
b. thêm vào một hàng và một cột gồm các khoảng cách từ cụm (UV) đến
các cụm còn lại.
4) Lặp lại bước 2-3 N - 1 lần. Tất cả các phần tử sẽ tạo thành một cụm duy nhất
sau khi kết thúc thuật toán. Ghi lại sự nhận dạng của các cụm đã được kết hợp

13
và mức độ (khoảng cách hoặc sự tương tự) mà ở đó việc kết hợp các cụm đã
được thực hiện.
Ví dụ 3. (Phân cụm theo kết nối đơn)

Xét ma trận khoảng cách của 5 cá thể:

1 2 3 4 5
1
2
(
D= [ d ik ]= 3 0 ¿ ¿ ¿ 3 ¿ 7 ¿ 0 ¿ ¿ ¿ 6 ¿ 5 ¿ 9 ¿ 0 ¿ ¿ 11¿ 10 ¿ 2 ¿ 8 ¿ 0 ¿
4
9 0 ¿ )
5
Bước 1. Ta có
 min[d ¿¿ ik]¿ = d 35 = 2. Vậy kết hợp 3, 5 thành một cụm (3, 5).
 Ta hãy tính các khoảng cách từ cụm (3, 5) đến các phần tử còn lại là 1, 2, 4
d ( 3 ,5) , 1 = min(d 3 , 1 , d 5 ,1 ¿ = 3;

d ( 3 ,5) , 2 = min(d 3 , 2 , d 5 ,2) = 7;

d ( 3 ,5) , 4 = min(d ¿ ¿ 3 , 4 , d 5 ,4 )¿= 8;

 Xoá đi các dòng và các cột thứ 3 và thứ 5 tương ứng với các phần tử
thứ 3 và 5 và thay bởi một hàng và một cột các khoảng cách d ( 3 ,5) , 1 ,
d ( 3 ,5) , 2,d ( 3 ,5) , 4ta được ma trận mới

(35) 1 2 4
(35)1

( )
0 ¿
2 9 ¿3
¿ ¿6 5 9 0¿ ¿¿
4 7
0

Bước 2. Tiếp đến ta có khoảng cách ngắn nhất trong ma trận trên là d ( 3 ,5) , 1= 3. Vậy ta
ghép (1,3,5) thành nhóm (135). Tiếp đó ta tính
d ( 1, 3 ,5 ), 2= min(d (35) ,2 ,d 12 ¿ = min(7, 9) = 7;

d ( 1, 3 ,5 ), 4 = min(d (35) ,4 , d 14 ¿ = min(8, 6) = 6;

Bước 3. Bỏ hàng và cột có các chỉ số (35) và 1, sau đó thêm và hàng và cột với chỉ số
(135) ta có

(135) 2 4
(135)
2 14
4
( )
0 ¿
7 ¿6
¿ ¿¿ ¿¿
5
0

Bước 4. Ta có khoảng cách bé nhất trong ma trận cấp 3 trên là d 24 = 5. Vậy ta ghép 2,
4 thành một cụm (24). Kết quả ta có ma trận

(135) (24)
(135)
(24)
(600)
bởi vì d (24)(135)= min(d 2 (135) , d 4 (135) ¿ = min(6, 7) =6.
Bước 5. Cuối cùng cụm (24) kết hợp với (135) thành một cụm duy nhất (12345). Sau
đây là biểu đồ 2 chiều của cách phân cụm trên..
Ví dụ 4. (phân cụm bằng cách kết nối đầy đủ). Ta hãy trở lại ví dụ 3 với ma trận
khoảng cách D như sau:

( )
0 ¿
9 ¿3
D = [d ik ] = ¿ ¿ 6 5 9 0 ¿ ¿1110 2 8 0 ¿
7
0

Bước 1. 3 và 5 được gộp thành một nhóm vì chúng gần nhua nhất.
Bước 2.
d ( 3 ,5) , 1 = min(d 3 , 1 , d 5 ,1 ¿ = max(3,11) = 11;

d ( 3 ,5) , 2 = min(d 3 , 2 , d 5 ,2) = max(7,10) = 10;

d ( 3 ,5) , 4 = min(d ¿ ¿ 3 , 4 , d 5 ,4 )¿= max(9,8) = 9;

Ta được ma trận mới

(35) 1 2 4

( )
(35) 0 ¿
1 11 ¿ 10 9 6 5 0 ¿
¿ ¿ ¿ ¿
2 9
4 0

Bước 3. Vậy ta ghép (2,4) thành nhóm (24) vì d 24 là khoảng cách bé nhất.
Hơn nữa

15
d ( 35) ,(24 )= min(d (35) ,2 ,d ( 35) ,4 ¿ = max(10,9) = 10;

d ( 24) ,1= min(d 21 , d 41 ¿ = max(9, 6) = 9;

Từ đó ta được ma trận khoảng cách mới

(35) 24 1

( )
(35) 0
(24) 10 0
119 0
1

X1 X2 X3 X4 X5 X6 X7 X8

1.000

0.643 1.000

-0.103 1.000 -0.348

0.082 -0.086 0.100 1.000

-0.259 -0.260 0.435 0.034 1.000

-0.152 -0.010 0.028 -0.288 0.176 1.000

0.045 0.211 0.115 -0.164 -0.019 -0.374 1.000

-0.013 -0.328 0.005 0.486 -0.007 -0.561 -0.185 1.000


Bảng 7
Bước 4. Vậy 1,(24) nhập thành nhóm (-124) với khoảng cách bé nhất là 9.
Từ đó ta có ma trận mới

(35) (124)
(35) ¿
(124)
Bước 5. Kết hợp (35), (124) thành một cụm duy nhất(12345).
Ví dụ 5. Sau đây là bảng các số liệu về 8 tiêu chí (x1,…,x8) của 22 công ty lợi ích công
cộng Mỹ vào năm 1975 (Bảng 7). Từ bảng đó ta có thể lập bảng ma trận tương quan
16
mẫu R của 8 biến đó (xem như bảng các hệ số tương tự). Từ bảng ma trận này ta được
biểu đồ 2 chiều bằng phương pháp kết nối đầy đủ dựa trên 8 biến nói trên.

3. Các phương pháp phân cụm không theo thứ bậc (đẳng cấp)

Mục đích của phương pháp này là nhóm các đối tượng thành K nhóm, K có thể biết
trước hoặc được xác định trong thủ tục. Vì không phải lưu giữ nhiều thông tin khi máy
tính hoạt động nên có thể ứng dụng vưới tập dữ liệu lớn hơn các kỹ thuật phân cụm
theo cấp bậc.

Một cách để bắt đầu là: lựa chọn ngẫu nhiên các điểm khởi đầu từ tập các đối tượng
hoặc sự phân chia ngẫu nhiên các đối tượng vào các nhóm khởi đầu. Dưới đây là một
trong nhiều thủ tục, phương pháp K-trung bình.

 Phương pháp K – trung bình

Mac Queen đưa ra thuật ngữ K-trung bình để mô tae thuật toán của ông là phân pối
mỗi đối tượng vào cụm có trung tâm gần nó nhất. Quá trính đó được tạo thành qua 3
bước

1) Phân chia ngẫu nhiên các đối tượng vào K cụm ban đầu
2) Từ toàn bộ danh sách các đối tượng, phân phối từng đối tượng cho cụm có
trung tâm (TB) gần nó nhất (thường theo khoẳng cách Euclide, có thể chuẩn
hóa không chuẩn hóa các quan sát). Tính toán lại trung tâm cho cụm nhận được
đối tượng mới và cho cụm mất đối tượng.
3) Lặp lại bước 2 cho đến khi không có sự phân phối lại.

Sau đây là một ví dụ.

Ví dụ 6. Ta có bảng số liệu sau đây


Quan sát
Đối tượng
x1 x2
A 5 3
Mục tiêu là phân chia các đối tượng vào K = 2 cụm
B -1 1
mà thỏa mãn mỗi đối tượng gần tâm của cụm
chứa nó chất. Để thực hiện C 1 -2 phương pháp K = 2 - trung
bình, ta tùy ý phân chia các đối tượng vào hai cụm,
ví dụ (AB) và (CD), tính D -3 -2 các trung tâm của hai cụm (
x 1, x 2).

Từ đó, ở bước 1 ta có

Cụm x1 x2

5+(−1) 17 3+1
(AB) =2 =2
2 2
1+(−3) −2+(−2)
(CD) =−1 =−2
2 2
Bước 2, ta tính khoảng cách Euclide cho mỗi đối tượng tới trung tâm các nhóm và
phân phối lại mỗi đối tượng cho nhóm có tâm gần nó nhất. Nếu đối tượng được
chuyển từ nhóm này sang nhóm khác thì trung tâm của các cụm liên quan phải được
tính lại trước khi tiếp tục. Ta tính bình phương khoảng cách:
2 2 2
d ( A ,( AB))=(5−2) +(3−2) =10 ,
2 2 2
d ( A ,(CD ))=(5+1) +(3+ 2) =61.

Vì A gần cụm (AB) hơn là cụm (CD) nên nó không cần phải được phân phối lại. Tiếp
tục ta có
2 2 2
d (B ,( AB))=(−1−2) +(1−2) =10 ,
2 2 2
d (B ,(CD))=(−1+1) +(1+2) =9.

tương tự B phải được phân phối lại vào cụm (CD), thu được (BCD) sau đó sửa lại các
trung tâm:

Cụm x1 x2

A 5 3
(BCD) -1 -1

Mỗi đối tượng được kiểm tra bằng cách tính bình phương khoảng cách, ta thu được
kết quả như sau:

Bình phương khoảng cách


Cụm
A B C D
A 0 40 41 89
(BCD) 52 4 5 5

Ta thấy rằng mỗi đối tượng được phân phối chính xác vào cụm có thu, tâm gân nó
nhất nên có thể kết thúc. Cuối cùng, K = 2 cụm là A và (BCD).
Để kiểm tra tính ổn định của bó cụm nên chạy lại thuật toán với g phân chia mới. Ta
phải luôn chú ý tầm quan trọng của các biến đơn là trong việc phân lớp, chúng quyết
định trung tâm giá trị trung bình) của các cụm và sự phân phối lại các phân tử. Thêm

18
nữa, các giá trị của thống kê mô tả, do tầm quan trọng của các biến đơn lẻ, phụ thuộc
vào số cum và hình dạng cuối cùng của các cụm. Nói cách khác, các giá trị đó có thư
là hữu ích cho việc đánh giá sự thành công của thủ tục phân lớp.
Nhận xét. Một vấn đề còn phải bàn luận nhiều là số cụm không cố định, chúng thể
hiện theo các mặt sau:
1. Nếu hai hoặc nhiều các phần tử ban đầu lại nằm giữa các cụm đơn, các cụm kết quả
sẽ khác biệt nhau một cách đáng kể Type equation here .
2. Sự tồn tại của một phân tử ngoại vi có thể dẫn tới có ít nhất một nhóm với rất nhiều
đối tượng bị phân tán
3. Thậm chí nếu tập được biết là có tồn tại K nhóm, sự ép buộc dữ liệu thành K nhóm
sẽ dẫn đến các cụm vô nghĩa
Thường trong các thuật toán chạy đơn cần có K do người sử dụng định rõ. Tốt nhất là
nên chạy thuật toán với một vài sự lựa chọn ngẫu nhiên khác nhau.
4. Kiểm tra độ phù hợp của sự phân loại

Một trong các tính chất mà ta mong muốn khi tiến hành phân loại các đối tượng là thu
được các cụm và các lớp càng tách biệt nhau càng tốt. Để áp dụng tiêu chuẩn thống kê
khi khảo sát sự tách biệt giữa các lớp ta tiến hành các bước sau đây:

(a) Thực hiện việc so sánh từng cặp lớp

Ta hãy xét hai lớp π1 và π2 đã được tách biệt, mỗi lớp chứa n1 và n2 phần tử tương ứng.
Giả sử (x 1 j , x 2 j , … , x kj ) , j=1÷ n1 là các biến đặc trưng cho phân tử thứ j của lớp π1 và
( y 1 j , y 2 j , … , y kj) , , j=1÷ n 2 là các biến đặc trưng cho phần tử thứ j của lớp π2
Đặt X =( x 1 , x 2 ,… , x k ) là tâm của lớp π1 , Y = ( y 1 , y 2 , … , y k ) là tâm của lớp π2 , trong
đó
n1 n2
1 1
x i=
n1 ∑ x ij ; y i=
n2 ∑ yij , i=1 ÷ k ,
j=1 j=1

và đặt
(1 ) ( 1) (2) (2 )
S =( S ij )i , j =1 ÷ k ; S =( S ij )i , j=1 ÷ k

là các ma trận hiệp phương sai mẫu của các dấu hiệu của các phần tử của lớp π1 và π2
tương ứng, trong đó

[∑ ]
n1
1
( 1)
S = ⅈj
n1−1
( x ik− xi ) ( x jk −x j )
k=1

[∑ ]
n1
1
¿ xik x jk −n1 x i x j
n1−1 k=1

[∑ ]
n2
( 2) 1
S =
ⅈj
n2−1
( y ik − y i ) ( y jk − y j )
k=1

19
[∑ ]
n2
1
¿ y ik y jk −n1 y i y j
n2−1 k=1

Xét thống kê thử nghiệm (khoảng cách thống kê Hotelling giữa hai tâm x , y của 2 lớp)
2 T
T =( X −Y ) S-1 ( X −Y ) ,

trong đó
1 1
S = n S(1) + n S(2)
1 2

Người ta đã chứng tỏ rằng khi n1, n2 đủ lớn T 2 có phân bố xấp xỉ X 2 với k bậc tự do. Ký
hiệu X 2k (α )phân vị trên mức α (α = 0,05; 0,01) của phân bố X 2 với k bậc tự do. Khi đó
nếu khoảng cách Hotelling T 2 > X 2k (α )thì hai lớp được coi là tách biệt nhau một cách có
ý nghĩa.
(b) Nếu hai lớp không tách biệt nhau một cách có ý nghĩa thì thông thường ta
phải tiến hành tách lớp lại thành một số ít lớn hơn hoặc nhập hai lớp đó thành
một lớp.
5. Định vị một đối tượng mới

Ta hãy xét một đối tượng mới có biến trạng thái là x 0=( x 01 , … , x 0k )T Một cách đơn giản nhất để
định vị đối tượng mới vào lớp nào trong số K lớp đã được tách biệt là phương pháp sau:
 Tính khoảng cách từ 20 đến tâm của các lớp π1 , … , πk ;
 Đối tượng được định vị vào nhóm có khoảng cách từ x0 tâm của nhóm là bé nhất.
Một phương pháp khác là có thể dựa trên phương pháp phân tích phân biệt (discriminant
analysis) được đề xuất bởi Fisher như đã trình bày trong mục II.
IV. Bài tập

Ví dụ 7: Dựa trên thuật toán K-trung bình hãy lập trình phân loại các học
sinh thành các nhóm với bảng dữ liệu điểm toán, tiếng anh của học sinh
như sau:

Bài làm:

Bài làm em sử dụng Rstudio để chia nhóm


20
+ Đầu tiên load dữ liệu bảng file diem.csv trong ổ C của máy tính vào Rstudio. Bảng
diem.csv sau khi load data thành công trên R

+ Mục tiêu là phân chia các đối tượng vào K = 2 cụm mà thỏa mãn mỗi đối tượng gần
tâm của cụm chứa nó nhất. Hàm K – trung bình được cung cấp bởi gói package như
sau:

với p là ma trận số của dữ liệu hoặc khung dữ liệu có cột số, 2 là số lượng cụm cần
chia, iter.max là số lần lặp tối đa được phép

Kết quả sau khi chia cụm như hình dưới

View kết quả chia cụm ra dạng đồ


thị

21
 Kết quả số học sinh chia làm 2 cụm

22
Ví dụ 8: Tương tự bài ví dụ 1, thực hành chia thành 3 cụm dữ liệu bảng
sau:

Các câu lệnh thực hiện tương tự như ví dụ 7:

23
24
25

You might also like