Viscovery SOMine 8.0 Manual Trang 3 1

Machine Translated by Google
Bấm vào Tiếp để chuyển sang hộp thoại Gán Thuộc tính .
trình
sifie
việc
Loại
làm
Quy
đơn
Án
r
6
Hộp thoại này cho phép các thuộc tính của data mart ứng dụng được khớp với các thuộc tính trong mô
hình. Theo mặc định, mỗi thuộc tính của data mart được gán cho một thuộc tính có cùng tên trong mô
hình. Những nhiệm vụ này có thể được thay đổi như sau:
Để hủy một phép gán sai, đánh dấu phép gán ở khung bên trái và nhấp vào nút
cái nút.
Để gán một thuộc tính của data mart (khung bên phải) cho một thuộc tính của mô hình (khung bên
trái), hãy đánh dấu cả hai và nhấp vào nút. Nhiệm vụ trước đó bị hủy bỏ.
Nếu các thuộc tính trong mô hình vẫn chưa được gán (nghĩa là không có thuộc tính tương đương trong
kho dữ liệu ứng dụng), các giá trị thuộc tính sẽ được coi là thiếu đối với tất cả các bản ghi dữ
liệu nhằm mục đích tìm nút phù hợp nhất trong SOM và bị xóa từ bản sao của mô hình mà bước này tính
toán (xem bên dưới). Nếu có các giá trị mới trong các thuộc tính danh nghĩa của kho dữ liệu ứng dụng
không có trong kho dữ liệu mô hình thì các giá trị mới cũng sẽ được coi là bị thiếu.
Nếu có một thuộc tính mới trong kho dữ liệu ứng dụng không được gán cho một thuộc tính trong mô
hình, nó không ảnh hưởng đến thứ tự của bản đồ và các cụm, nhưng có thể được hiển thị trong bản đồ
được tính toán để hiển thị trong này. bươ c chân. Nhấp vào Tiếp theo để liên kết các thuộc tính này
trong hộp thoại Chọn thuộc tính để liên kết .
101
Chọn các thuộc tính sẽ được hiển thị trên bản đồ được tính toán để hiển thị ở bước này. Nếu không
có thuộc tính nào để chọn thì hộp thoại này sẽ bị bỏ qua. Bạn có thể Đảo ngược vùng chọn và Chọn
tất cả thuộc tính bằng các nút tương ứng.
Bấm vào Kết thúc để đóng hộp thoại. Đối với mỗi bản ghi dữ liệu, cụm mà nó thuộc về và các ảnh
thuộc tính mới được tính toán, hoàn thành bước quy trình làm việc.
Bấm đúp vào bước Áp dụng Mô hình đã hoàn thành để mở bản sao của mô hình.
102
Trong bản sao này, số liệu thống kê dữ liệu được hiển thị trong cửa sổ Thống kê và Hồ sơ
Nhóm , cũng như hình ảnh Tần suất và Lỗi Lượng tử hóa trong cửa sổ Bản đồ , hiện dựa trên siêu
thị dữ liệu ứng dụng chứ không phải trên siêu thị dữ liệu mô hình. Cửa sổ Bản ghi dữ liệu
cũng hiển thị kho dữ liệu ứng dụng.
Ngoài các ảnh thuộc tính của mô hình, cửa sổ Bản đồ còn hiển thị các ảnh thuộc tính cho các
thuộc tính liên quan đã được xác định trong hộp thoại Chọn thuộc tính để liên kết (tức là các
thuộc tính không có thuộc tính tương ứng trong mô hình):
Nếu một thuộc tính nhóm điều khiển được chỉ định trong hộp thoại Chọn Thuộc tính Kết quả
Tùy chọn để Đánh giá (xem 6.1 Chọn Data Mart), các thuộc tính liên quan được đặc biệt
quan tâm cho việc đánh giá. Viscovery SOMine tạo hai ảnh thuộc tính: một cho các bản ghi
dữ liệu là thành viên của nhóm kiểm soát (không tham gia vào ứng dụng, được biểu thị
bằng Tên (nhóm kiểm soát)) và một cho các bản ghi dữ liệu là thành viên của nhóm ứng dụng
(ghi bằng Tên (đơn)). Bằng cách kiểm tra và so sánh các thuộc tính này, bạn có thể thấy
tác động của ứng dụng của mình.
trình
sifie
việc
Loại
Nếu không có thuộc tính nhóm điều khiển nào được chỉ định thì các thuộc tính liên quan sẽ được biểu thị bằng Tên
làm
Quy
đơn
Án
(có liên quan).
r
6
Nếu thuộc tính phân loại được chỉ định trong hộp thoại Chọn thuộc tính kết quả tùy chọn để
đánh giá , ảnh bản đồ cho mỗi lớp sẽ được tạo để hiển thị cách phân phối các bản ghi dữ liệu
của kết quả trên bản đồ. Điều này có thể được so sánh một cách trực quan và bằng số với phân
đoạn. Ngoài ra, một hình ảnh Lỗi Phân loại được tạo ra để cho biết mức độ phân loại của các
bản ghi ánh xạ vào một nút.
Khi một nút không khớp với bất kỳ bản ghi dữ liệu nào từ kho dữ liệu ứng dụng,
giá trị hiển thị sẽ được nội suy từ vùng lân cận của nút này.
Các cụm chứa dữ liệu được áp dụng có thể được kiểm tra trong cửa sổ Cụm . Các giá trị thuộc
tính tổng hợp và Tần suất đề cập đến các bản ghi dữ liệu của kho dữ liệu ứng dụng.
Các thuộc tính mô hình không có thuộc tính tương ứng trong kho dữ liệu ứng dụng đã được di chuyển lại.
Để biết thông tin về cách xử lý các cửa sổ, hãy xem Phần 10 Mô hình Viscovery.
Để bảo vệ dự án, các cụm không thể thay đổi trong bước này. Tuy nhiên, có thể lưu mô hình vào
một tệp mới bằng File | Lưu Sao chép Dưới dạng. Bản sao có thể được mở bằng File | Mở, giống
như bất kỳ tệp mô hình SOM nào khác và sau đó cũng có thể được sửa đổi mà không ảnh hưởng đến
dự án hiện tại.
Chọn Tệp | Close để đóng bản đồ và quay lại dự án.
6.3 Kiểm tra ứng dụng
Trong bước Kiểm tra ứng dụng , nó sẽ hiển thị có bao nhiêu bản ghi được phân loại vào mỗi lớp.
Nếu một thuộc tính lớp thực tế được chỉ định trong hộp thoại Chọn thuộc tính kết quả tùy chọn
để đánh giá (xem 6.1 Chọn Data Mart), ma trận nhầm lẫn và một số thước đo hiệu suất để phân
loại (độ chính xác, độ chính xác, độ nhạy và độ đặc hiệu) sẽ được hiển thị.
103
Bấm đúp vào bước Kiểm tra ứng dụng màu vàng để mở cửa sổ Chẩn đoán phân loại .
Ở bên trái, tên mô hình, tên thuộc tính đích và (nếu có) lớp thực tế tại tên cống phẩm được hiển thị.
Tập hợp con dữ liệu
Tùy chọn Tập hợp con dữ liệu khả dụng nếu chỉ báo nhóm kiểm soát đã được chỉ định trong kho dữ liệu ứng dụng trong
hộp thoại Chọn thuộc tính kết quả tùy chọn để đánh giá ở bước Chọn dữ liệu trước đó . Chọn các bản ghi dữ liệu từ Ứng
dụng, từ nhóm Kiểm soát hoặc từ Tất cả dữ liệu (sự kết hợp của hai dữ liệu trước) phải được hiển thị trong bảng Ma
trận kết hợp và Đo lường hiệu suất ở phía bên phải của cửa sổ Chẩn đoán phân loại .
Để đánh giá chất lượng của một ứng dụng, hãy so sánh nhóm ứng dụng với nhóm kiểm soát (tức là nhóm
không tham gia vào ứng dụng) về các thuộc tính của kết quả ứng dụng. Nếu ứng dụng thành công, chẩn
đoán phân loại của nhóm ứng dụng sẽ cho kết quả tốt hơn so với giá trị của nhóm đối chứng.
Ma trận hỗn loạn
Ma trận nhầm lẫn liệt kê có bao nhiêu bản ghi được phân loại vào mỗi lớp và – nếu một thuộc tính lớp thực tế được chỉ
định trong hộp thoại Chọn thuộc tính kết quả tùy chọn để đánh giá (xem 6.1 Chọn Data Mart) – mô tả có bao nhiêu trong
số chúng thực sự thuộc về mỗi lớp. các lớp học.
Điều này có thể được sử dụng để đánh giá việc phân loại và xem lớp nào thường bị nhầm lẫn với nhau hơn và lớp nào
không. Để phân loại tốt, chúng ta muốn có hầu hết các bản ghi ở dạng phần tử đường chéo của ma trận, nghĩa là chúng
được phân loại vào đúng lớp.
104
Các biện pháp thực hiện
trình
sifie
việc
Loại
Các thước đo hiệu suất được liệt kê cho từng lớp và là mức trung bình của tất cả các lớp. Chúng
làm
Quy
đơn
Án
r
6
được xác định thông thường theo các giá trị dương tính thực (TP), âm tính thực (TN), dương tính
giả (FP) và âm tính giả (FN) và có thể được tính từ ma trận nhầm lẫn Cjk như sau:
Cii + j i,k iCjk

= TPi + TNi =
độ chính xác ,
N N
Độ
= ,
chính xác của TPi =
TPi + FPi Cii kCik
Độ Cii
= ,
nhạy TPi =
TPi + FNi jCji
j i,k iCjk
Độ
= .
đặc hiệu TNi = j k iCjk
TNi + FPi
Đối với các giá trị trung bình của các thước đo hiệu suất, chúng tôi sử dụng phương pháp trung bình vi mô để tính
đến sự mất cân bằng trong lớp. Các biện pháp được tính như sau:
iTPi iCii
= =
trung bình sự chính xác
N i,kCik ,
iTPi iCii
= =
trung bình độ chính trung bình sự chính xác,
xác = iTPi + FPi i,kMs
iTPi iCii
= =
trung bình độ nhạy trung bình sự chính xác,
= iTPi + FNi i,jCji
i j i,k iCjk
iTNi
=
trung bình độ đặc i,j k iCjk .
hiệu = iTNi + FPi
Đóng cửa sổ Chẩn đoán phân loại để quay lại dự án và hoàn tất bước quy trình làm việc.
105
6.4 Phân loại xuất khẩu
Bước quy trình Xuất Phân loại sẽ tạo một tệp hoặc bảng cơ sở dữ liệu chứa các giá trị của bản ghi dữ
liệu được áp dụng, cụm mà chúng thuộc về, cờ nhóm kiểm soát và, nếu có liên quan, kết quả của các công
thức xử lý hậu kỳ và các giá trị bổ sung được trích xuất từ ngươi mâu.
Tệp này đóng vai trò là cơ sở cho một ứng dụng và do đó được gọi là ứng dụng trong phần sau.
Để phân loại dữ liệu, bấm đúp vào bước Xuất Phân loại để mở hộp thoại Chọn Đích của Kết quả Phân loại .
Chọn đích cho kết quả phân loại, tức là xuất sang Tệp hoặc kết nối Cơ sở dữ liệu. Các hộp thoại tiếp
theo sẽ khác nhau đối với hai lựa chọn, như được mô tả bên dưới.
Sau khi quá trình phân loại hoàn tất, thông tin được ghi vào tệp hoặc bảng cơ sở dữ liệu có thể được
sử dụng như mong muốn trong một ứng dụng.
Thông tin không chỉ được ghi vào đích đã chỉ định mà kết quả phân loại và nhóm kiểm soát cũng được thêm
vào kho dữ liệu ứng dụng. Chúng có sẵn dưới dạng mới tại - cống nạp khi ứng dụng data mart được sử dụng
trong bước Nhập dữ liệu của quy trình Tiền xử lý dữ liệu (xem 3.1.1 Chọn nguồn dữ liệu) và khi data
mart được xuất (xem 12.1 Xuất Data Mart).
Tỷ lệ phần trăm cho nhóm kiểm soát có thể được xác định trong trường Tỷ lệ phần trăm . Trong quá trình
phân loại, một số hồ sơ sẽ được chọn ngẫu nhiên và đánh dấu là “nằm trong nhóm đối chứng”. Tùy chọn này
chỉ nhằm mục đích thuận tiện và chỉ nhằm mục đích gợi ý; có thể sử dụng một phương pháp khác bên ngoài
Viscovery SOMine để chọn nhóm kiểm soát. Bằng cách xác định nhóm kiểm soát, ứng dụng có thể được đánh
giá sau (trong một lần chạy khác thông qua quy trình Áp dụng Trình phân loại ) và kết quả của các bản
ghi dữ liệu tham gia vào ứng dụng có thể được so sánh với kết quả của nhóm kiểm soát.
6.4.1 Ghi vào một tập tin
Để ghi dữ liệu vào một tệp, hãy chỉ định vị trí tệp ứng dụng và loại tệp cần tạo.
106
Nhấp vào Tiếp theo để tiếp tục chọn Thuộc tính tùy chọn để sao chép từ hộp thoại Đầu vào sang Đầu
ra .
trình
sifie
việc
Loại
làm
Quy
đơn
Án
r
6
Chọn các cột trong kho dữ liệu ứng dụng để sao chép vào tệp kết quả.
Nếu dữ liệu của bạn bắt nguồn từ cơ sở dữ liệu, thì thường không cần thiết phải chọn nhiều hơn chỉ
một thuộc tính khóa vì thao tác Tham gia có thể được sử dụng để liên kết kết quả phân loại với
các bản ghi trong cơ sở dữ liệu. Tuy nhiên, kết quả phân loại thường được xử lý trực tiếp ở bước
tiếp theo bên ngoài cơ sở dữ liệu. Trong trường hợp này, sẽ thuận tiện hơn khi sao chép các thuộc
tính bổ sung (ví dụ: địa chỉ khách hàng) từ kho dữ liệu ứng dụng sang tệp kết quả.
Nhấp vào Tiếp theo để tiếp tục với hộp thoại Chọn giá trị nút bản đồ tùy chọn để ghi vào hộp
thoại Đầu ra .
Trong hộp thoại này, chỉ định thông tin bổ sung được thu thập từ mô hình sẽ được ghi với mỗi bản ghi dữ liệu đã phân
loại.
107
Chọn thuộc tính bản đồ từ danh sách bên trái. Từ phần bên phải, chọn giá trị nút nào sẽ được đưa vào tệp đầu
ra. Các giá trị được lấy từ (các) nút phù hợp nhất của bản ghi dữ liệu đầu vào:
Nút so khớp xác định rằng giá trị nút của các thuộc tính được sao chép. Các nút
gần nhất có trọng số xác định rằng một tập hợp nhỏ các nút bản đồ gần nhất của bản ghi dữ liệu được tính toán
và giá trị trung bình có trọng số của các nút này được lấy. Trọng
số nhiệt độ xác định rằng giá trị trung bình của các nút có trọng số theo nhiệt độ được lấy. Nếu mô hình được
huấn luyện với nhiệt độ bằng 0 thì mô hình này giống hệt với nút So khớp.
Đối với mỗi thuộc tính được chọn ở bên trái, một cột được tạo trong tệp đầu ra cho mỗi mục được chọn ở bên phải.
Nhấn Finish để tạo phân loại. Kết quả của bước này là một tệp chứa các giá trị được sao chép từ các bản ghi dữ
liệu của trung tâm dữ liệu ứng dụng cũng như cụm liên kết hoặc lớp dự đoán của chúng, xác suất lớp (nếu có),
nhóm điều khiển, giá trị nút được chọn từ mô hình và giá trị được đánh giá. các công thức xử lý sau. Đối với
mỗi hàng, các cột sau được tạo:
Các thuộc tính được sao chép từ trung tâm dữ liệu ứng dụng
Tên của cụm liên kết hoặc lớp dự đoán Xác suất lớp (một
cột cho mỗi lớp), nếu mô hình đã sử dụng được tính toán bằng cách sử dụng
Tạo quy trình làm việc của Trình phân loại (5 Quy trình tạo Trình phân loại)
Chỉ báo nhóm kiểm soát: 1 cho nhóm kiểm soát và 0 cho việc tham gia (không thuộc nhóm kiểm soát
9
nhóm)
Giá trị nút bản đồ được liên kết với từng thuộc tính
Kết quả của các công thức xử lý hậu kỳ, như được định nghĩa trong 10.2.3 Xác định cụm
6.4.2 Ghi vào cơ sở dữ liệu
Để ghi kết quả phân loại vào cơ sở dữ liệu, cần phải cấp phát một bảng cơ sở dữ liệu trước. Quá trình phân
loại sẽ thêm các bản ghi dữ liệu mới mà không xóa các bản ghi đã có trong bảng cơ sở dữ liệu. Do đó có thể ghi
các phân loại khác nhau vào cùng một bảng. Để phân biệt các bản ghi dữ liệu thuộc các phân loại khác nhau, bảng
chứa một cột cho tên ứng dụng tương ứng.
Nhấp vào Kết nối… để mở hộp thoại Liên kết dữ liệu của Microsoft và thiết lập kết nối theo quy ước của
Microsoft. Tab Kết nối của hộp thoại này thường cung cấp tùy chọn Cho phép lưu mật khẩu . Tùy chọn này phải
được kích hoạt khi cần xác minh mật khẩu để truy cập cơ sở dữ liệu.
Sau khi đóng hộp thoại Liên kết dữ liệu của Microsoft , hãy quay lại hộp thoại Phân loại và chọn từ danh sách
thả xuống bảng dữ liệu mà kết quả phân loại sẽ được ghi vào đó.
Chỉ định tên ứng dụng trong trường Tên ứng dụng . Mục đích là giá trị trong trường này tạo thành một khóa duy
nhất trong bảng cơ sở dữ liệu kết quả khi được kết hợp với khóa của các bản ghi dữ liệu từ dữ liệu được áp
dụng. Tuy nhiên, Viscovery SOMine không thực thi cũng như không yêu cầu khóa.
Nhấp vào nút Hiển thị chi tiết… để xem lại thông tin kết nối cơ sở dữ liệu.
9
Trong các phiên bản trước 7.0 của Viscovery SOMine, ý nghĩa của cột này đã bị đảo ngược: 1 biểu thị các bản ghi dữ
liệu đã tham gia vào ứng dụng và 0 biểu thị các bản ghi dữ liệu của nhóm kiểm soát.
108
Khi không có bảng thích hợp nào được xác định trong cơ sở dữ liệu, hãy nhấp vào nút Sao chép SQL
để sao chép câu lệnh SQL vào bảng tạm để tạo bảng thích hợp.
Kiểm tra xem câu lệnh tạo bảng trong clipboard có đúng theo cú pháp của hệ thống cơ sở dữ
liệu bạn đang sử dụng hay không. Câu lệnh sao chép được viết bằng SQL tiêu chuẩn và hệ
thống cơ sở dữ liệu của bạn có thể sử dụng cú pháp SQL khác.
Bấm Tiếp để chuyển sang hộp thoại Chỉ định Cột Cơ sở dữ liệu để Ghi Kết quả vào hộp thoại.
trình
sifie
việc
Loại
làm
Quy
đơn
Án
r
6
Hộp thoại cho phép đề cử ba cột trong bảng cơ sở dữ liệu với ý nghĩa sau.
Kết quả phân loại: nhận tên cụm hoặc tên lớp; phải thuộc loại chuỗi
Nhóm điều khiển: nhận chỉ báo nhóm điều khiển; phải là kiểu số; có thể để trống nếu không cần
chỉ báo nhóm kiểm soát trong cơ sở dữ liệu
Tên ứng dụng: nhận tên ứng dụng đã được chỉ định trong hộp thoại Chọn đích của kết quả phân
loại ; phải thuộc loại chuỗi; có thể để trống nếu ứng dụng không cần được xác định trong
bảng cơ sở dữ liệu10
Phần bên phải liệt kê các cột bổ sung có sẵn trong bảng cơ sở dữ liệu được chọn trong hộp thoại
trước đó. Để hoàn thành một trường, hãy đánh dấu tên trong danh sách và nhấp nút bên cạnh
vào trường cần hoàn thành. Để xóa một trường đã hoàn thành, hãy nhấp vào nút bên cạnh nó.
Nhấp vào Tiếp theo để chuyển sang hộp thoại Cột cơ sở dữ liệu bản đồ .
10
Giá trị này cùng với thuộc tính key của data mart là khóa duy nhất cho bảng cơ sở dữ liệu. Chỉ riêng thuộc tính khóa không thể là khóa duy nhất
cho bảng cơ sở dữ liệu vì cùng một kho dữ liệu ứng dụng có thể được phân loại vào cùng một bảng cơ sở dữ liệu nhiều lần.
109
Hộp thoại này cho phép chọn các thuộc tính bổ sung để sao chép từ kho dữ liệu ứng dụng sang bảng cơ sở
dữ liệu kết quả. Thông thường, thuộc tính khóa được sao chép.
Bảng điều khiển bên trái liệt kê các cột cơ sở dữ liệu có trong bảng được chọn trong hộp thoại Phân loại (Cột cơ sở
dữ liệu) và thuộc tính data mart ứng dụng mà từ đó nó sẽ nhận các giá trị (Thuộc tính Data Mart). Bảng bên phải (Thuộc
tính Data Mart khác) liệt kê các cột chưa được chỉ định trong data mart.
Loại thuộc tính data mart và cột của bảng cơ sở dữ liệu phải tương ứng: các thuộc tính văn bản của data
mart chỉ có thể được sao chép sang các cột có kiểu chuỗi và giá trị của data mart tại - cống phẩm chỉ
có thể được sao chép vào các cột có kiểu số.
Khi các công thức xử lý hậu kỳ đã được xác định trong mô hình (xem 10.2.3 Xác định cụm), các mục nhập
bổ sung sẽ xuất hiện trong cột Thuộc tính Mart dữ liệu khác . Các cột cơ sở dữ liệu có thể tùy chọn
nhận các giá trị từ các công thức xử lý hậu kỳ. Loại cột cơ sở dữ liệu được chỉ định phải khớp với loại
kết quả của công thức.
Để chỉ định một phép gán cột, hãy chọn mục Thuộc tính More Data Mart từ bảng bên phải và cột cơ sở dữ liệu từ bảng bên
trái và nhấp vào nút. Để xóa một bài tập, hãy nhấp vào nút.
Các cột trong bảng cơ sở dữ liệu không được gán giá trị từ trung tâm dữ liệu cũng như kết quả (như
được chỉ định trong hộp thoại trước) sẽ được điền bằng các giá trị Null .
Nhấp vào Hoàn tất để tạo phân loại với thông tin đã chọn và hoàn thành quy trình làm việc của Trình
phân loại áp dụng .
110
7 Quy trình tạo dự đoán
Trong quy trình Tạo dự đoán , một mô hình hồi quy cục bộ được tạo. Mô hình hồi quy cục bộ bao gồm hai
phần: bản đồ và tập hợp các hồi quy tuyến tính. Bản đồ là thứ tự hai chiều của các bản ghi dữ liệu theo
sự giống nhau về các thuộc tính của chúng, từ đó tạo ra các cụm vi mô đồng nhất (các nút; để được giải
thích chi tiết hơn, hãy xem 1.2.1 Bản đồ tự tổ chức). Đối với mỗi cụm vi mô này, một hồi quy riêng biệt
được tính toán, được gọi là “hồi quy cục bộ”. Để biết giải thích chi tiết, hãy xem A.9 Dự đoán SOM cục
bộ.
Sau khi chọn một trung tâm dữ liệu và phân vùng dữ liệu, các thuộc tính mà mô hình được tính toán cũng
như các tham số cho tính toán mô hình sẽ được xác định. Đối với mỗi mô hình, hồi quy toàn cầu (tuyến
tính) được tính toán và sau đó hồi quy cục bộ được tính toán. Một số mô hình có thể được tạo cho mỗi
kho dữ liệu. Sau khi các mô hình được tính toán, mỗi mô hình có thể được đánh giá một cách trực quan
bằng cách sử dụng dữ liệu thử nghiệm và chất lượng của các mô hình khác nhau được tạo trong dự án này
TRÌNH
có thể được so sánh với sự trợ giúp của một số loại biểu đồ.
VIỆC
CÔNG
QUY
TẠO
Để tạo mô hình hồi quy cục bộ, hãy chọn tab Tạo dự đoán trong dự án của bạn và hoàn thành các bước sau: Chọn Data Mart,
7
Tính toán mô hình toàn cầu, Tính toán mô hình cục bộ và Xác thực mô hình. Thông tin thêm về các bước này được đưa ra trong
các phần sau.
7.1 Chọn Data Mart
Với bước Chọn Data Mart của quy trình Tạo Dự đoán , dữ liệu mà mô hình được tính toán sẽ được chọn,
phân vùng dữ liệu được áp dụng và thuộc tính đích được chọn.
7.1.1 Chọn Data Mart
Bấm đúp vào bước Chọn Data Mart màu vàng để mở hộp thoại Chọn Data Mart .
111
Các siêu thị dữ liệu có sẵn trong dự án hiện tại được liệt kê. Chọn trung tâm dữ liệu sẽ được sử dụng để tạo mô hình
trong quy trình làm việc này. Để chọn một trung tâm dữ liệu đã được tạo trong một dự án khác, hãy nhấp vào Khác….
Nhấn Next để mở hộp thoại Select Target Value .
7.1.2 Chọn giá trị mục tiêu
Đối với các mô hình hồi quy cục bộ, giá trị đích phải có trong dữ liệu mô hình. Đây là giá trị được dự
đoán bởi mô hình.
Nhấp vào một thuộc tính sẽ chọn nó làm giá trị mục tiêu (hoặc thuộc tính) để dự đoán và cho điểm. Chỉ
cho phép các thuộc tính số làm giá trị đích.
Nhấp vào Tiếp theo để chuyển sang hộp thoại Chọn phân vùng dữ liệu .
7.1.3 Xác định phân vùng dữ liệu
Trong hộp thoại Chọn phân vùng dữ liệu, phần trăm bản ghi dữ liệu sẽ được sử dụng cho tập dữ liệu mô
hình và tối đa hai tập dữ liệu thử nghiệm sẽ được xác định. Tập dữ liệu mô hình được sử dụng để tính
toán mô hình dự đoán. Cần ít nhất một tập dữ liệu thử nghiệm để xác thực mô hình sau này: mô hình được
tính toán từ tập dữ liệu mô hình sẽ được áp dụng cho tập dữ liệu thử nghiệm để đánh giá hiệu suất của nó.
Ngoài ra, bộ dữ liệu thử nghiệm thứ hai có thể được chỉ định để thực hiện kiểm tra tính hợp lý thứ hai của mô hình.
112
TRÌNH
VIỆC
CÔNG
QUY
TẠO
7
Hộp thoại được vận hành theo cách tương tự như trong bước Chọn Data Mart của quy trình Tạo phân
loại . Xem phần 5.1.3 Xác định phân vùng dữ liệu để biết chi tiết.
Thông thường một bộ dữ liệu thử nghiệm là đủ. Nhưng nếu có nhiều mô hình được tạo ra
thì nên sử dụng hai bộ dữ liệu thử nghiệm, miễn là có đủ dữ liệu.
Việc phân vùng thành dữ liệu mô hình và dữ liệu thử nghiệm được chỉ định theo mặc định để cho phép
xác thực mô hình. Tuy nhiên, nếu một số mô hình đã được tạo, đánh giá và mô hình tốt nhất đã được
chọn thì nên thận trọng khi tạo lại mô hình này với tất cả dữ liệu có sẵn (nghĩa là không cần phân
vùng). Việc tái tạo mô hình cung cấp càng nhiều dữ liệu cho việc học càng tốt, từ đó tối đa hóa độ chính xác.
Để ngăn chặn việc phân vùng, hãy chỉ định 100% cho dữ liệu Mô hình và 0% cho Dữ liệu thử nghiệm 1 và Dữ liệu thử nghiệm 2.
Nhấp vào Kết thúc để đóng hộp thoại và hoàn tất bước.
7.2 Tính toán mô hình toàn cầu
Với bước Tính toán mô hình toàn cầu của quy trình Tạo dự đoán , các tham số được đặt để tính toán mô
hình hồi quy toàn cầu.
Hồi quy toàn cầu là hồi quy tuyến tính đa biến nổi tiếng và được gọi là “toàn cầu” để phân biệt với “hồi quy cục bộ”
của Viscovery. Hồi quy cục bộ dựa trên mô hình hồi quy toàn cầu và chỉ được tính cho một phần dữ liệu mô hình. Hồi quy
tuyến tính là hàm tuyến tính tối ưu để dự đoán giá trị đích từ một số thuộc tính của mô hình. Tối ưu có nghĩa là sai
số bình phương trung bình (nghĩa là chênh lệch giữa giá trị dự đoán và giá trị thực tế của dữ liệu mô hình) là tối
thiểu.
Đầu ra của bước này là thông tin mô tả về mô hình hồi quy được tính toán, bao gồm các hệ số hồi quy
toàn cục.
113
7.2.1 Chọn thuộc tính mô hình
Bấm đúp vào bước Tính toán mô hình toàn cầu để mở hộp thoại Chọn thuộc tính mô hình .
Tất cả các thuộc tính có thể được sử dụng làm biến hồi quy cho mô hình toàn cầu đều được liệt kê.
Nhấp vào hộp kiểm bên cạnh tên thuộc tính để chọn hoặc bỏ chọn nó để sử dụng trong mô hình. Đánh
dấu nhiều thuộc tính bằng cách nhấn phím SHIFT hoặc CTRL trong khi nhấp vào tên và chọn hoặc bỏ
chọn đồng thời tất cả các thuộc tính được đánh dấu bằng cách nhấn phím SPACE hoặc nhấp vào hộp kiểm
khu vực.
Các thuộc tính đã chọn được sử dụng cho cả hồi quy toàn cục và cục bộ.
Đối với mỗi thuộc tính, các giá trị Tối thiểu, Tối đa và Trung bình , Độ lệch chuẩn, số giá trị
Thiếu và loại Chuyển đổi đã được áp dụng sẽ được hiển thị.
Nhấp vào Tiếp theo để mở hộp thoại Xác định tham số hồi quy .
7.2.2 Xác định tham số hồi quy
Trong hộp thoại Xác định tham số hồi quy , các tham số cho hồi quy được chỉ định.
114
TRÌNH
VIỆC
CÔNG
QUY
TẠO
7
Hồi quy tuyến tính
từng bước
Theo mặc định, tất cả các thuộc tính đã chọn sẽ được sử dụng cho hồi quy. Ngoài ra, các thuộc tính có
thể được thêm vào mô hình bằng quy trình từng bước với tùy chọn Stepwise .
Hãy tưởng tượng rằng tồn tại một tập hợp con các thuộc tính giải thích thuộc tính mục tiêu tốt nhất
theo nghĩa có ý nghĩa thống kê, mức độ liên quan và tính phân tích. Một mô hình thỏa mãn nguyên tắc
phân tích cú pháp nếu số lượng thuộc tính mô hình càng thấp càng tốt (điều này làm cho mô hình có
thể kết hợp được với nhau). Vì số lượng mô hình có thể tăng theo cấp số nhân với số lượng biến hồi
quy nên vấn đề tìm ra tập hợp con tốt nhất của các thuộc tính là khó khăn. Quy trình hồi quy từng
bước là một cách tiếp cận theo kinh nghiệm để tìm ra một mô hình “tốt”.
Thuật toán bắt đầu với một mô hình không có thuộc tính mô hình. Ảnh hưởng của từng thuộc tính mô hình (biến độc lập)
đến giá trị đích được kiểm tra. Hai mức ý nghĩa được chỉ định: Mức ý nghĩa đầu vào và Mức ý nghĩa đầu ra xác định mức
ý nghĩa mà tại đó thuộc tính mô hình được nhập vào hoặc loại bỏ khỏi mô hình.
Các thuộc tính mô hình quan trọng ở cấp nhập được thêm lần lượt vào mô hình. Sau khi một thuộc tính
mô hình được thêm vào, tất cả các thuộc tính đã có trong mô hình đều được kiểm tra xem chúng có còn
quan trọng ở cấp độ bên ngoài hay không ; nếu một hoặc nhiều không đúng thì cái có ít ý nghĩa nhất sẽ
bị loại khỏi mô hình. Quá trình từng bước này kết thúc khi không có thuộc tính mô hình nào bên ngoài
mô hình có ý nghĩa ở cấp độ nhập .
Giá trị cho Mức ý nghĩa đầu vào phải nhỏ hơn giá trị cho Mức ý nghĩa đầu ra.
Xấp xỉ logistic của các giá trị dự đoán
Giá trị dự đoán thường là một số từ 0 đến 1 và có thể được hiểu một cách thuận tiện dưới dạng xác
suất. Tuy nhiên, việc đánh giá mô hình hồi quy không đảm bảo rằng giá trị dự đoán được giới hạn bởi
0 và 1. Để khắc phục sự thiếu hụt này, Viscovery SOMine có thể tính toán xấp xỉ logistic của giá trị
dự đoán. Với mục đích này nó tính toán một
115
phù hợp nhất của hàm sigmoidal ánh xạ các kết quả đánh giá hồi quy vào các giới hạn được chỉ định.
Phép biến đổi sigmoid thành
Tùy chọn chuyển đổi sigmoidal cho phép xấp xỉ logistic.
Chỉ định giới hạn dưới và giới hạn trên cho các giá trị dự đoán cuối cùng.
Nhấp vào nút Đặt giá trị mặc định để đặt giới hạn cho cài đặt tiêu chuẩn (nghĩa là giá trị tối
thiểu và tối đa của giá trị mục tiêu được tìm thấy trong dữ liệu mô hình).
Hồi quy logistic với R
Để cung cấp tùy chọn hồi quy logistic cho người dùng Viscovery, Viscovery SOMine đang sử dụng các
quy trình được viết và kiểm tra tốt từ ngôn ngữ kịch bản mã nguồn mở R, được các nhà khoa học dữ
liệu trên toàn thế giới sử dụng rộng rãi. Để tính toán hồi quy logistic, R phải được cài đặt trên
máy tính và đường dẫn đến bộ xử lý R phải được chỉ định (xem Giao diện R trong Tùy chọn 12.3). Đối
với hồi quy logistic thông thường, Viscovery SOMine sử dụng hàm glm của số liệu thống kê gói R tiêu
chuẩn. Để biết tài nguyên học tập về R, hãy xem www.r-project.org.
Chính quy
Chọn tùy chọn này để tính hồi quy logistic chuẩn hóa. Điều này yêu cầu cài đặt gói R glmnet. Khi
Viscovery SOMine xác định rằng gói không có, nó sẽ đề nghị cài đặt gói đó. Nhấp vào liên kết được
cung cấp và làm theo hướng dẫn cài đặt.
Tham số chính quy alpha phải nằm trong khoảng từ 0 đến 1 và cho phép điều chỉnh tính chính quy
theo nhu cầu của người dùng. Đối với hồi quy sườn, alpha được đặt thành 0, trong khi hồi quy Lasso
được tính toán khi alpha bằng 1. Giá trị lớn hơn 0 nhưng nhỏ hơn 1 có cả hình phạt, sườn và Lasso,
với trọng số alpha-1 và alpha , tương ứng. Lưu ý rằng cường độ chung của việc chính quy hóa (một
tham số thường được gọi là lambda trong tài liệu) không cần phải được cung cấp vì nó được tối ưu
hóa nội bộ bằng cách sử dụng quy trình xác thực chéo.
Nhấp vào Kết thúc để bắt đầu tính toán mô hình toàn cầu (tức là hồi quy tuyến tính hoặc logistic).
Khi mô hình toàn cầu được hoàn thành, bước này sẽ có một tiêu đề duy nhất dựa trên tiêu đề của bước
Chọn Data Mart trước đó . Tên này được sử dụng trong bước Xác thực mô hình để xác định mô hình
hồi quy toàn cầu.
7.2.3 Kết quả hồi quy toàn cầu
Bấm đúp vào một bước Mô hình toàn cầu điện toán đã hoàn thành sẽ mở ra cửa sổ Kết quả hồi quy
toàn cầu và Thông tin tiền xử lý .
116
Kết quả của cửa sổ hồi quy toàn cầu
TRÌNH
VIỆC
CÔNG
QUY
TẠO
7
Thông tin thống kê về hồi quy toàn cầu được liệt kê trên mỗi thuộc tính. Các cột được hiển thị phụ thuộc
vào loại mô hình hồi quy.
Hồi quy tuyến tính từng bước và đầy đủ: Giá trị trung bình , Độ lệch chuẩn, Dung sai, Tương quan với
<giá trị mục tiêu>, Beta, Hệ số, Độ lệch chuẩn của các hệ số, Ảnh hưởng của biến, T-test, T-signifi-
cance, và Giới hạn dưới và Giới hạn trên giới hạn của khoảng tin cậy của hệ số hồi quy
Hồi quy logistic: Giá trị trung bình, Độ lệch chuẩn, Beta, Hệ số, Độ lệch chuẩn của các hệ số, Tỷ lệ
chênh lệch, Kiểm định Z, Ý nghĩa Z, và Giới hạn dưới và Giới hạn trên của tỷ lệ chênh lệch
Hồi quy logistic chính quy: Tỷ lệ trung bình, độ lệch chuẩn, Beta, Hệ số và Tỷ lệ chênh lệch
Dung sai mô tả sự phụ thuộc tuyến tính giữa các biến hồi quy và được tính bằng Ti = 1 Ri trong đó Ri 2
2
,
là hệ số xác định của hồi quy tuyến tính trong đó thuộc tính i là giá trị đích của các biến hồi quy còn
lại. (Giá trị mục tiêu không phải là một phần của phép tính này.)
Các giá trị của dung sai nằm trong khoảng từ 0 đến 1, trong đó các giá trị nhỏ biểu thị sự phụ thuộc gần
như tuyến tính của thuộc tính vào các biến hồi quy khác. Những thuộc tính như vậy nên được xóa khỏi hồi quy.
Các thuộc tính riêng lẻ được tạo ra từ một thuộc tính danh nghĩa luôn thẳng hàng và sẽ luôn được báo cáo
với dung sai là 0; chỉ có hồi quy từng bước mới có thể xóa (ít nhất) thuộc tính dư thừa và nên được sử
dụng nếu các thuộc tính danh nghĩa được sử dụng làm biến hồi quy.
Mối tương quan với <giá trị mục tiêu> là hệ số tương quan thời điểm sản phẩm Pearson của thuộc tính và
giá trị mục tiêu.
Beta là hệ số hồi quy được chuẩn hóa. Các giá trị này có thể được so sánh với nhau và thuộc tính có giá
trị beta lớn nhất có ảnh hưởng lớn nhất đến biến mục tiêu. Giá trị beta báo cáo số lượng độ lệch chuẩn mà
giá trị mục tiêu thay đổi khi hệ số hồi quy bị thay đổi bởi một độ lệch chuẩn.
Hệ số báo cáo hệ số hồi quy thực tế. Các giá trị này không thể so sánh được với nhau vì chúng tính đến độ
lớn của biến hồi quy.
117
Độ lệch chuẩn của hệ số cho biết độ chính xác của các hệ số, chúng chỉ là ước tính của các hệ số của tổng thể
cơ bản. Giá trị lớn trong cột này biểu thị công cụ ước tính không chính xác. Hơn nữa, độ lệch chuẩn của hệ số
có liên quan chặt chẽ với
dung sai: Dung sai nhỏ cho thấy hệ số không chính xác, điều này cũng dẫn đến độ lệch chuẩn lớn của hệ số.
Ảnh hưởng của biến liệt kê ước tính về phần biến thiên được giải thích được quy cho
đến biến.
Kiểm định T cho thấy giá trị kiểm định T theo kinh nghiệm của kiểm định hai phía về việc hệ số có bằng 0 hay không (nghĩa là
biến hồi quy đóng góp đáng kể vào giá trị mục tiêu). Đó là tỉ số giữa hệ số và
độ lệch chuẩn thực nghiệm của nó.
Ý nghĩa T cho thấy tầm quan trọng của T-test hai mặt.
Giới hạn dưới và giới hạn trên của khoảng tin cậy đối với hệ số hồi quy thực
Được hiển thị. Nếu khoảng tương ứng chứa 0 thì thuộc tính đó không có khả năng dự đoán. Mức độ tin cậy được
sử dụng cho khoảng thời gian có thể được chọn trên thanh công cụ.
Tỷ lệ chênh lệch cho biết tỷ lệ chênh lệch đang tăng lên bao nhiêu khi biến hồi quy tương ứng tăng lên một đơn
vị. Nó được tính bằng exp(Hệ số). Giá trị bằng 1 có nghĩa là tỷ lệ cược độc lập với biến hồi quy. Giá trị 1,1
có nghĩa là tỷ lệ cược đang tăng 10%, trong khi giá trị
là 0,9 có nghĩa là tỷ lệ cược đang giảm 10%. Lưu ý rằng – về hệ số – tỷ lệ chênh lệch
phụ thuộc vào đơn vị tự nhiên của biến hồi quy.
Tương tự như giá trị t-test, Z-test hiển thị giá trị của thống kê kiểm tra của một thử nghiệm hai mặt của
hệ số có bằng 0 hay không (tức là biến hồi quy đóng góp đáng kể vào giá trị mục tiêu).
Một lần nữa, đó là tỷ lệ của hệ số và độ lệch chuẩn của nó. Lưu ý rằng trong biểu thức logistic -
sion độ lệch chuẩn có liên quan đến giá trị trung bình, do đó không có mức độ bổ sung
tự do như trong hồi quy tuyến tính. Điều này làm cho thống kê kiểm tra có phân phối chuẩn thay vì phân phối t. Do
đó, Z-test phải được sử dụng trong trường hợp này.
Ý nghĩa Z cho thấy tầm quan trọng của kiểm định Z hai phía.
Giới hạn dưới và giới hạn trên của tỷ lệ chênh lệch của khoảng tin cậy đối với tỷ lệ chênh lệch được hiển thị.
Nếu khoảng tương ứng chứa 1 thì thuộc tính đó không có bất kỳ giá trị dự đoán nào
quyền lực. Mức độ tin cậy được sử dụng cho khoảng thời gian có thể được chọn trên thanh công cụ.
Tùy thuộc vào loại hồi quy, các giá trị bổ sung được hiển thị bên dưới bảng thống kê: loại hồi quy (Hồi quy
từng bước, Hồi quy đầy đủ, Hồi quy logistic, Logistic chính quy
hồi quy), Số bản ghi, Số biến hồi quy, Lambda tối ưu, Hệ số xác định, McFad-den R², F-test, F-significance,
Chi²-test, Chi²-significance, Tổng bình phương được giải thích trung bình, Tổng bình phương không giải thích
được trung bình của bình phương, Tổng bình phương trung bình, Tỷ lệ sai lệch, Độ lệch mô hình, Độ lệch Null,
Hệ số xác định được điều chỉnh, McFadden R² đã điều chỉnh, AIC, BIC, Mất nhật ký, Lỗi tiêu chuẩn và
Khoảng dự đoán (trung bình).
118
TRÌNH
Hồi quy từng bước, Hồi quy đầy đủ, Hồi quy logistic hoặc Hồi quy logistic chính quy cho biết mô
VIỆC
CÔNG
hình được tính toán bằng hồi quy logistic tuyến tính (từng bước hoặc đầy đủ) hay (chính quy).
QUY
TẠO
7
Số bản ghi là số N bản ghi dữ liệu được sử dụng trong hồi quy toàn cục.
Số lượng các biến hồi quy là số K thuộc tính được sử dụng trong hồi quy toàn cục cuối cùng.
Khi chọn Hồi quy từng bước , con số này có thể khác với số lượng mô hình tại - cống đã chọn.
Lambda tối ưu là tham số chính quy hóa nội bộ, được tối ưu hóa thông qua xác thực chéo. Nó chỉ
được báo cáo cho hồi quy logistic thường xuyên.
Hệ số xác định là tỷ lệ độ biến thiên của thuộc tính mục tiêu được giải thích bởi các biến hồi
quy:
ˆ ˉ 2
S2
giải thích k (yk
2
R := = ˉ 2 .
S2 tổng cộng y) k (yk y)
Tham số này được hiển thị cho các hồi quy tuyến tính và nằm trong khoảng từ 1, biểu thị mức độ phù hợp hoàn
hảo và 0, biểu thị rằng các biến hồi quy không có bất kỳ khả năng dự đoán nào.
McFadden R² là hệ số xác định tổng quát, cũng có thể áp dụng cho hồi quy phi tuyến tính và được
hiển thị cho hồi quy logistic. Nó được tính như
LLM
McFadden R2 := 1 ,
LL0
trong đó LLM và LL0 lần lượt là khả năng ghi nhật ký của mô hình thực tế và mô hình null (chỉ bao gồm số hạng
chặn). Một lần nữa, tham số này nằm trong khoảng từ 1 cho sự phù hợp hoàn hảo và 0 cho mô hình tầm thường.
F-test báo cáo giá trị F-test theo kinh nghiệm của hồi quy tuyến tính. Khi giá trị F-test vượt quá
giá trị tới hạn, hồi quy tuyến tính toàn cầu có khả năng dự đoán và có thể được coi là có ý
nghĩa quan trọng. Thật không may, giá trị tới hạn phụ thuộc vào số lượng bản ghi dữ liệu và số
lượng biến hồi quy trong mô hình.
119
Mức ý nghĩa F là tầm quan trọng của kiểm định F và được tính từ giá trị kiểm định F; nó độc lập với số lượng bản ghi
và số lượng biến hồi quy. Nếu mức ý nghĩa F giảm xuống dưới giá trị tới hạn thì mô hình có ý nghĩa. Thông thường, giá
trị này là 0,05, nhưng 0,1 và 0,01 đôi khi cũng được sử dụng.
Chi²-test báo cáo giá trị của thống kê kiểm tra D0 – DM cho hồi quy logistic, trong đó DM và
D0 lần lượt là độ lệch của mô hình thực tế và mô hình null (chỉ bao gồm thuật ngữ chặn).
Thống kê kiểm tra này được phân phối Chi².
Ý nghĩa của Chi² là tầm quan trọng của kiểm tra Chi² và được tính từ giá trị kiểm tra Chi²;
nó độc lập với số lượng bản ghi và số lượng biến hồi quy. Nếu hệ số ý nghĩa Chi² giảm xuống
dưới giá trị tới hạn thì mô hình có ý nghĩa.
Tổng bình phương được giải thích trung bình là thước đo mức độ biến thiên trong dữ liệu được giải
thích bằng mô hình tuyến tính:
2 2 2
S := S S lỗi.
giải thích
Tổng bình phương trung bình không giải thích được là thước đo cho mức độ biến thiên trong dữ liệu vẫn
không được giải thích bằng mô hình tuyến tính:
2 1 2
ˆ
S lỗi
:= .
N k (yk yk )
Tổng bình phương trung bình là thước đo cho tổng độ biến thiên của dữ liệu:
2 1 ˉ 2
S := .
N k (yk y)
Giá trị này chỉ được báo cáo cho các mô hình tuyến tính và gần như giống với phương sai của thuộc tính đích.
Tỷ lệ sai lệch được báo cáo cho hồi quy logistic và được tính bằng
DM
1 ;D0
ở đây, độ lệch mô hình DM và độ lệch Null D0 được tính như
DM := 2 (LLS LLM)
Và
D0 := 2 (LLS LL0 )
trong đó LLM và LL0 là khả năng ghi nhật ký của mô hình thực tế và mô hình null và LLS là
khả năng ghi nhật ký của mô hình bão hòa (tức là mô hình hoàn toàn phù hợp với dữ liệu mô hình).
Vì LLS = 0 trong hầu hết các trường hợp nên tỷ lệ sai lệch và McFadden R2 thường trùng nhau.
Các độ lệch trong hồi quy logistic có ý nghĩa tương tự như tổng bình phương trong hồi quy tuyến tính. Một mô hình phù
hợp nếu độ lệch của mô hình nhỏ so với độ lệch null, tức là nếu tỷ lệ độ lệch gần bằng 1.
120
Hệ số xác định hiệu chỉnh là hệ số xác định được điều chỉnh theo số lượng thuộc tính của mô hình:
N -1
2 2
R
:= 1 (1 R) .
tính từ N K 1
Hãy xem xét hai mô hình hồi quy cho cùng một dữ liệu trong đó mô hình thứ hai có thêm một biến hồi
quy. Trong trường hợp này, hệ số xác định R2 cho mô hình thứ hai sẽ lớn hơn, mặc dù nó không nhất
thiết cung cấp một mô hình tốt hơn. Hệ số xác định được điều chỉnh sẽ xử phạt các mô hình lớn hơn
và do đó cung cấp thước đo tốt hơn để so sánh chất lượng của các mô hình hồi quy cho cùng một dữ
liệu.
Tương tự, McFadden R2 đã điều chỉnh là phiên bản được điều chỉnh của McFadden R2:
K
McFadden R2 := McFadden R2 tính .
từ LL0
TRÌNH
VIỆC
CÔNG
AIC là Tiêu chí Thông tin Akaike
QUY
TẠO
7
AIC := 2 K 2 LLM.
BIC là Tiêu chí Thông tin Bayesian
BIC := ln(N) K 2 LLM.
AIC và BIC thường được sử dụng để so sánh các mô hình với số lượng biến hồi quy khác nhau.
Giá trị AIC và BIC nhỏ hơn cho thấy mô hình tốt hơn. AIC và BIC chỉ được báo cáo cho hồi quy
logistic.
Mất log chỉ được báo cáo cho hồi quy logistic. Đó là mức mất log trung bình trên tất cả các bản ghi
và có thể được tính từ khả năng ghi nhật ký của mô hình như sau
LLM
logloss := .
N
Sai số chuẩn Sres được tính cho hồi quy tuyến tính bằng cách đánh giá
S2 S2
giải thích
S2 :=
tổng cộng
độ phân giải
N K 1
Trong mô hình hồi quy tuyến tính, Khoảng dự đoán (trung bình) là khoảng tin cậy của giá trị đích
nếu nó được dự đoán về giá trị trung bình của các thuộc tính mô hình. Các giá trị dự đoán chỉ là
công cụ ước tính của các giá trị thực (phù hợp) và do đó, cũng có thể xác định khoảng tin cậy cho
mỗi giá trị dự đoán bao gồm giá trị dự đoán thực với xác suất được xác định trước (mức độ tin cậy,
mà có thể được chọn trên thanh công cụ).
Mức độ tin cậy
Các hệ số hồi quy được tính toán là ước tính các hệ số thực tế của tổng thể cơ bản, chưa được
biết. Khoảng tin cậy đưa ra phạm vi giá trị ước tính có khả năng bao gồm hệ số chưa biết và được
tính từ dữ liệu mẫu có sẵn (dữ liệu mô hình). Nếu các mẫu độc lập được lấy nhiều lần từ cùng một
quần thể và
121
khoảng tin cậy đã được tính toán, sau đó một tỷ lệ phần trăm nhất định ( mức độ tin cậy) của các khoảng sẽ bao
gồm các hệ số chưa biết.
Tỷ lệ phần trăm phổ biến có thể được chọn trên thanh công cụ: 50%, 80%, 90%, 95%, 99%, 99,9%.
Giá trị đã chọn được sử dụng để cập nhật các cột Giới hạn dưới và Giới hạn trên cũng như Khoảng dự đoán (trung
bình).
Cửa sổ thông tin tiền xử lý
Cửa sổ Thông tin tiền xử lý hiển thị thông tin về các Biến đổi đã được áp dụng cho dữ liệu được sử dụng để tạo
mô hình. Các giá trị Độ lệch Tối thiểu, Tối đa, Trung bình và Tiêu chuẩn cũng như các giá trị Thiếu của từng
thuộc tính cũng như Mô tả thuộc tính cũng được hiển thị.
Các cửa sổ được đóng bằng File | Đóng.
7.3 Tính toán mô hình cục bộ
Với bước Tính toán mô hình cục bộ của quy trình Tạo dự đoán , một mô hình hồi quy cục bộ sẽ được tạo.
Bước quy trình công việc này bao gồm phân tích phi tuyến tính và một phương pháp rất phức tạp để tối ưu hóa các
mô hình dự đoán cục bộ. Ý tưởng cơ bản là tạo ra các cụm vi mô (nút) đồng nhất bằng cách sắp xếp dữ liệu trên
bản đồ (để được giải thích chi tiết hơn, hãy xem 1.2.1 Bản đồ tự tổ chức) và tạo ra nhiều hồi quy cục bộ, một
hồi quy cục bộ cho mỗi cụm vi mô. Phần A.9 Dự đoán SOM cục bộ cung cấp nền tảng cho phương pháp hồi quy cục bộ.
Hồi quy tuyến tính chỉ là mô hình thống kê tối ưu khi sự phụ thuộc giữa các thuộc tính của mô hình và giá trị
đích là tuyến tính. Tuy nhiên, sự phụ thuộc phi tuyến tính có thể tồn tại trong dữ liệu thực tế. Trong Viscovery
SOMine, các giá trị phi tuyến tính được ước tính gần đúng từng phần với nhiều hồi quy cục bộ (tuyến tính), một
hồi quy cho mỗi cụm vi mô trên bản đồ. Nói cách khác, nếu sự phụ thuộc giữa một thuộc tính và giá trị đích là
tuyến tính thì không cần hồi quy cục bộ (nghĩa là không cần sắp xếp dữ liệu theo thuộc tính này). Ngược lại, sự
phụ thuộc càng phi tuyến tính giữa một thuộc tính và giá trị đích thì càng thu được nhiều kết quả hồi quy cục bộ
(nghĩa là việc sắp xếp dữ liệu thành các nút đồng nhất theo thuộc tính này càng quan trọng). Tầm quan trọng của
một thuộc tính trong thứ tự bản đồ được gọi là mức độ ưu tiên.
Mức độ ưu tiên cho bản đồ đầu tiên được tạo do người dùng đặt hoặc được lấy từ bản đồ hiện có. Đối với mỗi nút
của bản đồ, hồi quy cục bộ được tính toán. Ngoài dữ liệu khớp với nút này, dữ liệu của các nút lân cận được sử
dụng để tính toán hồi quy cục bộ nhằm tích lũy đủ dữ liệu nhằm đảm bảo các mô hình hồi quy cục bộ có ý nghĩa.
Sau đó, phân tích phi tuyến tính được thực hiện và tính toán mức độ ưu tiên cho bản đồ được tối ưu hóa.
Trong các lần lặp tiếp theo, các bản đồ mới được tạo bằng cách sử dụng mức độ ưu tiên được tính toán từ lần lặp
trước đó. Hồi quy cục bộ được tính toán và phân tích phi tuyến tính được thực hiện để đưa ra các ưu tiên cho
lần lặp tiếp theo.
Không có lần lặp nào nữa được thực hiện khi sai số bình phương trung bình (nghĩa là chênh lệch giữa giá trị dự
đoán và giá trị thực của dữ liệu mô hình) kém hơn lần lặp trước đó hoặc khi đã thực hiện số lần lặp tối đa được
chỉ định.
Đầu ra của bước này là mô hình hồi quy cục bộ được tối ưu hóa, cung cấp cho người dùng những hiểu biết hữu ích
về dữ liệu bằng cách trình bày mức độ phi tuyến tính giữa tất cả các thuộc tính và giá trị đích. Ngoài ra, bản
đồ cơ bản được hiển thị trong hình ảnh trực quan Viscovery độc đáo -
122
và cung cấp tất cả thông tin thống kê cần thiết để hiểu toàn bộ mô hình hồi quy cục bộ.
Không thể tính toán hồi quy cục bộ khi hồi quy logistic được tính toán ở bước Tính toán mô hình
toàn cầu trước đó .
7.3.1 Xác định chiến lược tối ưu hóa
Bấm đúp vào bước Mô hình tính toán cục bộ màu vàng của quy trình Tạo dự đoán sẽ mở hộp thoại Xác
định chiến lược tối ưu hóa .
TRÌNH
VIỆC
CÔNG
QUY
TẠO
7
Chiến lược tối ưu hóa
Bỏ qua tối ưu hóa
Tùy chọn Tối ưu hóa Bỏ qua cho phép bỏ qua quy trình hồi quy cục bộ.
Khi tùy chọn này được bật và nhấp vào nút Kết thúc , bước Tính toán mô hình cục bộ sẽ được hoàn
thành mà không tạo ra mô hình hồi quy cục bộ. Mô hình hồi quy toàn cầu từ bước trước sẽ được sử
dụng làm mô hình kết quả cho bước đã hoàn thành, như được mô tả trong bước Xác thực mô hình sau
đây .
Tính toán các mô hình tối ưu hóa
Tùy chọn Mô hình được tối ưu hóa tính toán cho phép tính toán mô hình hồi quy cục bộ được tối ưu
hóa. Phần dư của hồi quy toàn cục được ước tính bằng hồi quy cục bộ như được mô tả trong A.9 Dự
đoán SOM cục bộ. Tùy chọn này chỉ khả dụng khi hồi quy tuyến tính được tính toán ở bước Tính
toán mô hình toàn cầu .
Khi tùy chọn Tính toán các mô hình được tối ưu hóa được bật, phải chỉ định số lần lặp tối đa được
thực hiện cho quy trình tối ưu hóa với các tham số đã chỉ định.
Hãy xem xét rằng số lần lặp lại có tác động lớn đến thời gian cần thiết để hoàn thành bước này.
Nhập 1 để tạo cơ sở cho các mô hình cục bộ trên bản đồ đã được tối ưu hóa.
123
Nếu chất lượng mô hình (tức là sai số bình phương trung bình) của lần lặp n kém hơn chất lượng
mô hình của lần lặp n 1 thì quá trình tối ưu hóa sẽ dừng lại và kết quả của lần lặp n 1 được
sử dụng.
Hệ số tăng dần cho giá trị số lần lặp chỉ định tốc độ học để tối ưu hóa và phải lớn hơn 0 và nhỏ hơn
hoặc bằng 1. Khi giá trị được đặt thành 1, mức độ ưu tiên được tạo trong một lần lặp sẽ được sử dụng
cho lần lặp tiếp theo. Nếu bất kỳ giá trị nào khác được nhập vào, mức độ ưu tiên sẽ được điều chỉnh
từ giá trị cũ sang giá trị mới theo tỷ lệ thuận với hệ số đã cho. Chiến lược này thường được sử dụng
trong tối ưu hóa: Chỉ thực hiện các bước nhỏ theo hướng đề xuất để tránh vượt quá mục tiêu.
Thông số hồi quy
Ý nghĩa tổng thể
Tầm quan trọng tổng thể chỉ rõ tầm quan trọng mà mỗi hồi quy cục bộ phải thỏa mãn. Nếu không tìm
thấy mô hình cục bộ nào cho nút bản đồ có tầm quan trọng vượt quá Ý nghĩa tổng thể, thì hồi quy toàn
cục sẽ được sử dụng làm mô hình cục bộ.
từng bước
Tùy chọn Stepwise cho phép các thuộc tính trong mô hình cục bộ được chọn theo quy trình từng bước.
Khi tùy chọn Stepwise được bật, mức ý nghĩa được nhập vào (Nhập ý nghĩa) và bị xóa khỏi (Xuất ý
nghĩa) mô hình phải được chỉ định trong các trường dữ liệu này.
Giá trị Ý nghĩa đầu vào phải nhỏ hơn giá trị Ý nghĩa đầu ra. Giá trị Ý nghĩa tổng thể
không được nhỏ hơn giá trị Ý nghĩa tổng thể.
Mô hình địa phương dựa trên bản đồ
Bản đồ cho lần lặp đầu tiên của quá trình tối ưu hóa được xác định.
Chọn Bản đồ mới để xác định bản đồ mới (bao gồm khả năng xác định mức độ ưu tiên của riêng bạn cho
lần lặp đầu tiên). Nhấp vào Tiếp theo để mở hộp thoại Xác định thông số đào tạo bản đồ .
Chọn Bản đồ hiện có và chọn bản đồ hiện có cho lần lặp lại tối ưu hóa đầu tiên. Tùy chọn này được sử
dụng khi đã đạt được kết quả tốt và bạn muốn cải thiện nó bằng nhiều lần lặp lại hoặc các thông số
khác. Đặc biệt, khi phải tạo mô hình cuối cùng (sau khi xác thực một số mô hình) mà không cần phân
vùng dữ liệu (xem 7.1.3 Xác định phân vùng dữ liệu), mô hình có ngày hợp lệ có thể được chọn làm mẫu
cho mô hình cuối cùng với tùy chọn này .
Mô hình phải đáp ứng các điều kiện sau cho tất cả các thuộc tính được chọn cho phần trước
Bước tính toán mô hình toàn cầu :
Tất cả các thuộc tính này phải có trong mô hình. Các thuộc tính chỉ được tra cứu bởi
tên.
Các tùy chọn tiền xử lý (thuộc tính danh nghĩa, thay thế, biến đổi) được sử dụng để tính toán mô hình phải giống
với các tùy chọn tiền xử lý trong kho dữ liệu mô hình của quy trình công việc hiện tại.
124
Mô hình phải được huấn luyện với một số thuộc tính có mức độ ưu tiên khác 0.
Mô hình có thể có các thuộc tính bổ sung mà không có hạn chế nào.
Nhấp vào Tiếp theo để mở hộp thoại Tối ưu hóa mô hình cục bộ .
7.3.2 Xác định các thông số đào tạo bản đồ và ưu tiên các thuộc tính
Hộp thoại Xác định tham số huấn luyện bản đồ và Ưu tiên thuộc tính chỉ khả dụng khi Bản đồ mới đã được
chọn trong hộp thoại trước.
TRÌNH
VIỆC
CÔNG
QUY
TẠO
7
Kích thước bản đồ
Chỉ định số nút mà bản đồ kết quả phải có. Số lượng nút xác định mức độ chi tiết của bản đồ: Việc chỉ
định nhiều nút hơn sẽ tạo ra bản đồ chi tiết hơn nhưng yêu cầu nhiều thời gian đào tạo hơn. Vì các nút
trong bản đồ kết quả được sắp xếp trên lưới lục giác và do định dạng (tỷ lệ bản đồ) được tính đến nên
số lượng nút trong bản đồ thực tế có thể hơi khác so với chỉ định.
Thời gian cần thiết để đào tạo phụ thuộc vào số lượng bản ghi dữ liệu và số lượng nút
trong bản đồ kết quả.
Chỉ định định dạng bản đồ. Khi sử dụng mặc định, Định dạng bản đồ tự động , tỷ lệ bản đồ sẽ được tính
từ tỷ lệ mặt phẳng chính của tập dữ liệu nguồn. Việc chọn Bản đồ hình vuông buộc phải có định dạng hình
vuông; và chọn Tỷ lệ và chỉ định một số từ 1 đến 100 trong trường ở bên phải 100: buộc một tỷ lệ cụ thể
của trục x ngang với trục y dọc. Trục ngang thường sẽ dài hơn trục tung. Bản đồ thu được có thể cao
hơn một chút so với chiều rộng do chỉ làm tròn ở những bản đồ rất nhỏ hoặc có tỷ lệ gần như vuông.
125
Căng thẳng
Chỉ định độ căng trong bản đồ kết quả. Khi độ căng nhỏ, bản đồ sẽ thích ứng tốt hơn với không gian dữ liệu
(nghĩa là sự khác biệt trong dữ liệu được thể hiện tốt hơn và các giá trị thuộc tính trung bình ít hơn). Giá
trị tiêu biểu là từ 0,3 đến 2.
Lịch đào tạo
Chỉ định lịch trình đào tạo cho bản đồ kết quả. Quá trình đào tạo bị ảnh hưởng bởi các bộ tham số có sẵn từ
danh sách thả xuống: Nhanh, Bình thường và Chính xác. Các cài đặt này tương ứng với lịch trình nội bộ cho
quá trình đào tạo. Độ chính xác cao hơn đòi hỏi nhiều bước lặp hơn và do đó thời gian đào tạo dài hơn.
Nhanh chóng để có được cái nhìn tổng quan nhanh về dữ liệu và các tập
dữ liệu lớn Bình thường cho độ
chính xác tiêu chuẩn Chính xác để có độ chính xác cao hơn (yêu cầu nhiều bước lặp hơn cài đặt Bình thường
và do đó, thời gian đào tạo dài hơn)
Nhấp vào Tiếp theo để mở cửa sổ Ưu tiên thuộc tính .
Hộp thoại này cho phép xác định mức độ ưu tiên cho từng thuộc tính được sử dụng cho bản đồ đầu tiên trong quá
trình tối ưu hóa cũng như các phương pháp chia tỷ lệ.
Có thể sử dụng các giá trị trong cột Ưu tiên từ các mô hình khác. Nhấp vào nút Take From… để chọn bản đồ từ
đó sẽ ưu tiên thực hiện. Bản đồ đã chọn sẽ được quét để tìm các thuộc tính có cùng tên với các thuộc tính
trong bảng. Các ưu tiên tương ứng sẽ được sao chép. Mức độ ưu tiên không thay đổi khi không tìm thấy thuộc
tính tương ứng trong bản đồ đã chọn.
Nếu các thuộc tính có mối tương quan cao, chúng sẽ gây ảnh hưởng quá mức đến quá trình sắp xếp bản đồ. Bằng
cách chọn Tương quan bù, Viscovery SOMine tự động giảm mức độ ưu tiên của các thuộc tính có tương quan cao
để có được bản đồ cân bằng hơn.
Nhấp vào nút Ưu tiên… để xác định mức độ ưu tiên của các thuộc tính được đánh dấu trong bảng theo cách thủ công.
126
Sự ưu tiên
Trong mô hình thu được từ quy trình công việc này, các bản ghi dữ liệu được sắp xếp theo thứ tự (theo thuật toán
TRÌNH
Kohonen, xem A.1 Thuật toán Kohonen) theo độ giống nhau của chúng (nghĩa là theo độ giống nhau của các giá trị
thuộc tính của chúng). Bằng cách thiết lập mức độ ưu tiên của thuộc tính, mức độ ảnh hưởng đến việc tính toán độ
VIỆC
CÔNG
QUY
TẠO
tương tự (do đó, thứ tự) được xác định cho từng thuộc tính.
7
Theo mặc định, mức độ ưu tiên của tất cả các thuộc tính được đặt thành 1 để tất cả chúng đều có ảnh hưởng như nhau
đến quá trình đặt hàng. Ví dụ, nên sử dụng 1,2 cho các thuộc tính quan trọng, 1,5 cho các thuộc tính rất quan trọng
và 0,7 cho các thuộc tính ít quan trọng hơn. Giá trị từ 0 đến 100 có thể được chỉ định cho mức độ ưu tiên.
Một trường hợp đặc biệt phát sinh nếu mức độ ưu tiên của một thuộc tính là 0. Thuộc tính như vậy
trở nên không liên quan đến quá trình huấn luyện và được liên kết với phần còn lại của dữ liệu mà
không ảnh hưởng đến chính quá trình sắp xếp.
Chia tỷ lệ
Khi chọn Sử dụng tỷ lệ mặc định trong hộp thoại Ưu tiên , Viscovery SOMine sẽ rút ra phương pháp chia tỷ lệ bằng
cách sử dụng các phương pháp phỏng đoán sau: Khi phạm vi của một thuộc tính nhỏ hơn 8 lần độ lệch chuẩn của nó, nó
sẽ được chia tỷ lệ theo Phương sai (tức là chia cho độ lệch chuẩn của nó). ). Nếu không, tỷ lệ được đặt thành Phạm
vi. Trong thực tế, số heuristic này mang lại một tỷ lệ khá tự nhiên và được đưa vào để thuận tiện. Do đó, tốt nhất
nên sử dụng tỷ lệ được xác định bởi Viscovery SOMine. Tuy nhiên, có thể chọn phương pháp chia tỷ lệ bằng cách bỏ
chọn Sử dụng tỷ lệ mặc định. Việc thay đổi tỷ lệ từ mặc định được đề xuất sang tùy chọn khác (tức là từ Phương sai
sang Phạm vi hoặc ngược lại) có tác dụng tương tự như đặt mức độ ưu tiên cao hơn: tác động tương đối của thuộc tính
lên quá trình huấn luyện thường tăng lên. Có thể bỏ chọn các phương pháp phỏng đoán trong tab Mô hình hóa của hộp
thoại tùy chọn (12.3 Tùy chọn) để tỷ lệ phương sai luôn được sử dụng (mặc dù chúng vẫn có thể được chọn rõ ràng
trong hộp thoại này). Hơn nữa, theo mặc định, những phương pháp phỏng đoán này không được sử dụng cho các thuộc
tính danh nghĩa; phương pháp chia tỷ lệ mặc định của họ là Range.
Nhấn Next để mở cửa sổ Optimize Local Model .
127
7.3.3 Tối ưu hóa mô hình cục bộ
Hộp thoại Optimize Local Model cho phép chỉ định một phương pháp tối ưu hóa để tìm các trường tiếp nhận.
Tối ưu hóa hồi quy cục bộ thực sự là nhiệm vụ tìm trường tiếp nhận tối ưu cho mỗi nút bản đồ. Để đạt
được hồi quy cục bộ đáng kể, hồi quy cục bộ thường không được tính cho riêng các bản ghi dữ liệu của
một nút mà cho các bản ghi dữ liệu được tìm thấy trong vùng lân cận của một nút. Trường tiếp nhận mô
tả vùng lân cận Gaussian của một nút.
Các bản ghi dữ liệu của chính nút đó có trọng số lớn nhất, các bản ghi dữ liệu của các nút lân cận trên
bản đồ có trọng số ít hơn và các nút ở xa có trọng số nhỏ tùy theo khoảng cách của chúng. Vì trọng số
Gaussian kéo dài đến vô cùng, nên “kích thước” của trường tiếp nhận thực sự biểu thị độ rộng của đỉnh
của hàm trọng số Gaussian. Khi trường tiếp nhận của một nút nhất định trở nên lớn hơn, nhiều nút lân cận
của nó có trọng số cao hơn. Trong trường hợp cực đoan là trường tiếp nhận vô cùng lớn, kết quả của hồi
quy cục bộ giống hệt với hồi quy toàn cầu vì trong trường hợp này, tất cả các nút (và do đó tất cả các
bản ghi dữ liệu) đều có trọng số giống hệt nhau để tính toán mô hình hồi quy.
Tối ưu hóa các trường tiếp nhận
Các tùy chọn để tối ưu hóa các trường tiếp nhận là Trên bản đồ, Riêng lẻ và Chỉ theo ràng buộc.
Trên bản đồ
Tùy chọn Trên bản đồ cho phép trường tiếp nhận được tối ưu hóa theo cách mà tất cả các nút trong bản đồ
đều có trường tiếp nhận có kích thước bằng nhau. Các lựa chọn sau đây có sẵn để tìm kích thước của các
trường tiếp nhận:
Theo số lượng bản ghi: tất cả các trường tiếp nhận đều chứa (gần như) cùng số lượng bản ghi dữ liệu.
Theo bán kính: tất cả các trường tiếp nhận có cùng bán kính. Trong trường hợp này, ràng buộc Số lượng
bản ghi tối thiểu (xem bên dưới) bị bỏ qua.
128
Nếu tần suất của các bản ghi dữ liệu rất không đồng nhất trên bản đồ thì nên chọn tùy chọn Theo số lượng
bản ghi vì nó bù đắp cho những bất thường này. Ngược lại, cả hai lựa chọn đều phải được thử và so sánh
kết quả.
Cá nhân
Tùy chọn Riêng lẻ cho phép xác định trường tiếp nhận tối ưu cho từng nút riêng biệt. Việc sử dụng phương
pháp này rất tốn thời gian. Trường tiếp nhận đưa ra dự đoán tốt nhất sẽ được chọn và được kiểm tra bằng
một “tập kiểm tra” nhỏ gồm các bản ghi dữ liệu được thu thập từ một trường tiếp nhận nhỏ xung quanh nút.
Ngoài các ràng buộc được chỉ định sau trong hộp thoại, các ràng buộc về hệ số lá chắn quá mức và mức độ
tin cậy cũng được chỉ định để chọn “bộ thử nghiệm” có kích thước phù hợp. Bộ kiểm tra phải đại diện cho
một mẫu dữ liệu mà cuối cùng các hồi quy cục bộ sẽ được sử dụng. Tập kiểm tra không được quá lớn, vì bản
thân tập kiểm tra là giới hạn dưới của trường tiếp nhận của hồi quy cục bộ. Những ràng buộc này đảm bảo
rằng chất lượng dự đoán được đo lường cho các mô hình có thể thực hiện được là có ý nghĩa.
TRÌNH
VIỆC
CÔNG
Quá khớp, một tình huống trong đó mô hình mô tả dữ liệu mô hình nhưng không trừu tượng hóa các tính
QUY
TẠO
năng vốn có trong dữ liệu, là một vấn đề trọng tâm mà nhiều phương pháp thống kê gặp phải. Một mô hình
7
như vậy không có khả năng dự đoán vì nó không thể được sử dụng để đưa ra những khái quát hóa.
Quá khớp thường xảy ra khi dữ liệu không đủ.
Chỉ bằng những ràng buộc
Khi tùy chọn Chỉ theo ràng buộc được bật, các trường tiếp nhận sẽ được chọn sao cho đáp ứng các giá trị
tối thiểu được chỉ định bên dưới. Tùy chọn này ngăn chặn hiệu quả việc tối ưu hóa.
Tùy chọn Chỉ theo ràng buộc chỉ nên được sử dụng bởi các chuyên gia vì các giá trị tối ưu
cho các trường dữ liệu được mô tả bên dưới phải được biết trước.
Các ràng buộc đối với hồi quy cục bộ
Cài đặt Ràng buộc cho hồi quy cục bộ được sử dụng làm ràng buộc bổ sung khi các trường tiếp nhận được
chọn. Tất cả các ràng buộc phải được thỏa mãn đồng thời đối với bất kỳ trường tiếp nhận nào của nút. Nếu
không tìm thấy hồi quy cục bộ nào thỏa mãn Tầm quan trọng tổng thể được chỉ định trong hộp thoại Xác
định chiến lược tối ưu hóa cho một nút theo các ràng buộc đã chỉ định, thì hồi quy toàn cục sẽ được sử
dụng cho nút đó.
Số lượng hồ sơ tối thiểu
Giá trị số lượng bản ghi tối thiểu là số lượng bản ghi nhỏ nhất phải được sử dụng trong trường tiếp
nhận lại cho hồi quy cục bộ. Ràng buộc này sẽ bị bỏ qua nếu chọn tối ưu hóa Trên bản đồ và Theo bán kính .
Thuộc tính bản ghi/mô hình tối thiểu
Khi số lượng thuộc tính mô hình có thể là ứng cử viên hồi quy tăng lên, thì cần có số lượng bản ghi dữ
liệu lớn hơn để có được kết quả quan trọng. Giá trị Bản ghi/thuộc tính mô hình tối thiểu cho phép chỉ
định số lượng bản ghi dữ liệu nhỏ nhất cho mỗi thuộc tính mô hình phải được sử dụng trong trường tiếp
nhận cho hồi quy cục bộ.
129
Bán kính tiếp nhận tối thiểu
Giá trị Bán kính tiếp nhận tối thiểu chỉ định bán kính nhỏ nhất phải được sử dụng cho bán kính tiếp nhận.
cánh đồng. Bán kính là tham số cho vùng lân cận Gaussian của nút. Một lĩnh vực tiếp nhận
với bán kính 0,3 là tối thiểu, điều đó có nghĩa là (một cách hiệu quả) chỉ các bản ghi của chính nút đó
mới được xem xét. Bằng cách tăng bán kính của trường tiếp nhận, nhiều bản ghi hơn được sử dụng để
tính toán mô hình cục bộ Giá trị tối đa được phép là ba lần đường chéo bản đồ (được đo bằng khoảng cách
nút).
Nhấp vào Kết thúc để lưu các thay đổi và bắt đầu quá trình đào tạo và tối ưu hóa.
Quá trình đào tạo
Quá trình đào tạo có thể mất vài phút hoặc vài giờ, tùy thuộc vào số lượng
dữ liệu, số lần lặp, số nút, lịch đào tạo và hiệu suất -
khả năng của phần cứng của bạn.
Kết quả của bước quy trình tính toán Mô hình cục bộ là hồi quy cục bộ được tối ưu hóa
người mẫu. Bước đã hoàn thành sẽ được đặt một tiêu đề duy nhất dựa trên phần Tính toán trước đó.
Tiêu đề của bước Global Model . Tên này được sử dụng trong bước sau, Xác thực mô hình, để xác định mô
hình.
Nhấp đúp vào bước đã hoàn thành sẽ mở ra cửa sổ kết quả: Cửa sổ Kết quả hồi quy cục bộ cung cấp thông
tin thống kê về mô hình cục bộ. Cửa sổ Di-agnostics phi tuyến tính cho phép kiểm tra sự phụ thuộc phi
tuyến tính giữa dữ liệu. Các
Cửa sổ bản đồ hiển thị bản đồ và các thuộc tính của nó. Cửa sổ Bản đồ hệ số hiển thị
hệ số hồi quy cục bộ cho từng thuộc tính. Ngoài ra, việc mở menu Xem cho phép
kiểm tra Hồ sơ nhóm, Nhật ký sản xuất, Hồ sơ dữ liệu và Thống kê
130
suy sụp. Các phương tiện phân cụm và phân đoạn cũng có sẵn, nhưng chúng không có liên quan thực tế trong mô
hình hồi quy cục bộ.
Menu Window cung cấp các tùy chọn để chọn cửa sổ hiện đang hoạt động và sắp xếp tất cả các cửa sổ đang mở.
Chọn Tệp | Close để đóng tất cả các cửa sổ đang mở.
7.3.4 Kết quả của cửa sổ hồi quy cục bộ
Cửa sổ Kết quả hồi quy cục bộ hiển thị bản tóm tắt các mô hình hồi quy cục bộ.
TRÌNH
VIỆC
CÔNG
QUY
TẠO
7
Mô tả trung bình của các mô hình địa phương
Phần Mô tả Trung bình của Mô hình Cục bộ hiển thị giá trị trung bình trên tất cả các hồi quy cục bộ cho các tham số
quan tâm.
Số lượng bản ghi là số lượng bản ghi dữ liệu trung bình thực sự được sử dụng trong hồi quy cục bộ.
Số lượng các biến hồi quy là số trung bình của các thuộc tính mô hình (các biến hồi quy) thực sự được sử dụng trong các
hồi quy cục bộ.
Bán kính tiếp nhận là bán kính trung bình của trường tiếp nhận thực sự được sử dụng trong hồi quy cục bộ.
Mức ý nghĩa F* là mức ý nghĩa trung bình F* của các kết quả đạt được trong các hồi quy cục bộ.
Ước tính tích lũy của tổng bình phương địa phương
Phần Ước tính Tích lũy của Tổng Bình phương Địa phương hiển thị tổng của các tham số quan trọng nhất trong
tất cả các hồi quy cục bộ.
Các hồi quy cho biết mức độ giải thích được cung cấp bởi các hồi quy cục bộ.
Độ lệch cho biết mức độ biến thiên được giải thích bằng độ lệch.
Phần dư chỉ ra mức độ biến đổi vẫn chưa giải thích được; nó là “phần dư bậc hai”.
131
Tổng cộng là tổng bình phương của số dư của hồi quy toàn cục và do đó là tổng của ba giá trị trước đó.
Tỷ lệ ước tính phương sai
Phần Tỷ lệ Ước tính Phương sai hiển thị khả năng giải thích tương đối của các mô hình hồi quy toàn cục
và cục bộ.
Phương sai toàn cục là phương sai của giá trị đích; giá trị này luôn là 100%.
Phương sai giải thích tuyến tính là tỷ lệ phương sai được giải thích bằng hồi quy tổng thể.
Phần dư tuyến tính là tỷ lệ phương sai không được giải thích bằng hồi quy tổng thể.
Phương sai giải thích phi tuyến tính là tỷ lệ phương sai được giải thích bằng hồi quy cục bộ.
Phần dư phi tuyến tính là tỷ lệ phương sai không được giải thích bằng hồi quy cục bộ và toàn cục kết hợp.
Tổng của phương sai giải thích tuyến tính và giá trị dư tuyến tính luôn là phương sai toàn
cục (100%). Tổng của phương sai được giải thích phi tuyến tính và các giá trị dư phi tuyến
tính luôn là phần dư tuyến tính.
Hệ số đạt được
Phần Hệ số Lợi ích báo cáo cách mô hình cục bộ cải thiện dựa trên hồi quy toàn cầu.
Mức giảm dư cho biết tỷ lệ mà hồi quy cục bộ và bù trừ làm giảm phần dư của hồi quy toàn cầu.
Độ lợi giải thích cho biết tỷ lệ mà độ biến thiên được giải thích tăng lên so với độ biến thiên được giải
thích của hồi quy tổng thể.
Phần bù đắp cho biết phần bù đóng góp bao nhiêu vào phương sai được giải thích phi tuyến tính (được
liệt kê dưới dạng phần trăm của phương sai được giải thích phi tuyến tính; tức là phần đóng góp của cả
hồi quy cục bộ và phần bù).
7.3.5 Cửa sổ chẩn đoán phi tuyến tính
Cửa sổ Chẩn đoán phi tuyến tính hiển thị tiến trình đạt được trong mỗi lần lặp tối ưu hóa.
Có sẵn các loại biểu đồ sau (được mô tả bên dưới): Mức giảm dư, Mức độ ảnh hưởng phi tuyến tính, Mức độ
ảnh hưởng tổng thể, Phạm vi tiếp cận địa phương và Tỷ lệ nội bộ.
132
Giảm dư
TRÌNH
VIỆC
CÔNG
Biểu đồ Giảm thặng dư mô tả tỷ lệ mà các hồi quy cục bộ và bù đắp giảm thiểu sai số của
QUY
TẠO
hồi quy toàn cầu.
7
Ảnh hưởng phi tuyến tính
Biểu đồ Ảnh hưởng phi tuyến tính mô tả ảnh hưởng phi tuyến tính của từng thuộc tính mô
hình cho mỗi lần lặp. Ảnh hưởng phi tuyến tính là ước tính tỷ lệ biến thiên phi tuyến
tính được giải thích được quy cho biến đó.
133
Tổng ảnh hưởng
Biểu đồ Tổng ảnh hưởng mô tả mức độ ảnh hưởng của từng thuộc tính mô hình cho mỗi lần lặp.
Ảnh hưởng là sự ước tính phần của sự biến thiên được giải thích được quy cho biến đó. Đối với các
mô hình phi tuyến tính của Viscovery SOMine, ảnh hưởng tổng thể là sự kết hợp giữa ảnh hưởng (tuyến
tính) do mô hình toàn cầu và ảnh hưởng phi tuyến tính được hiển thị trong biểu đồ trước đó.
Phạm vi tiếp cận địa phương
Biểu đồ Phạm vi tiếp cận địa phương mô tả mức độ sắp xếp hợp lý của bản đồ trong từng thuộc tính
mô hình. Xem A.9 Dự đoán SOM cục bộ để biết định nghĩa về đại lượng này. Phạm vi tiếp cận cục bộ
khác với mức độ ưu tiên ở chỗ nó là phép đo cho mỗi thuộc tính được xác định sau khi bản đồ được
tính toán, trong khi mức độ ưu tiên là tham số hóa được chỉ định trước khi bản đồ được tính toán:
Khi SOM được sắp xếp hợp lý theo một thuộc tính, phạm vi tiếp cận cục bộ tiến tới 0, và nếu nó
không hoặc - dered, nó sẽ tiến tới một.
134
Tỷ lệ nội bộ
TRÌNH
VIỆC
CÔNG
Biểu đồ Tỷ lệ nội bộ hiển thị tỷ lệ nội bộ (tức là trọng số thuộc tính trong quá trình
QUY
TẠO
tính toán bản đồ) đã được sử dụng cho mỗi lần lặp. Tỷ lệ nội bộ được lấy từ cả mức độ ưu
7
tiên của thuộc tính và tùy chọn bù đắp các mối tương quan (nếu được chọn) trong cửa sổ
Ưu tiên thuộc tính . Ngay cả khi tùy chọn tương quan bù không được chọn, tỷ lệ bên trong
được hiển thị trong cửa sổ này có thể khác với mức độ ưu tiên được xác định trong cửa sổ
Thuộc tính ưu tiên vì tỷ lệ bên trong được chuẩn hóa (tổng của tất cả các tỷ lệ bên
trong bình phương bằng số thuộc tính).
7.3.6 Cửa sổ bản đồ
Cửa sổ Bản đồ hiển thị bản đồ kết quả và sự phân bố của từng thuộc tính trong bản đồ.
Để biết thông tin về bản đồ cũng như cách kiểm tra và chỉnh sửa nó, hãy xem Phần 10 Mô hình Viscovery.
7.3.7 Cửa sổ bản đồ hệ số
Cửa sổ Bản đồ Hệ số hiển thị các hệ số hồi quy cục bộ cho từng thuộc tính.
135
Các ảnh hệ số của cửa sổ Bản đồ Hệ số có thể được xử lý giống như các ảnh thuộc tính của cửa sổ
Bản đồ (xem Phần 10.1 Kiểm tra Mô hình để biết thêm chi tiết).
Nếu sự phụ thuộc giữa một thuộc tính và giá trị đích là tuyến tính thì tất cả các hệ số hồi quy
cục bộ có giá trị rất giống nhau. Tuy nhiên, nếu các hệ số hồi quy cục bộ của một at -tribution
có các giá trị rất khác nhau thì rõ ràng là sự phụ thuộc phải rất phi tuyến tính. Điều này có
thể dễ dàng được phát hiện bằng mã màu của các hệ số. Cụ thể, sự hiện diện của các hệ số dương
và âm cho thấy ảnh hưởng của thuộc tính đến giá trị đích đôi khi là dương và đôi khi là âm, tùy
thuộc vào nút mà bản ghi dữ liệu thuộc về và mô hình tuyến tính toàn cục sẽ không phù hợp với
giá trị thực. - Dữ liệu thế giới rất tốt.
Các giá trị sau cũng được hiển thị cho mỗi nút: Giá trị dự đoán, Số lượng bản ghi, Số lượng biến
hồi quy, Bán kính tiếp nhận, F*-Significance, Hệ số xác định đã điều chỉnh, Số dư phi tuyến tính,
Độ lệch , Phương sai được giải thích và Số dư tuyến tính. Các nút không có mô hình hồi quy cục
bộ đáng kể được biểu thị bằng màu trắng.
Để biết thêm thông tin về cách kiểm tra các hình ảnh hệ số, hãy xem Phần 10.1.11 Bản đồ hệ số.
7.4 Xác thực mô hình
Bước Xác thực mô hình của quy trình Tạo dự đoán cho phép kiểm tra và so sánh chất lượng của mô
hình với các mô hình khác có sẵn trong dự án. Các biểu đồ hiển thị sự so sánh giữa giá trị dự
đoán và giá trị thực tế, giá trị này có thể được kiểm tra đối với dữ liệu mô hình và quan trọng
hơn là đối với dữ liệu thử nghiệm. Khi có nhiều mô hình trong dự án hiện tại, kết quả từ tất cả
các mô hình được tính toán từ cùng một tập dữ liệu có thể được so sánh.
136
TRÌNH
VIỆC
CÔNG
Phần Giá trị mục tiêu cung cấp các tùy chọn để hiển thị Giá trị thực tế hoặc Giá trị dự đoán.
QUY
TẠO
Tùy chọn Giá trị thực tế hiển thị giá trị thực tế của thuộc tính đích được tìm thấy trong dữ liệu lịch sử và
7
được sử dụng cho quá trình lập mô hình (ví dụ: phản hồi lịch sử thực tế của bản ghi dữ liệu).
Phần Tập dữ liệu cung cấp tùy chọn để chọn tập hợp con dữ liệu (Dữ liệu mô hình hoặc Dữ liệu thử nghiệm 1 hoặc
Dữ liệu thử nghiệm 2) sẽ được hiển thị. Các tập dữ liệu đã được xác định ở bước Chọn Data Mart trước đó (xem
7.1.3 Xác định phân vùng dữ liệu). Vì mô hình được tính toán với tập dữ liệu mô hình nên giá trị dự đoán và
giá trị thực tế sẽ rất gần nhau trong tập dữ liệu này. Bạn có thể thấy chất lượng của mô hình bằng cách kiểm
tra giá trị dự đoán và thực tế của tập dữ liệu thử nghiệm.
Trong biểu đồ, sự khác biệt lớn giữa mô hình và dữ liệu thử nghiệm cho thấy mô hình đó quá phù hợp.
Quá khớp xảy ra khi mô hình xấp xỉ quá tốt các giá trị cụ thể trong dữ liệu mô hình, do đó làm mất khả năng dự
đoán đối với dữ liệu chưa từng thấy trước đó. Để ngăn chặn việc khớp quá mức, độ phức tạp của mô hình nên được
giảm xuống, ví dụ, bằng cách loại bỏ các thuộc tính ít quan trọng hơn hoặc chọn mức ý nghĩa cao hơn trong 7.2.2
Xác định các tham số hồi quy hoặc 7.3.1 Xác định chiến lược tối ưu hóa. Các giá trị mặc định cho các tham số
này thường ngăn ngừa tình trạng khớp quá mức rất tốt.
Phần Mô hình ứng dụng liệt kê các mô hình có thể được hiển thị để so sánh. Chỉ các mô hình được tạo trong dự
án sử dụng cùng một kho dữ liệu và phân vùng dữ liệu giống nhau mới có sẵn.
Các tham số trong phần Nhóm của bảng điều khiển ở bên trái biểu đồ đều giống nhau cho cả ba tab. Các tham số
này được sử dụng để xác định nhóm các bản ghi dữ liệu trong Biểu đồ Điểm và Biểu đồ Mức tăng (nghĩa là độ rộng
của các thanh và cả các đường lưới).
Bản ghi trên mỗi nhóm: số lượng bản ghi dữ liệu trong một nhóm
Số nhóm: số nhóm mà hồ sơ sẽ được phân bổ đều
% mỗi nhóm: phần trăm số bản ghi trên mỗi nhóm được biểu thị bằng một thanh
Các thông số kỹ thuật này loại trừ lẫn nhau. Để áp dụng sửa đổi, nhấn phím ENTER hoặc nhấp vào bên ngoài trường
nhập tương ứng.
Chọn Sao chép từ menu ngữ cảnh sẽ sao chép biểu đồ được hiển thị và dữ liệu cơ bản vào bảng nhớ tạm để sử dụng
trong các ứng dụng phần mềm khác.
137
Chọn tệp | Đóng hoặc nút Đóng trên thanh khung sẽ đóng Xác thực mẫu
và cho biết bước Xác thực mô hình đã hoàn tất. Nhấp đúp vào bước Xác thực mô hình đã hoàn thành sẽ cho phép
các mô hình được kiểm tra và so sánh lại.
7.4.1 Bảng điểm
Tab Biểu đồ Điểm hiển thị biểu đồ thanh cho giá trị thực tế và/hoặc giá trị dự đoán. Đầu tiên tất cả
các bản ghi dữ liệu được sắp xếp theo thứ tự giảm dần theo giá trị dự đoán của chúng. Sau đó, chúng được
nhóm lại thành các nhóm có kích thước gần giống nhau. Đối với mỗi nhóm, một thanh được hiển thị. Các
chiều cao của thanh được xác định bởi giá trị trung bình của các giá trị trong nhóm.
Trục x biểu thị chỉ mục của các bản ghi dữ liệu theo thứ tự mới. Thanh cho mỗi nhóm là
được hiển thị ở giá trị x của bản ghi cuối cùng của nó. Thứ tự hiển thị các bản ghi dữ liệu có giá trị dự
đoán trước cao trong một số nhóm đầu tiên.
Ví dụ trên sử dụng biểu đồ điểm để đánh giá chất lượng của các mô hình bằng cách so sánh mức độ
các giá trị thực tế từ dữ liệu Kiểm tra cũng được dự đoán. Ví dụ cho thấy nhóm đầu tiên của
1000 bản ghi dữ liệu có giá trị thực tế trung bình là 0,134 khi các bản ghi dữ liệu được sắp xếp theo dự
đoán của Model Data.D2.N1.H1.G1.L2, nhưng giá trị trung bình nhỏ hơn một chút khi dữ liệu ghi
được sắp xếp theo dự đoán của Model Data.D2.N1.H1.G2. Điều này có nghĩa là mô hình đầu tiên đã làm
công việc tốt hơn trong việc tìm kiếm các bản ghi có giá trị mục tiêu cao nhất.
138
7.4.2 Biểu đồ lợi nhuận
TRÌNH
VIỆC
CÔNG
QUY
TẠO
7
Biểu đồ mức tăng là Biểu đồ điểm tích lũy và hiển thị mức tăng dự đoán. Như trong Biểu đồ Điểm, các bản ghi dữ
liệu được xếp hạng theo giá trị dự đoán của chúng. Tuy nhiên, giá trị y được xác định khác nhau: trong Biểu đồ
mức tăng , nó hiển thị các giá trị dự đoán tích lũy dưới dạng phần trăm tuổi. Đối với mỗi điểm (x, y) trên
đường, giá trị y là tổng giá trị dự đoán của bản ghi dữ liệu x đầu tiên , chia cho tổng giá trị dự đoán của tất
cả bản ghi dữ liệu. Do đó, dòng tăng dần từ trái sang phải, hiển thị 100% là tổng của tất cả các giá trị dự đoán
ở phía trên bên phải
góc.
Nếu giá trị mục tiêu là nhị phân, giá trị dự đoán có thể được hiểu là xác suất và Biểu đồ mức tăng hiển thị tỷ
lệ phần trăm của bản ghi dữ liệu mong muốn có thể được xác định bằng cách đánh địa chỉ các bản ghi dữ liệu x đầu
tiên . Việc xác định chính xác một phần lớn nhóm mục tiêu tương ứng với mức tăng cao của các giá trị trong Biểu
đồ lợi nhuận lúc đầu.
Nếu không có mô hình dự đoán, một hành động có thể được xử lý theo một mẫu bản ghi ngẫu nhiên. Với ngân sách cho
phép giải quyết 10% hồ sơ của bạn, chỉ 10% nhóm mục tiêu của bạn có thể được giải quyết bằng cách sử dụng mẫu
ngẫu nhiên. Do đó, lợi ích của lựa chọn ngẫu nhiên sẽ chỉ là đường chéo từ góc dưới bên trái đến góc trên bên
phải. Việc sử dụng mô hình dự đoán cho phép dự đoán các bản ghi mục tiêu, tăng số lượng bản ghi mục tiêu được
giải quyết cho cùng một ngân sách.
Trong ví dụ trên, nhóm chứa 1000 bản ghi dữ liệu đầu tiên (được sắp xếp theo Model Data-ta.D2.N1.H1.G1.L2) đại
diện cho khoảng 38% số khách hàng có khả năng hủy hợp đồng.
Trong biểu đồ này, đường biểu thị mô hình mà bước Xác thực mô hình được gọi được hiển thị bằng đường đậm hơn các
đường biểu thị các mô hình khác.
139
7.4.3 Lỗi dự đoán
Lỗi dự đoán là một thước đo khác về chất lượng của một mô hình. Nó chỉ ra sự khác biệt giữa giá trị dự đoán và giá
trị thực tế. Do giá trị tuyệt đối của sai số dự đoán không liên quan nên Viscovery SOMine đặt giá trị lỗi dự đoán liên
quan đến phương sai của giá trị thực của giá trị đích trong dữ liệu và hiển thị tỷ lệ phần trăm. Thông thường, lỗi dự
đoán nhỏ hơn cho thấy mô hình tốt hơn.
7.4.4 Cài đặt biểu đồ
Các tùy chọn sau có sẵn từ menu ngữ cảnh trong tất cả các biểu đồ.
Sao chép
Sao chép hình ảnh biểu đồ và dữ liệu được hiển thị trong biểu đồ vào khay nhớ tạm bằng lệnh
này hoặc bằng cách nhấn phím CTRL+C .
Sửa đổi màu thanh…
Nhấp chuột phải vào một thanh để sửa đổi màu sắc. Tham khảo cài đặt màu của Microsoft Windows để biết định nghĩa màu.
Đặt lại màu thanh
Màu sắc của tất cả các thanh được đặt lại về màu mặc định.
Thuộc tính biểu đồ…
Mở hộp thoại để sửa đổi hình thức của biểu đồ. Sau khi thực hiện thay đổi ở bất kỳ tab nào,
hãy nhấp vào nút Áp dụng để xem tác động của các thay đổi. Bấm OK để đóng hộp thoại và áp
dụng những thay đổi đã chỉ định.
Các tab của hộp thoại được mô tả dưới đây.
140
Tổng quan
TRÌNH
VIỆC
CÔNG
QUY
TẠO
Hình thức chung của biểu đồ có thể được chỉ định trong tab Chung . Chọn loại Biểu đồ (ví dụ:
7
Thanh dọc, Thanh dọc 3D) và loại Trục (Tự động, Cổ điển hoặc Y cổ điển ở bên phải).
Chọn các tùy chọn để hiển thị hoặc ẩn lưới và dấu tích trên trục x hoặc y. Để áp dụng hiển thị
loga-rithmic cho trục y, hãy nhấp vào thang logarit.
Lý lịch
Sự xuất hiện của nền biểu đồ có thể được chỉ định trong tab Nền . Chọn Hiển thị hoặc Chú giải từ
danh sách thả xuống Cài đặt để thực hiện thay đổi màu của nền biểu đồ hoặc chú giải tương ứng.
Khi Góc đã được chọn, giá trị Góc phải được chỉ định.
Chỉ định màu bằng cách nhấp vào trường bên cạnh Màu bắt đầu. Tham khảo hộp thoại Microsoft
Windows Color để biết định nghĩa màu.
Màu kết thúc có thể được chỉ định khi Góc, Ngang hoặc Dọc đã được chọn cho kiểu Tô màu.
141
Nét chữ
Tab Phông chữ cho phép sửa đổi phông chữ. Chọn Hiển thị hoặc Chú giải từ danh sách thả xuống Cài đặt để thực
hiện các thay đổi đối với phông chữ được sử dụng cho nhãn trục hoặc chú giải tương ứng.
Chọn phông chữ bằng cách nhấp vào nút Chọn Phông chữ… . Tham khảo Font Microsoft Windows
hộp thoại để định nghĩa phông chữ. Khi Chú giải được chọn trong danh sách thả xuống Cài đặt , hộp kiểm Tạo văn
bản không lớn hơn kích thước đã chỉ định sẽ khả dụng. Khi nó được kích hoạt, kích thước phông chữ của
Chú giải sẽ tự động giảm khi cửa sổ biểu đồ được thu nhỏ lại.
Phạm vi
Phạm vi của trục y có thể được chỉ định rõ ràng khi phạm vi được xác định tự động là
không thỏa đáng trong tab Phạm vi . Chọn Tự động để tự động xác định phạm vi. Khi
Đảm bảo rằng số 0 nằm trong phạm vi được chọn, một trong các giới hạn là 0; mặt khác, giới hạn là
được làm tròn đến các giá trị dễ chịu sao cho tất cả các điểm dữ liệu đều hiển thị. Chọn Chỉ định và nhập các
giá trị Tối thiểu và Tối đa để chỉ định các giới hạn rõ ràng, cố định.
142
8 Quy trình dự đoán áp dụng
Quy trình làm việc Tạo dự đoán được sử dụng để xây dựng các mô hình với dữ liệu lịch sử, trong đó kết quả
được biết trước. Với quy trình làm việc Áp dụng Dự đoán , mô hình tốt nhất sẽ được áp dụng cho dữ liệu
mới, trong đó kết quả chưa xác định được nhằm mục đích dự đoán.
Các nhóm điểm có thể được xác định dựa trên việc chấm điểm các giá trị dự đoán, cho phép nhắm mục tiêu các
nhóm điểm khác nhau cho các hành động khác nhau. Mục đích là xác định càng nhiều bản ghi dữ liệu mong muốn
càng tốt (ví dụ: khách hàng sẽ rời bỏ hoặc mua hàng) bằng cách giải quyết càng ít bản ghi dữ liệu càng tốt
(để tiết kiệm tài nguyên).
Quy trình làm việc Áp dụng dự đoán cũng được sử dụng để đánh giá một ứng dụng. Quy trình làm việc được sử
dụng khi có kết quả của ứng dụng. Giá trị kết quả của các bản ghi dữ liệu tham gia ứng dụng được so sánh
với kết quả của các bản ghi dữ liệu trong nhóm kiểm soát (không tham gia ứng dụng).
trình
việc
dụng
làm
Quy
áp
đồ
Sơ
8
Luồng công việc Áp dụng Dự đoán yêu cầu hai tệp làm đầu vào: mô hình được tạo trong quy trình Tạo Dự đoán
và kho dữ liệu ứng dụng chứa các bản ghi dữ liệu mà mô hình sẽ được áp dụng. Siêu thị dữ liệu ứng dụng được
tạo trong quy trình làm việc Dữ liệu tiền xử lý . Khi mô hình được áp dụng cho kho dữ liệu ứng dụng, điểm
số sẽ được tính toán, hàm mục tiêu tùy chọn có thể được tính toán và các nhóm điểm được xác định và xuất
sang tệp hoặc cơ sở dữ liệu.
Để áp dụng mô hình, hãy chọn tab Áp dụng Công cụ dự đoán trong dự án của bạn và hoàn thành các bước quy
trình công việc sau: Chọn Data Mart, Áp dụng mô hình, Kiểm tra ứng dụng và Xuất tính điểm. Thông tin thêm
về các bước này được đưa ra trong các phần sau.
8.1 Chọn Data Mart
Trong quy trình Áp dụng Dự đoán , bấm đúp vào bước Chọn Data Mart để mở hộp thoại tương ứng.
143
Chọn một trung tâm dữ liệu mà mô hình sẽ được áp dụng (trung tâm dữ liệu ứng dụng).
Kho dữ liệu ứng dụng, thường không giống với kho dữ liệu mà mô hình được tạo ra, phải được tạo bằng
quy trình làm việc Dữ liệu tiền xử lý . Tất cả các trung tâm dữ liệu được tạo trong dự án đều được liệt
kê trong cửa sổ này. Nhấp vào nút Khác… để chọn siêu thị dữ liệu được tạo trong các dự án khác.
Khi tạo kho dữ liệu ứng dụng, bạn nên chú ý những điều sau:
Các loại thuộc tính trong data mart ứng dụng phải khớp với loại thuộc tính tương ứng trong dữ liệu mô
hình. Các định nghĩa danh nghĩa, thay thế giá trị và các phép biến đổi được áp dụng từ mô hình. Các
định nghĩa, thay thế và chuyển đổi danh nghĩa đã được chỉ định cho kho dữ liệu ứng dụng sẽ bị bỏ qua
khi áp dụng mô hình để tránh sự mâu thuẫn. Tuy nhiên, việc xóa bản ghi áp dụng cho kho dữ liệu ứng dụng
sẽ được áp dụng.
Để đảm bảo các loại được xác định cho các thuộc tính trong kho dữ liệu mô hình được sao
chép sang quy trình công việc mới để tạo kho dữ liệu ứng dụng, hãy nhấp vào bước Nhập dữ
liệu màu xanh lá cây của kho dữ liệu mô hình trong quy trình làm việc Dữ liệu tiền xử lý
và tạo một đường dẫn thay thế ( ).
Để biết thêm thông tin về việc chuẩn bị một kho dữ liệu ứng dụng, hãy xem A.8 Bộ dữ liệu để dự đoán
và tính điểm.
Nhấp vào Tiếp theo để chuyển sang hộp thoại Chọn thuộc tính kết quả tùy chọn để đánh giá .
Các tùy chọn trong hộp thoại Chọn Thuộc tính Kết quả Tùy chọn để Đánh giá được điền vào khi sử dụng quy
trình làm việc Tạo Dự đoán để đánh giá kết quả của một ứng dụng. Mặt khác, các tùy chọn được để trống.
Hộp thoại cho phép hai thuộc tính có ý nghĩa sau được đề cử. Cả hai thuộc tính đều là tùy chọn.
Giá trị thực tế: Thuộc tính cho biết kết quả thực tế của một ứng dụng và tương ứng với giá trị được
dự đoán trong mô hình. Ví dụ: khi xác suất gian lận là
144
được dự đoán bởi mô hình, giá trị thực tế sẽ cho biết liệu khách hàng có thực sự phạm tội gian lận
hay không. Thuộc tính này được sử dụng để đánh giá mức độ hoạt động của mô hình dự đoán.
Chỉ báo nhóm điều khiển: Thuộc tính xác định các bản ghi dữ liệu thuộc về một nhóm điều khiển. Thuộc
tính được chọn phải chứa giá trị 1 cho các bản ghi dữ liệu thuộc nhóm kiểm soát và giá trị 0 cho
tất cả các bản ghi dữ liệu không thuộc nhóm kiểm soát (những bản ghi dữ liệu này còn được gọi là
“đã tham gia vào ứng dụng”) . Nếu không có thuộc tính nhóm kiểm soát nào được chỉ định thì tất cả
các bản ghi dữ liệu sẽ được xử lý như thể giá trị 0 được gán.11
Phần bên phải liệt kê các thuộc tính bổ sung có sẵn trong kho dữ liệu được chọn trong hộp thoại trước. Để hoàn thành
một trường, hãy đánh dấu thuộc tính trong danh sách và nhấp vào nút bên cạnh trường cần hoàn thành. Để xóa một trường
đã hoàn thành, hãy nhấp vào nút bên cạnh nó.
Bấm vào Kết thúc để hoàn thành bước quy trình làm việc.
8.2 Áp dụng mô hình
trình
việc
dụng
làm
Quy
áp
đồ
Sơ
8
Bấm đúp vào bước Áp dụng mô hình để mở cửa sổ Chọn mô hình .
Chọn mô hình sẽ được áp dụng cho data mart đã chọn ở bước trước. Tất cả các mô hình của quy trình Tạo
dự đoán đã hoàn thành đều được liệt kê. Nhấp vào nút Other… để chọn các mô hình được tạo trong các dự
án khác. Chỉ có thể chọn các mô hình hồi quy cục bộ (tệp * .som ) theo cách này.
Nhấn Next để xác nhận lựa chọn của bạn. Hộp thoại Gán thuộc tính sẽ mở ra.
11
Trong các phiên bản trước 7.0 của Viscovery SOMine, ý nghĩa của cột này đã bị đảo ngược: 1 biểu thị các bản ghi dữ
liệu đã tham gia vào ứng dụng và 0 biểu thị các bản ghi dữ liệu của nhóm kiểm soát.
145
Hộp thoại này cho phép các thuộc tính của data mart ứng dụng được khớp với các thuộc tính trong mô hình.
Theo mặc định, mỗi thuộc tính của data mart được gán cho một thuộc tính có cùng tên trong mô hình. Những
nhiệm vụ này có thể được thay đổi như sau:
Để hủy một phép gán sai, đánh dấu phép gán ở khung bên trái và nhấp vào nút
cái nút.
Để gán một thuộc tính của data mart (khung bên phải) cho một thuộc tính của mô hình (khung bên trái),
hãy đánh dấu cả hai và nhấp vào nút. Nhiệm vụ trước đó bị hủy bỏ.
Nếu một thuộc tính trong mô hình vẫn chưa được gán (nghĩa là không có thuộc tính tương đương trong kho dữ
liệu ứng dụng), các giá trị thuộc tính sẽ được coi là thiếu đối với tất cả các bản ghi dữ liệu. Nếu có một
thông tin mới trong kho dữ liệu ứng dụng chưa được gán cho một thuộc tính trong mô hình, nó sẽ được hiển
thị trong biểu đồ của bước tiếp theo nhưng sẽ không ảnh hưởng đến kết quả dự đoán. Nếu có các giá trị mới
trong các thuộc tính danh nghĩa của kho dữ liệu ứng dụng không có trong kho dữ liệu mô hình thì các giá trị
mới sẽ được coi là bị thiếu.
Nhấp vào Tiếp theo để chuyển sang hộp thoại Xác định kịch bản .
146
trình
việc
dụng
làm
Quy
áp
đồ
Sơ
8
Kịch bản là một công thức liên kết thông tin có sẵn (từ bản ghi của kho dữ liệu ứng dụng) với
dự đoán để ước tính một giá trị phụ thuộc vào dự đoán. Ví dụ về các giá trị đó là lợi nhuận,
giá trị khách hàng hoặc các thước đo tương tự.
Các giá trị tính toán được vẽ trong bước Kiểm tra ứng dụng , trong đó điểm hòa vốn cũng như
lợi nhuận tối đa có thể được đọc. Nếu bạn không muốn chỉ định một công thức hàm mục tiêu,
bạn có thể để trống các trường của hộp thoại này.
Bù lại
Chỉ định hằng số ước tính (hoặc đã biết) mà ước tính giá trị được bù đắp. Một ví dụ về khoản
bù đắp là lợi nhuận cố định của một ứng dụng. Giá trị này thường âm vì thường chỉ có chi phí
cố định cho một ứng dụng.
Hàm mục tiêu
Chỉ định công thức tính toán ước tính giá trị cho bản ghi dữ liệu phụ thuộc vào dự đoán. Một
ví dụ về hàm mục tiêu là lợi nhuận mà khách hàng tạo ra (nếu họ tham gia ứng dụng). Công thức
này phải bao gồm giá trị được dự đoán, có sẵn trong biến đặc biệt @Prediction. Giá trị kết quả
có thể dương hoặc âm. Ví dụ: nếu hàm mục tiêu là lợi nhuận thì nó sẽ dương nếu khách hàng tạo
ra lợi nhuận và âm nếu khách hàng tạo ra lợi nhuận.
Biến
Danh sách Biến chứa tất cả các thuộc tính từ kho dữ liệu ứng dụng. Biến đặc biệt @Prediction
giữ giá trị mà mô hình dự đoán cho bản ghi dữ liệu.
Chức năng
Hộp Hàm liệt kê tất cả các hàm có thể được sử dụng trong công thức.
Xem A.4 Làm việc với Công thức để biết thêm thông tin về công thức.
147
Bấm vào Kết thúc để đóng hộp thoại. Mỗi bản ghi dữ liệu được khớp với bản đồ (nếu mô hình sử
dụng hồi quy cục bộ), dự đoán được tính toán và giá trị dự đoán (điểm) được gán cho từng bản ghi
dữ liệu, hoàn thành bước quy trình làm việc.
8.3 Kiểm tra ứng dụng
Bước Kiểm tra ứng dụng cho phép kiểm tra sự phân bố của tất cả các thuộc tính so với giá trị dự
đoán trong bốn biểu đồ khác nhau. Trong đánh giá mô hình, điều này đặc biệt thú vị đối với giá
trị thực của thuộc tính đích.
Sắp xếp
Ban đầu, dữ liệu được xếp hạng trong tất cả các biểu đồ từ giá trị dự đoán cao nhất đến thấp
nhất của thuộc tính đích. Tùy chọn, dữ liệu có thể được xếp hạng theo hàm mục tiêu được xác định
ở bước trước. Chọn Theo dự đoán hoặc Theo chức năng mục tiêu cho phù hợp.
Tập hợp con dữ liệu
Các tùy chọn cho nhóm nút này khả dụng khi một biến nhóm điều khiển đã được xác định trong kho
dữ liệu ứng dụng trong hộp thoại Chọn Thuộc tính Kết quả Tùy chọn cho Đánh giá ở bước Chọn Data
Mart trước đó . Chọn xem các bản ghi dữ liệu trực quan là từ Ứng dụng, từ nhóm Kiểm soát hay từ
Tất cả dữ liệu (sự kết hợp của hai dữ liệu trước).
Các nhóm
Các tham số này được sử dụng để xác định nhóm các bản ghi dữ liệu trong biểu đồ (nghĩa là độ
rộng của thanh và đường lưới).
Bản ghi trên mỗi nhóm: số lượng bản ghi dữ liệu trong một nhóm
Số nhóm: số nhóm mà hồ sơ sẽ được phân bổ đều
% mỗi nhóm: phần trăm số bản ghi trên mỗi nhóm được biểu thị bằng một thanh
Các thông số kỹ thuật này loại trừ lẫn nhau. Để áp dụng sửa đổi, nhấn phím ENTER hoặc nhấp vào
bên ngoài trường nhập tương ứng.
148
Ngoài ra, các thuộc tính trong ngăn Thuộc tính có thể được hiển thị dưới dạng thanh trong biểu đồ bằng cách
nhấp vào hộp kiểm tương ứng. Ví dụ: đối với một ứng dụng tiếp thị, sẽ rất hữu ích khi biết một nhóm nhất
định có những loại khách hàng nào (độ tuổi trung bình, nghề nghiệp của họ, v.v.). Dựa trên kiến thức này,
các ứng dụng có thể chính xác hơn và việc truyền đạt mô hình tới nhân viên tiếp thị hoặc bán hàng sẽ dễ
dàng hơn.
Một nhiệm vụ quan trọng khác đối với nhiều ứng dụng thực tế là xác định các nhóm điểm có thể được thực hiện
bằng bước công việc này. Bằng cách chỉ định hồ sơ cho các nhóm điểm, tập dữ liệu có thể được chia thành
các nhóm khác nhau để giải quyết hoặc bỏ qua trong một hoạt động cụ thể (ví dụ: chiến dịch tiếp thị, biện
pháp điều trị). Viscovery SOMine cho phép xác định số lượng nhóm điểm bất kỳ; mặc dù trong thực tế, một
nhóm điểm chứa các bản ghi dữ liệu được xếp hạng cao nhất và một nhóm khác chứa tất cả các bản ghi khác
được sử dụng thường xuyên nhất.
Để xác định các nhóm điểm, các bản ghi dữ liệu được sắp xếp theo giá trị dự đoán hoặc hàm mục tiêu của
chúng (nếu được xác định trong 8.2 Áp dụng Mô hình). Số lượng bản ghi dữ liệu để chọn cho các nhóm điểm
tùy thuộc vào ứng dụng. Giao diện người dùng được thiết kế sao cho các quyết định, chẳng hạn như “100.000
được xếp hạng cao nhất” hoặc “ít nhất 50%”, có thể được chuyển thành nhóm điểm chỉ bằng vài cú nhấp chuột.
trình
việc
dụng
làm
Quy
áp
đồ
Sơ
8
Để xác định các nhóm điểm, hãy chọn Chia nhóm điểm từ menu ngữ cảnh của Biểu đồ điểm, Biểu đồ mức tăng,
biểu đồ Mức tăng tối ưu hoặc Biểu đồ kịch bản. Một ranh giới ngăn cách các nhóm điểm được hiển thị. Sử
dụng chuột, bạn có thể di chuyển ranh giới. Để giảm số nhóm điểm, nhấp chuột phải vào ranh giới cần xóa
và chọn Join Score Groups.
Cài đặt biểu đồ bổ sung được giải thích trong 7.4.4 Cài đặt biểu đồ.
Chọn Tệp | Đóng để hoàn thành bước này. Nhóm điểm không thể thay đổi sau khi kết thúc bước này. Để thay
đổi định nghĩa của nhóm điểm, bạn có thể tạo đường dẫn quy trình công việc thay thế từ bước đã hoàn thành.
8.3.1 Biểu đồ Điểm và Thành tích
Biểu đồ Điểm và Biểu đồ Mức tăng thực tế giống như Biểu đồ Điểm 7.4.1 và Biểu đồ Mức tăng 7.4.2 tương ứng.
Tuy nhiên, bước công việc này cung cấp các tùy chọn bổ sung sau:
Các bản ghi dữ liệu có thể được sắp xếp theo hàm mục tiêu thay vì các giá trị dự đoán.
Biểu đồ có thể được cung cấp riêng biệt cho các nhóm ứng dụng và nhóm kiểm soát.
Giá trị thực tế và dự đoán của thuộc tính đích cũng như tất cả các thuộc tính khác có thể là ana -
được ly giải bằng Biểu đồ Điểm và Biểu đồ Lợi nhuận
149
8.3.2 Độ lợi tối ưu
Biểu đồ Mức tăng tối ưu cho thấy mức độ chênh lệch giữa các giá trị dự đoán tích lũy và giá trị tích
lũy dự kiến của một dự đoán ngẫu nhiên giả định. Tại điểm trên cùng của đường cong, tiềm năng dự đoán
đạt cực đại. Thông thường, các nhóm điểm được chọn sao cho các bản ghi ở bên phải mức tối đa không tham
gia vào chiến dịch, vì đối với những bản ghi này, phản hồi (được dự đoán) bắt đầu xấu đi. Chọn Tách ở
mức tối đa từ menu ngữ cảnh để chèn dấu tách nhóm điểm ở mức tăng tối ưu.
8.3.3 Biểu đồ kịch bản
Biểu đồ kịch bản hiển thị hàm mục tiêu tích lũy. Biểu đồ này chỉ khả dụng nếu công thức hàm mục tiêu
được chỉ định trong hộp thoại Xác định kịch bản . Như trong Biểu đồ lợi nhuận, tất cả các bản ghi dữ
liệu được sắp xếp theo thứ tự giảm dần theo giá trị dự đoán hoặc hàm mục tiêu của chúng. Các giá trị
hàm mục tiêu được tích lũy, có thể được hiểu là ước tính “lợi nhuận” của một hành động xử lý tất cả
các bản ghi dữ liệu có giá trị dự đoán cao hơn hoặc bằng giá trị dự đoán của bản ghi dữ liệu được xem
xét.
Biểu đồ bắt đầu ở bên trái với giá trị offset được chỉ định trong hộp thoại Xác định kịch bản .
150

Viscovery SOMine 8.0 Manual Trang 3 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Viscovery SOMine 8.0 Manual Trang 3 1

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Chọn Tệp | Close để đóng bản đồ và quay lại dự án.

6.3 Kiểm tra ứng dụng

Tập hợp con dữ liệu

Ma trận hỗn loạn

số chúng thực sự thuộc về mỗi lớp. các lớp học.

được phân loại vào đúng lớp.

Các biện pháp thực hiện

Cii + j i,k iCjk

6.4 Phân loại xuất khẩu

6.4.1 Ghi vào một tập tin

6.4.2 Ghi vào cơ sở dữ liệu

7 Quy trình tạo dự đoán

các phần sau.

7.1 Chọn Data Mart

7.1.1 Chọn Data Mart

Nhấn Next để mở hộp thoại Select Target Value .

7.1.2 Chọn giá trị mục tiêu

7.1.3 Xác định phân vùng dữ liệu

7.2 Tính toán mô hình toàn cầu

7.2.1 Chọn thuộc tính mô hình

7.2.2 Xác định tham số hồi quy

Xấp xỉ logistic của các giá trị dự đoán

Phép biến đổi sigmoid thành

Tùy chọn chuyển đổi sigmoidal cho phép xấp xỉ logistic.

Hồi quy logistic với R

7.2.3 Kết quả hồi quy toàn cầu

Kết quả của cửa sổ hồi quy toàn cầu

ở đây, độ lệch mô hình DM và độ lệch Null D0 được tính như

BIC là Tiêu chí Thông tin Bayesian

BIC := ln(N) K 2 LLM.

Mức độ tin cậy

Cửa sổ thông tin tiền xử lý

Các cửa sổ được đóng bằng File | Đóng.

7.3 Tính toán mô hình cục bộ

7.3.1 Xác định chiến lược tối ưu hóa

Bỏ qua tối ưu hóa

Tính toán các mô hình tối ưu hóa

Thông số hồi quy

Ý nghĩa tổng thể

Mô hình địa phương dựa trên bản đồ

Lịch đào tạo

Nhấp vào Tiếp theo để mở cửa sổ Ưu tiên thuộc tính .

không ảnh hưởng đến chính quá trình sắp xếp.

Nhấn Next để mở cửa sổ Optimize Local Model .

7.3.3 Tối ưu hóa mô hình cục bộ

Tối ưu hóa các trường tiếp nhận

Chỉ bằng những ràng buộc

Các ràng buộc đối với hồi quy cục bộ

Số lượng hồ sơ tối thiểu

Thuộc tính bản ghi/mô hình tối thiểu

Bán kính tiếp nhận tối thiểu

Quá trình đào tạo

Chọn Tệp | Close để đóng tất cả các cửa sổ đang mở.

7.3.4 Kết quả của cửa sổ hồi quy cục bộ

hồi quy cục bộ.

Tỷ lệ ước tính phương sai

7.3.5 Cửa sổ chẩn đoán phi tuyến tính

Tổng ảnh hưởng

Phạm vi tiếp cận địa phương

7.3.6 Cửa sổ bản đồ

7.3.7 Cửa sổ bản đồ hệ số

7.4 Xác thực mô hình