Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 68

DANH MỤC HÌNH ẢNH

1
DANH MỤC BẢNG BIỂU

2
DANH MỤC TỪ VIẾT TẮT

3
LỜI MỞ ĐẦU

4
BẢNG PHÂN CÔNG CÁC THÀNH VIÊN

STT Họ và tên Công việc phụ Mức độ hoàn


trách thành

1 Lê Công Minh (trưởng nhóm) Chương 3 (3.3; 100%


3.4)
Chương 4
Lời mở đầu

2 Phạm Nguyễn Viết Hiếu Chương 2 (2.2) 100%

3 Trần Thị Bích Trâm Chương 2 (2.1) 100%

4 Hoàng Gia Kiệt Chương 3 (3.1; 100%


3.2)
Kết luận

5 Nguyễn Văn Trường Chương 1 100%

5
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ
TÀI
1.1. Giới thiệu môn khoa học dữ liệu
1.1.1. Khái niệm
Khoa học dữ liệu là một lĩnh vực liên ngành kết hợp các phương pháp toán học,
thống kê, khoa học máy tính và kỹ thuật để thu thập, xử lý, phân tích và trực quan hóa
dữ liệu. Mục tiêu của khoa học dữ liệu là trích xuất thông tin và kiến thức có giá trị từ
dữ liệu để giải quyết các vấn đề và đưa ra quyết định sáng suốt.
Nói một cách đơn giản, khoa học dữ liệu giúp chúng ta biến dữ liệu thành
những câu chuyện có ý nghĩa. Nó cho phép chúng ta khám phá các xu hướng, mẫu
hình và mối quan hệ ẩn sâu trong dữ liệu mà mắt thường không thể nhìn thấy. Nhờ
vậy, chúng ta có thể đưa ra những dự đoán chính xác hơn, đưa ra quyết định sáng suốt
hơn và cải thiện hiệu quả hoạt động trong nhiều lĩnh vực khác nhau.
Ba lĩnh vực chính của khoa học dữ liệu:
1. Thu thập và quản lý dữ liệu: Giai đoạn này bao gồm việc xác định nguồn dữ
liệu, thu thập dữ liệu, làm sạch dữ liệu và lưu trữ dữ liệu.
2. Phân tích dữ liệu: Giai đoạn này bao gồm việc sử dụng các phương pháp
thống kê, học máy và trí tuệ nhân tạo để khám phá dữ liệu, xác định các mẫu
hình và xu hướng, và xây dựng mô hình dự đoán.
3. Truyền thông kết quả: Giai đoạn này bao gồm việc trình bày kết quả phân
tích dữ liệu một cách rõ ràng và súc tích cho các bên liên quan, đồng thời giúp
họ hiểu và áp dụng kết quả này vào thực tế.
1.1.2. Tổng quan về Khoa học dữ liệu và sự phát triển
1.1.2.1. Vai trò :
Khoa học Dữ liệu đóng vai trò chiến lược và thiết yếu trong kỷ nguyên số,
mang đến những lợi ích to lớn cho mọi lĩnh vực của đời sống,sau đây là một số ví dụ
thực tế của khoa học dữ liệu vào cuộc sống hiện nay:
Giải quyết các vấn đề thực tế:
● Khoa học Dữ liệu cung cấp các công cụ và phương pháp để thu thập, phân tích
và khai thác dữ liệu, từ đó giúp giải quyết các vấn đề thực tế một cách hiệu quả
hơn.

6
● Ví dụ: Khoa học Dữ liệu có thể được sử dụng để chẩn đoán bệnh chính xác
hơn, phát triển các phương pháp điều trị mới, cá nhân hóa y tế, nâng cao chất
lượng dịch vụ chăm sóc sức khỏe, tối ưu hóa quy trình sản xuất, dự đoán nhu
cầu thị trường, nâng cao hiệu quả hoạt động, xây dựng chính sách hiệu quả
hơn, phân bổ nguồn lực hợp lý, nâng cao chất lượng dịch vụ công,...
Hỗ trợ ra quyết định sáng suốt:
● Khoa học Dữ liệu giúp phân tích dữ liệu một cách khách quan và khoa học, từ
đó cung cấp cho các nhà quản lý và nhà lãnh đạo thông tin cần thiết để đưa ra
quyết định sáng suốt, hiệu quả hơn.
● Ví dụ: Khoa học Dữ liệu có thể được sử dụng để đánh giá hiệu quả chiến dịch
marketing, đo lường ROI, nhắm mục tiêu quảng cáo hiệu quả hơn, đánh giá rủi
ro tín dụng, phát triển các sản phẩm và dịch vụ tài chính mới,...
Tạo ra giá trị to lớn:
● Khoa học Dữ liệu giúp các doanh nghiệp và tổ chức tối ưu hóa hoạt động, nâng
cao hiệu quả kinh doanh, tạo ra lợi thế cạnh tranh và mang lại giá trị to lớn cho
khách hàng.
● Ví dụ: Khoa học Dữ liệu có thể được sử dụng để cá nhân hóa trải nghiệm mua
sắm, khuyến mãi sản phẩm phù hợp, tăng doanh thu, phát triển các sản phẩm
và dịch vụ mới đáp ứng nhu cầu của khách hàng, nâng cao chất lượng dịch vụ
khách hàng,...
Thúc đẩy đổi mới sáng tạo:
● Khoa học Dữ liệu cung cấp nền tảng cho sự đổi mới sáng tạo trong mọi lĩnh
vực.
● Các nhà khoa học dữ liệu có thể sử dụng dữ liệu để khám phá những kiến thức
mới, phát triển các giải pháp mới và tạo ra những đột phá trong nhiều lĩnh vực
khác nhau.
● Ví dụ: Khoa học Dữ liệu có thể được sử dụng để phát triển các phương pháp
điều trị mới, phát minh ra các vật liệu mới, xây dựng các hệ thống giao thông
thông minh, phát triển các thành phố thông minh,...
Nâng cao chất lượng cuộc sống:

7
● Khoa học Dữ liệu góp phần nâng cao chất lượng cuộc sống cho mọi người
thông qua việc giải quyết các vấn đề thực tế, hỗ trợ ra quyết định sáng suốt, tạo
ra giá trị to lớn và thúc đẩy đổi mới sáng tạo.
● Ví dụ: Khoa học Dữ liệu có thể được sử dụng để cải thiện hệ thống giáo dục,
nâng cao chất lượng dịch vụ y tế, bảo vệ môi trường, đảm bảo an ninh mạng,..
1.1.2.2. Sự phát triển của khoa học dữ liệu :
Trong tương lai, khoa học dữ liệu dự kiến sẽ tiếp tục phát triển mạnh mẽ và
đóng vai trò ngày càng quan trọng trong nhiều lĩnh vực khác nhau. Các ngành công
nghiệp ngày nay đều dựa trên nền tảng dữ liệu phát triển và đổi mới. Mỗi cá nhân đều
tương tác với nhiều ứng dụng công nghệ thông qua internet, tạo ra dữ liệu. Khoa học
dữ liệu ngày nay với sự kết hợp của sức mạnh tính toán và các công cụ phân tích giúp
xử lý dữ liệu nhanh chóng và hiệu quả.
Ngoài ra tương lai, việc đào tạo nhân viên về khoa học dữ liệu sẽ trở thành một
công việc không thể thiếu trong mọi doanh nghiệp. Các chuyên gia dự đoán rằng kỹ
năng liên quan đến dữ liệu và phân tích dữ liệu sẽ trở thành xu hướng hàng đầu trong
thị trường việc làm. Điều này phản ánh sự phát triển mạnh mẽ của lĩnh vực khoa học
dữ liệu và tầm quan trọng của nó trong tương lai.
1.1.3 Ứng dụng
Một số ứng dụng tiềm năng của Khoa học Dữ liệu trong tương lai bao gồm:
● Y tế: Chẩn đoán bệnh chính xác hơn, phát triển các phương pháp điều trị mới,
cá nhân hóa y tế, nâng cao chất lượng dịch vụ chăm sóc sức khỏe.
● Giáo dục: Cá nhân hóa việc học tập, đánh giá hiệu quả học tập, nâng cao chất
lượng giáo dục.
● Tài chính: Phát triển các sản phẩm và dịch vụ tài chính mới, đánh giá rủi ro tín
dụng hiệu quả hơn, phòng chống gian lận.
● Sản xuất: Tối ưu hóa quy trình sản xuất, dự đoán nhu cầu thị trường, nâng cao
hiệu quả hoạt động.
● Bán lẻ: Cá nhân hóa trải nghiệm mua sắm, khuyến mãi sản phẩm phù hợp, tăng
doanh thu.
● Marketing: Nhắm mục tiêu quảng cáo hiệu quả hơn, đo lường hiệu quả chiến
dịch marketing, nâng cao ROI.

8
● Quản lý nhà nước: Xây dựng chính sách hiệu quả hơn, phân bổ nguồn lực hợp
lý, nâng cao chất lượng dịch vụ công.
1.2. Giới thiệu đề tài
1.2.1. Lý do chọn đề tài
Người dân nước mỹ đang gặp khó ăn về vấn đề lựa chọn giá nhà để mua cho
phù hợp vì ảnh hưởng của dịch covid 19 khiến cho vấn đề tài chính có chút eo hẹp .Vì
thế nhiều hộ gia đình có gặp nhiều tình huống khó khăn khi phải lựa chọn một cách
thủ công hàng ngàn căn nhà trên các trang bất động sản .Do đó nhằm giảm thiểu
những vấn đề trở ngại của họ, bài nghiên cứu này hướng đến các mục tiêu:
Sử dụng phần mềm Orange để xử lý bộ dữ liệu của các dự báo có sẵn .Ứng
dụng phương pháp khoa học tối ưu nhất thông qua quá trình xử lý và hệ thống hóa để
dự báo dữ liệu. Từ dữ liệu được dự báo, chúng ta sẽ phân tích khả năng giá cả sẽ có
của từng căn nhà
Xây dựng mô hình xử lí dữ liệu để giúp chúng ta chọn lọc giá cả và mục tiêu về
căn nhà một cách dễ dàng hơn, làm giảm bớt thời gian nghiên cứu lựa chọn mất thời
gian
1.2.2. Mục tiêu
● Dự đoán giá nhà trung bình cho từng khu vực, loại nhà, diện tích và thời điểm
cụ thể.
● Xác định các yếu tố ảnh hưởng đến giá nhà và mức độ quan trọng của từng yếu
tố.
● Đánh giá độ chính xác của mô hình dự đoán và đề xuất biện pháp cải thiện.
● Phát triển mô hình dự đoán linh hoạt, hiệu quả và dễ sử dụng.
1.2.3. Đối tượng và phạm vi nghiên cứu
Bộ dữ liệu này bao gồm thông tin giá cả các căn nhà tại Mỹ được bọn em thu
thập từ Kaggle, một nền tảng chia sẻ dữ liệu và học máy phổ biến. Tập dữ liệu thô ban
đầu chứa 2974 dòng dữ liệu và 21 cột đặc tính, cung cấp bức tranh tổng quan chi tiết
về thị trường nhà đất Mỹ.
1.2.4. Ý nghĩa và đóng góp
Phân tích và dự đoán giá nhà Mỹ giúp nhà đầu tư và người mua nhà hiểu rõ
hơn về tình hình thị trường bất động sản.

9
So sánh giá dự đoán với giá bán thực tế của các căn nhà tương tự trong khu
vực, giúp người mua tìm được căn nhà có giá trị tốt nhất.
Lựa chọn nhà phù hợp với khả năng tài chính và nhu cầu sử dụng
Có cơ sở để thương lượng giá mua nhà với người bán một cách tự tin và hiệu
quả hơn.
Nâng cao khả năng mua được nhà ưng ý với giá cả hợp lý.
Tránh những rủi ro tiềm ẩn khi mua nhà mà không có đầy đủ thông tin thị
trường.

10
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC
PHƯƠNG PHÁP SỬ DỤNG

2.1 Giới thiệu về phần mềm excel


Excel là chương trình xử lý bảng tính nằm trong bộ Microsoft Office. Đây là
một ứng dụng vô cùng quen thuộc trên toàn thế giới. Phần mềm này cho phép người
dùng quản lý và phân tích dữ liệu, tính toán, thống kê, báo cáo dữ liệu… Bên cạnh đó
nó còn có khả năng xử lý nhanh chóng và chính xác các tệp dữ liệu lớn và được sử
dụng rộng rãi trong nhiều lĩnh vực khác nhau như: kinh doanh, tài chính, khoa học dữ
liệu và trong nhiều lĩnh vực khác.
2.1.1 Phương pháp thống kê mô tả
Thống kê mô tả là quá trình sử dụng các phương pháp để tóm tắt hoặc mô tả
một tập dữ liệu hoặc một mẫu nghiên cứu bằng cách sử dụng số liệu hoặc biểu đồ trực
quan. Các công cụ số hóa thường được sử dụng nhất là trung bình và độ lệch chuẩn,
còn các công cụ trực quan thường dùng nhất là các biểu đồ.
2.1.1.1 Thống kê bằng công cụ Descriptive Statistics
Cách thực hiện:
Bước 1: Chuẩn bị bảng số liệu cần thống kê.
Bước 2: Mở tab Data, chọn Data Analysis, sau đó chọn Descriptive Statistics.
Xuất hiện hộp thoại Descriptive Statistic.
Bước 3: Điền thông tin vào các trường Input và chọn các tùy chọn cho Output.
Ví dụ: Để thực hiện thống kê mô tả cho số lượng thịt bò bán ra tại siêu thị
ABC trong tháng 3, bạn có thể sử dụng công cụ Descriptive Statistics.

11
Hình 2.1: Số liệu bán hàng trong tháng 03 tại siêu thị ABC
Khi hộp thoại Descriptive Statistic được hiển thị, ở ô Input Range ta nhập cột
dữ liệu thịt Bò, ô Output Range là ô chứa dữ liệu được xuất ra, tick vào ô Sumary
statistics và Confidence Level for Mean ( độ tin cây) là 95%. Sau đó nhấn OK và hiển
thị kết quả như bảng sau:

12
Hình 2.2: Bảng kết quả thống kê mô tả lượng thịt Bò (kg)
Trong đó:
● Mean: Giá trị trung bình
● Standard Error: Sai số chuẩn
● Median: Trung vị
● Mode: Yếu vị
● Standard Deviation: Độ lệch chuẩn
● Sample Variance: Phương sai mẫu
● Kurtosis: Độ nhọn
● Skewness: Độ bất đối xứng (độ nghiêng)
● Range: Khoảng biến thiên (Max-Min)
● Minimum: Số nhỏ nhất
● Maximum: Số lớn nhất
● Sum: Tổng

13
● Count: Số lượng phần tử
● Confidence Level (95%): Độ tin cậy
2.1.1.2 Báo cáo tổng hợp nhóm với công cụ Subtotal
Chức năng của Subtotal:
● Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu số trong cơ sở dữ liệu
như: tìm tổng, số lớn nhất, số nhỏ nhất, số trung bình,..
● Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm
Cách thực hiện:
Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm.
Bước 2: Chọn toàn bộ bảng dữ liệu hoặc click chuột vào một ô bất kỳ trong dữ
liệu.
Bước 3: Trong tab Data, chọn Outline, sau đó chọn Subtotal. Xuất hiện hộp
thoại Subtotal.
Ví dụ: Để thống kê số tiền mà mỗi nhân viên đã thực hiện, bạn có thể sử dụng
tính năng Subtotal.

Hình 2.3: Bảng dữ liệu của nhân viên

14
Hình 2.4: Hộp thoại Subtotal
Trong hộp thoại Subtotal:
● At each change in: Chọn cột để nhóm (Salesperson)
● Use function: Chọn hàm thống kê để tổng hợp dữ liệu
● Add subtotal to: Chọn cột để thêm kết quả tổng hợp (Order Amount)
● Replace current subtotals: Chọn để thay thế kết quả tổng hợp hiện tại
● Page break between groups: Chọn để chia trang giữa các nhóm, mỗi nhóm
một trang khi in ra giấy
● Summary below data: Chọn để hiển thị kết quả tổng hợp dưới dữ liệu của mỗi
nhóm
● Remove All: Dùng để xóa bỏ tất cả kết quả tổng hợp
Hiển thị hộp thoại Subtotal, chọn cột cần gom nhóm (At each change in) là
Salesperson, chọn hàm thống kê Use function là Sum, chon cột thống kê giá trị Add
Subtotal to là Order Amount. Sau đó ta được kết quả bảng tổng hợp số tiền mà mỗi
nhân viên thực hiện:

15
Hình 2.5: Bảng tổng hợp số tiền mà mỗi nhân viên thực hiện
2.1.1.3 Hợp nhất dữ liệu với Consolidate
Chức năng của Consolidate
● Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau
● Consolidate có thể hợp nhất dữ liệu theo hai hình thức
○ Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc
○ Tổng hợp theo hạng mục ( theo hàng và cột): các bảng dữ liệu khác
nhau về cấu trúc
Cách thực hiện:
Bước 1: Chọn vùng sẽ chứa dữ liệu được hợp nhất
Bước 2: Chọn Data→ Data Tools → Consolidate để mở hộp thoại
Consolidate
Ví dụ: Hợp nhất doanh thu của ba của hàng

16
Hình 2.6: Doanh thu của 3 cửa hàng

Hình 2.7:Hộp thoại Consolidate


● Function: chọn hàm tổng hợp
● Reference: để tham chiếu lần lượt các bảng dữ liệu nguồn
● All references: chứa tất cả các vùng dữ liệu nguồn cần thiết cho việc hợp nhất
● Top row: chọn nếu muốn dùng tên cột của vùng nguồn
● Left column: chọn nếu muốn dùng các giá trị của cột đầu tiên của vùng nguồn
● Create links to source data: chọn nếu muốn dữ liệu hợp nhất được cập nhất
mỗi khi có thay đổi ở vùng dữ liệu nguồn.

17
Ở mục Function ta chọn Sum, sau đó tham chiếu lần lượt các bảng dữ liệu
nguồn: thêm dữ liệu cần hợp nhất ở vùng dữ liệu của bảng cửa hàng 1, cửa hàng 2 và
cửa hàng 3. Sau đó ta thu được kết quả như sau:

Hình 2.8: Bảng hợp nhất doanh thu của 3 cửa hàng
2.1.1.4 Tổng hợp dữ liệu đa chiều với PivotTable
Chức năng của PivotTable:
● Gom nhóm dữ liệu theo theo một số tiêu chí nào đó để dễ dàng quản lý.
● Tổng hợp và phân tích dữ liệu với nhiều góc độ và nhiều cấp khác nhau.
Cách thực hiện:
Bước 1: Click vào một ô bất kỳ trong bảng dữ liệu.
Bước 2: Chọn Insert → PivotTable.
Bước 3: Trong hộp thoại Create PivotTable, chọn dữ liệu nguồn và vị trí để tạo
PivotTable, sau đó nhấn nút OK.
Bước 4: Kéo các tên trường từ PivotTable Fields vào các vùng: FILTERS,
ROWS, COLUMNS và VALUES.
Ví dụ:

18
Hình 2.9: Tổng hợp dữ liệu đa chiều với PivotTable

Hình 2.10: Hộp thoại Create PivotTable


Trong hộp thoại Create PivotTable, ở mục Select a Table or Range ta chọn dữ
liệu cần thống kê, nháy chọn New Worksheet thì PivotTable sẽ xuất hiện một bảng
tính mới, sau đó nháy nút OK. Màn hình hiển thị hộp thoại PivotTable Fields, ta Drag
các tên fields vào các khu vực: Country vào Columns, Salesperson vào Rows và Order
Amount vào Values. Xong các thao tác như trên, ta được bảng kết quả sau

19
Hình 2.11: Kết quả tổng hợp đa chiều với PivotTable

Trong hộp thoại Create PivotTable và PivotTable Fields gồm có:


● Table/Range: dữ liệu muốn thống kê.
● Use an external data source: sử dụng các dữ liệu bên ngoài (thường ít sử
dụng do việc thống kê thường lấy dữ liệu chủ yếu trong trang tính Excel).
● New Worksheet: xuất hiện trang tính mới.
● Existing Worksheet: sẽ xuất hiện dữ liệu ở trang tính đang sử dụng.
● Filters: là bộ lọc báo cáo.
● Columns: dữ liệu hiển thị theo cột.
● Rows: dữ liệu hiển thị theo dòng.
● Values: Giá trị chủ yếu là số.
2.1.2 Phương pháp về phân tích dự báo
Trong Excel, phương pháp phân tích dự báo đề cập đến việc sử dụng các công
cụ và kỹ thuật tích hợp trong phần mềm để dự đoán giá trị tương lai dựa trên dữ liệu
lịch sử. Cụ thể, phương pháp này tập trung vào việc áp dụng các mô hình và kỹ thuật
thống kê để dự báo xu hướng, mẫu, và giá trị tiềm năng của dữ liệu.
2.1.2.1 Phương pháp Trung bình trượt ( Moving Average)
Cách thực hiện:

20
Bước 1: Chuẩn bị bảng dữ liệu cần dự báo.
Bước 2: Chọn tab Data → Data Analysis → Moving Average để mở hộp thoại
Moving Average.
Bước 3: Điền các thông số Input và Output Options.
Ví dụ: Dự báo về số lượng thịt bò sẽ bán ra vào ngày 17 của siêu thị ABC

Hình 2.12: Số liệu bán hàng và hộp thoại Moving Average


Trong hộp thoại Moving Average:
● Input range: Tham chiếu đến phạm vi dữ liệu thực tế.
● Labels in First Row: Xác định xem hàng đầu tiên của phạm vi dữ liệu có chứa
tiêu đề cột không.
● Interval: Số kỳ trước đó muốn tính toán.
● Output Range: Tham chiếu đến phạm vi cho kết quả xuất ra. Các ô không có
đủ giá trị để tính toán sẽ hiển thị giá trị N/A.
● Chart Output: Lựa chọn tạo biểu đồ nhúng cùng với phạm vi kết quả.
● Standard Errors: Lựa chọn để tạo thêm một cột chứa các sai số chuẩn.
2.1.2.2 Phương pháp San bằng mũ ( Exponential Smoothing)
Cách thực hiện:
Bước 1: Chuẩn bị bảng dữ liệu cần dự báo.
Bước 2: Chọn tab Data → Data Analysis → Exponential Smoothing để mở
hộp thoại Exponential Smoothing.
Bước 3: Điền các thông số Input và Output Options.

21
Ví dụ: Dự báo về số lượng thịt bò sẽ bán ra vào ngày 17 của siêu thị ABC

Hình 2.13: Số liệu bán hàng và hộp thoại Exponential Smoothing


Trong hộp thoại Exponential Smoothing, ta có:
● Input Range: Tham chiếu đến phạm vi dữ liệu thực tế.
● Damping Factor: Giá trị được sử dụng như hệ số san bằng. Đây là giá trị điều
chỉnh sự không ổn định của dữ liệu, với giá trị mặc định là Damping factor (1-
a) = 0.7.
● Labels: Tùy chọn cho biết liệu hàng/cột đầu tiên của phạm vi dữ liệu có chứa
tiêu đề hay không.
Kết quả trong hình 2.13 là dự báo lượng thịt bò bán (kg) được tại siêu thị ABC
vào ngày 17/3 với hệ số điều chỉnh a=0.3 ( Damping factor =0.7). Như vậy lượng thịt
bò dự báo cho ngày 17/03 là 29.88kg
2.1.2.3 Phương pháp hồi quy ( Regression)
Phân tích hồi quy là việc nghiên cứu sự phụ thuộc của một biến (biến phụ
thuộc, hay còn gọi là biến được giải thích) vào một hoặc nhiều biến khác (biến độc
lập, hay còn gọi là biến giải thích). Phương trình hồi quy có dạng tổng quát là: Y =
f(X₁, X₂,...,Xₙ). Hồi quy đơn biến có dạng: Y = aX + b, trong đó: Y là biến phụ thuộc
(dependent variable), Xᵢ là các biến độc lập (independent variable).
Cách thực hiện bằng đồ thị:
Bước 1: Chuẩn bị bảng số liệu cần phân tích.
Bước 2: Chọn vùng chứa biến phụ thuộc Y và vùng chứa biến độc lập X.
Bước 3: Vẽ đồ thị dạng Scatter.

22
Bước 4: Click chuột phải vào dãy dữ liệu, chọn Thêm Trendline.
Bước 5: Tùy chọn hiển thị trong Tuỳ chọn Trendline:
● Linear: Đường thẳng.
● Hiển thị Phương trình trên biểu đồ.
● Hiển thị giá trị R-squared trên biểu đồ.
Ví dụ: Phân tích Doanh thu- Chi phí 2016

Hình 2.14: Doanh thu và chi phí năm 2016 và biểu đồ Scatter

Hình 2.15: Biểu đồ dạng Scatter

23
Cách thực hiện bằng công cụ Regression
Bước 1: Chuẩn bị bảng dữ liệu cần phân tích.
Bước 2: Chọn tab Data → Data Analysis → Regression để mở hộp thoại
Regression.

Hình 2.16: Hộp thoại Regression


Trong hộp thoại Regression:
● Input Y Range: Phạm vi chứa biến phụ thuộc Y.
● Input X Range: Phạm vi chứa các biến độc lập X (có thể chọn nhiều biến X
trong trường hợp hồi quy đa biến).
● Labels: Đánh dấu vào ô này để xác nhận rằng ô (các ô) đầu tiên không chứa dữ
liệu hồi quy.
● Constant is Zero: Đánh dấu vào ô này để xác nhận rằng hệ số tự do của hàm
hồi quy tuyến tính a=0.
● Confidence Level: Độ tin cậy của hồi quy là 95%.
● Output Range: Phạm vi hoặc ô phía trên bên trái của vùng chứa kết quả.
● New Worksheet Ply: In kết quả ra một bảng tính mới.
● New Workbook: In kết quả ra một file Excel mới.
● Residuals: Sai số do ngẫu nhiên.

24
● Standardized Residuals: Sai số đã chuẩn hóa.
● Residual Plots: Đồ thị sai số.
● Line Fit Plots: Đồ thị đường hồi quy tuyến tính.
● Normal Probability Plots: Đồ thị xác suất phân phối chuẩn.
● Residual Plots: đồ thị sai số
● Line Fit Plots: đồ thị hàm hồi quy tuyến tính
● Normal Probability Plots: đồ thị xác suất phân phối chuẩn

Hình 2.17: Kết quả bảng hồi quy


Input Y Range là cột Doanh thu , Input Y Range là cột Chi phí. Độ tin cậy hồi
quy Confidence Level là 95%. Kết quả a= 1.791, b=3.813
2.1.3. Phương pháp phân tối ưu
Phương pháp phân tích tối ưu trong Excel đề cập đến việc sử dụng các công cụ
và kỹ thuật tích hợp trong phần mềm để tìm ra giải pháp tối ưu cho các vấn đề quyết
định và tối ưu hóa trong kinh doanh, kỹ thuật, hoặc các lĩnh vực khác. Cụ thể, phương
pháp này tập trung vào việc sử dụng các mô hình toán học và kỹ thuật tối ưu hóa để
tối thiểu hóa hoặc tối đa hóa một hàm mục tiêu trong các điều kiện ràng buộc
Ví dụ: Một quản lý dự án nông nghiệp đang cân nhắc chọn lựa cách trồng bao
nhiêu tấn lúa mì và lúa gạo để tối đa hóa lợi nhuận của dự án, dựa trên các số liệu sau:
Bảng 2.1: Bảng số liệu của dự án

Số liệu đầu vào đối với Loại sản phẩm Khả năng lớn nhất của
một đơn vị sản phẩm nguồn tài nguyên sẵn có
Lúa gạo Lúa mì

Diện tích đất (ha/tấn) 2 3 50 ha

25
Lượng nước (m³/ tấn) 6 4 90m³

Nhân công ( người/ tấn) 15 12 250 người

Lợi nhuận ( USD/ tấn) 18 21

Các bước lập mô hình:


Bước 1: Xác định biến quyết định
Gọi X₁ là lượng lúa gạo, X₂ là lượng lúa mì ( tấn) cần sản xuất
Bước 2: Xác định hàm mục tiêu
Mục tiêu bài toán là tối đa hóa lợi nhuận ta có
P=P ( lúa gạo)+ P ( lúa mì)=18x₁ + 21x₂ → max
Bước 3: Xác định hệ ràng buộc
Ràng buộc tài nguyên sử dụng:
● Về diện tích đất: 2x₁ + 3x₂ ≤ 50
● Về nước tưới: 6x₁ + 4x₂ ≤ 90
● Về lao động: 15x₁+12x₂ ≤ 250
● Ràng buộc tự nhiên: x₁, x₂ ≥ 0
Cách thực hiện:
Bước 1: Thiết lập bảng tính

Hình 2.19: Thiết lập bảng tính

26
Giả định x1 và x2 đều bằng 1, sau đó chúng ta nhập các ràng buộc về diện tích,
nước tưới và nhân công. Tiếp theo, chúng ta sử dụng hàm SUMPRODUCT để tính
các giá trị vế trái theo các biến đã khởi tạo.
Bước 2: Chọn lệnh Data ➝ Analysis ➝ Solver

Hình 2.20: Hộp thoại Solver Parameter


Nhập ô chứa mục tiêu "Set Objective" là ô chứa lợi nhuận tối đa (E5). Chọn
"Max" vì đây là bài toán tối đa hóa lợi nhuận. Trong phần "By Changing Variable
Cells", nhập ô chứa các biến quyết định, trong trường hợp này là ô C4 và D4. Nhập
các ràng buộc bằng cách nhấp vào "Add" trong phần "Subject to the Constraints".
Bước 3: Nhấn nút Solver để giải mô hình
Sau khi giải, có thể khai báo các lựa chọn trong hộp thoại Solver Results:
● "Keep Solver Solution": Giữ kết quả và in ra bảng tính.

27
● "Restore Original Values": Huỷ kết quả đã tìm được và khôi phục các biến
về giá trị ban đầu.
● "Save Scenario": Lưu kết quả tìm được thành một tình huống để có thể xem
lại sau này.
● Có thể xuất hiện thêm các dạng báo cáo trong kết quả như "Answer",
"Sensitivity" và "Limits".

Hình 2.21: Hộp thoại Solver Results


Bước 4: Nhấn nút OK để xem kết quả:

Hình 2.23: Bảng kết quả phương án sản xuất

28
Kết quả cuối cùng, ta được lợi nhuận tối ta là $378 để thỏa mãn các ràng buộc
2.2. Tổng quan về orange
2.2.1. Giới thiệu về phần mềm Orange
Orange là một công cụ phân tích dữ liệu và học máy đa năng, mã nguồn mở,
được phát triển bởi trường Đại học Kỹ thuật Slovenia. Nó cung cấp một giao diện trực
quan giúp người dùng thực hiện các tác vụ phân tích dữ liệu phức tạp mà không cần
kỹ năng lập trình chuyên sâu. Dưới đây là các điểm nổi bật và lợi ích chính của
Orange:
Giao Diện Người Dùng Trực Quan và Dễ Dàng: Orange trang bị một giao diện
đồ họa, giúp người dùng dễ dàng thiết kế và triển khai các quy trình phân tích dữ liệu
thông qua hệ thống kéo và thả. Điều này giúp người dùng, từ những người mới bắt
đầu đến các chuyên gia, có thể dễ dàng xây dựng mô hình và thực hiện các tác vụ
phân tích một cách nhanh chóng.
Hỗ Trợ Đa Dạng Các Định Dạng Dữ Liệu: Orange cho phép nhập dữ liệu từ
nhiều nguồn khác nhau như bảng tính, cơ sở dữ liệu, tệp CSV, và thực hiện tiền xử lý
dữ liệu một cách dễ dàng như chọn lọc, chuẩn hóa, và xử lý dữ liệu thiếu.
Công Cụ Phân Tích và Học Máy Mạnh Mẽ: Orange cung cấp nhiều công cụ xử
lý dữ liệu, bao gồm gom cụm, phân loại và hồi quy, cùng với một loạt các thuật toán
học máy cho học giám sát, không giám sát, và học tăng cường, giúp người dùng xây
dựng và đánh giá các mô hình dự đoán hiệu quả.
Trực Quan Hóa và Thống Kê Dữ Liệu: Orange mang đến nhiều công cụ trực
quan hóa dữ liệu dưới dạng biểu đồ và đồ thị, giúp người dùng phân tích và hiểu dữ
liệu một cách trực quan. Ngoài ra, các công cụ thống kê cơ bản cũng được tích hợp để
phân tích dữ liệu.
Khả Năng Mở Rộng và Tùy Chỉnh: Với tính chất mã nguồn mở, người dùng có
thể mở rộng chức năng của Orange bằng cách viết các add-on và tích hợp các thư viện
khác vào hệ thống, mang lại sự linh hoạt cao trong cách sử dụng.
Orange cũng cung cấp các công cụ để phân tích tương quan giữa các biến, giúp
người dùng xác định mức độ liên quan và ảnh hưởng lẫn nhau giữa các thuộc tính
khác nhau trong dữ liệu. Việc phân tích tương quan này rất quan trọng trong việc định
hình mô hình học máy và trong việc đưa ra các quyết định dựa trên dữ liệu. Bằng cách

29
sử dụng các ma trận tương quan và biểu đồ phân tán, người dùng có thể dễ dàng nhận
thấy các mẫu và xu hướng chính, từ đó có cái nhìn sâu sắc hơn về cấu trúc dữ liệu và
quan hệ giữa các biến.
Orange đứng ra như một công cụ mạnh mẽ và linh hoạt cho các nhà nghiên
cứu, chuyên gia phân tích dữ liệu, và những ai quan tâm đến lĩnh vực khai thác dữ liệu
và học máy. Với giao diện thân thiện và các tính năng mạnh mẽ, Orange giúp người
dùng tiếp cận và phát triển các mô hình phân tích dữ liệu một cách thuận tiện và hiệu
quả.
2.2.2 Các mô hình phân lớp và dự đoán dữ liệu
2.2.2.1 Mô hình Logistic Regression
Hồi quy Logistic là một phương pháp thống kê quan trọng được sử dụng để dự
đoán giá trị đầu ra rời rạc dựa trên một tập hợp các giá trị đầu vào. Bằng cách áp dụng
hàm logit, phương pháp này có thể dự đoán xác suất hoặc cơ hội xảy ra của một sự
kiện, từ đó làm sáng tỏ mối quan hệ giữa biến phụ thuộc và các biến độc lập. Ví dụ,
trong bối cảnh thương mại điện tử, hồi quy logistic có thể giúp dự đoán liệu một
khách truy cập trang web có nhấp vào nút thanh toán trong giỏ hàng hay không dựa
trên các yếu tố như thời gian dành trên trang và số lượng mặt hàng trong giỏ.
Có ba biến thể chính của hồi quy logistic:
Hồi quy logistic nhị phân: Trong đó biến phụ thuộc chỉ có hai kết quả/lớp khả
thi.
Hồi quy logistic đa thức: Trong đó biến phụ thuộc có hai hoặc nhiều hơn ba kết
quả/lớp và được xếp ngẫu nhiên.
Hồi quy logistic thông thường: Trong đó biến phụ thuộc có hai hoặc nhiều hơn
ba kết quả/lớp được xếp theo một thứ tự nhất định.
Hồi quy logistic là công cụ mạnh mẽ cho việc dự báo và phân loại dữ liệu rời
rạc, có khả năng áp dụng trong nhiều lĩnh vực khác nhau, từ thương mại điện tử đến y
tế và nghiên cứu khoa học, giúp các nhà phân tích và nhà khoa học dữ liệu hiểu và dự
đoán hành vi cũng như các kết quả khác nhau một cách hiệu quả.
2.2.2.2 Mô hình Decision Tree
Cây quyết định là một kỹ thuật phân lớp dữ liệu dựa trên việc xây dựng một hệ
thống phân cấp có cấu trúc, sử dụng một loạt các quy tắc để phân loại đối tượng.

30
Thuộc tính của đối tượng có thể thuộc nhiều loại dữ liệu khác nhau như nhị phân,
danh nghĩa, thứ tự, và định lượng. Đặc biệt, thuộc tính phân lớp phải có kiểu dữ liệu
nhị phân hoặc thứ tự. Cây quyết định không chỉ giúp phân loại dữ liệu mà còn hỗ trợ
trong việc mô tả và tổng quan hóa dữ liệu được cung cấp.
Có hai loại cây quyết định chính: cây hồi quy và cây phân loại. Cây hồi quy
được sử dụng để ước tính mô hình với các giá trị số thực, trong khi cây phân loại giúp
phân loại dữ liệu vào các lớp khác nhau. Ưu điểm chính của cây quyết định bao gồm
cách trình bày đơn giản, dễ hiểu, và khả năng xử lý hiệu quả nhiều loại dữ liệu cũng
như lượng lớn dữ liệu trong thời gian ngắn mà không yêu cầu chuẩn hóa dữ liệu.

Tuy nhiên, cây quyết định cũng có những hạn chế nhất định. Chi phí và thời gian cần
thiết để xây dựng mô hình cây quyết định có thể cao. Ngoài ra, cây quyết định có
nguy cơ cao về hiện tượng quá khớp, đặc biệt nếu không được điều chỉnh phù hợp.

Nhìn chung, cây quyết định là một phương pháp phân lớp mạnh mẽ và linh hoạt,
nhưng cần được áp dụng một cách thận trọng và cần có sự đánh giá kỹ lưỡng để đảm
bảo hiệu quả trong việc phân loại dữ liệu.
2.2.2.3. Mô hình Support Vector Machine
SVM (Support Vector Machine) là một thuật toán học có giám sát chuyên dụng
cho các bài toán phân loại. Thuật toán này xem xét dữ liệu đầu vào như là các vector
trong một không gian đa chiều và phân loại chúng vào các lớp khác nhau bằng cách
xây dựng một siêu phẳng để tách biệt các lớp dữ liệu.
Mục đích chính của SVM là xác định một siêu phẳng mà khoảng cách (hay còn
gọi là margin) đến các điểm dữ liệu gần nhất của mỗi lớp là lớn nhất. Margin này
được định nghĩa là khoảng cách giữa siêu phẳng và các điểm dữ liệu gần nhất thuộc
hai lớp khác nhau. Bằng việc tối đa hóa margin này, SVM nhằm giảm thiểu lỗi phân
loại và tăng cường tính tổng quát của mô hình cho các dữ liệu mới.
Trong quá trình xác định siêu phẳng, SVM tập trung vào các điểm dữ liệu quan
trọng gọi là support vectors. Những support vectors này xác định các ranh giới của hai
lớp dữ liệu, và siêu phẳng tối ưu được định vị sao cho nó cách đều hai ranh giới này,

31
với support vectors đóng một vai trò trung tâm trong việc xác định vị trí của siêu
phẳng.

SVM được áp dụng rộng rãi trong nhiều loại bài toán phân loại khác nhau nhờ
vào khả năng xử lý hiệu quả dữ liệu tuyến tính lẫn phi tuyến, và nó cũng thể hiện hiệu
suất cao trong không gian có số chiều lớn.
2.2.2.4. Mô hình Neural Network
Mạng nơ-ron nhân tạo, hay còn gọi là neural network, là một mô hình toán học
hoặc mô hình tính toán được thiết kế để mô phỏng cách thức hoạt động của não người.
Mô hình này là một thành phần quan trọng trong ngành trí tuệ nhân tạo và được sử
dụng rộng rãi trong việc giải quyết các bài toán phức tạp mà các thuật toán truyền
thống thường không hiệu quả.
Một mạng nơ-ron nhân tạo được cấu tạo từ nhiều lớp gồm các nơ-ron, với mỗi
nơ-ron được liên kết với các nơ-ron khác thông qua các liên kết có trọng số. Dữ liệu
được nhập vào mạng thông qua lớp đầu vào, sau đó được xử lý qua các lớp ẩn sử dụng
các hàm toán học phức tạp để cuối cùng đưa ra kết quả ở lớp đầu ra. Quá trình huấn
luyện mạng nơ-ron bao gồm việc điều chỉnh các trọng số liên kết sao cho đầu ra của
mạng càng gần với kết quả mong muốn càng tốt, điều này thường được thực hiện
thông qua một quá trình gọi là lan truyền ngược.
Mạng nơ-ron nhân tạo có khả năng tự học hỏi và cải thiện kết quả qua thời
gian, làm cho chúng trở thành công cụ lý tưởng cho nhiều ứng dụng như nhận dạng
giọng nói, xử lý ngôn ngữ tự nhiên, nhận dạng hình ảnh và xe tự hành. Sự linh hoạt và
hiệu quả của chúng trong việc xử lý và phân tích lượng lớn dữ liệu làm cho mạng nơ-
ron nhân tạo ngày càng trở nên phổ biến trong nghiên cứu và ứng dụng công nghệ cao.
2.2.2.5. Mô Hình Hồi Quy Tuyến Tính (Linear Regression)
Hồi quy tuyến tính là phương pháp thống kê quan trọng được áp dụng rộng rãi
trong Orange để mô hình hóa mối quan hệ giữa biến phụ thuộc và biến độc lập. Giao
diện đồ họa trực quan của Orange hỗ trợ người dùng trong việc thiết kế mô hình mà
không cần kỹ năng lập trình chuyên sâu, cho phép tính toán hệ số hồi quy và đánh giá
mô hình qua các chỉ số như R-squared. Điều này giúp người dùng dễ dàng nhận diện
tỷ lệ biến thiên của biến phụ thuộc có thể được giải thích bởi các biến độc lập.

32
Mặc dù hữu ích, hồi quy tuyến tính trong Orange yêu cầu mối quan hệ tuyến
tính giữa các biến và có thể bị ảnh hưởng bởi nhiễu và giá trị ngoại lệ. Orange đối phó
với thách thức này bằng các công cụ tiền xử lý dữ liệu nhằm lọc nhiễu và xử lý các giá
trị ngoại lệ, từ đó cải thiện độ tin cậy và chính xác của mô hình hồi quy.
2.2.2.6. Mô Hình Random Forest
Random Forest là một kỹ thuật học máy mạnh mẽ, được sử dụng để xử lý các
bài toán phân loại và hồi quy thông qua việc kết hợp nhiều cây quyết định (decision
trees) để tăng độ chính xác và giảm hiện tượng quá khớp (overfitting) so với một cây
quyết định đơn lẻ. Trong Orange, Random Forest được triển khai thông qua một giao
diện trực quan, nơi người dùng có thể dễ dàng nhập dữ liệu, chỉ định các tham số và
xem kết quả phân tích dưới dạng trực quan hóa, làm cho quá trình mô hình hóa trở nên
trực quan và hiệu quả.
Mô hình Random Forest trong Orange được đánh giá cao về khả năng xử lý
lượng lớn dữ liệu và khả năng chính xác trong việc phân loại dữ liệu phức tạp. Bằng
cách sử dụng nhiều cây quyết định và chạy chúng một cách độc lập, mô hình này giảm
thiểu rủi ro của sự thiên vị và tăng độ chính xác bằng việc "bỏ phiếu" cho kết quả cuối
cùng từ nhiều cây. Các chỉ số như Out-of-bag error và các biểu đồ tính năng quan
trọng được sử dụng để đánh giá và tối ưu mô hình, cung cấp cái nhìn sâu sắc về những
yếu tố ảnh hưởng đến dự đoán..5 Đánh giá mô hình phân lớp
2.2.2.7. Ma trận nhầm lẫn (Confusion matrix)
Ma trận nhầm lẫn (Confusion matrix) là một công cụ phân tích thống kê sử
dụng trong các bài toán phân lớp để đánh giá hiệu suất của một mô hình phân loại. Ma
trận này là một bảng kích thước k×k, trong đó k là số lượng lớp dữ liệu. Ma trận này
cung cấp thông tin chi tiết về số lượng điểm dữ liệu thực tế thuộc vào mỗi lớp và được
dự đoán rơi vào lớp nào.
Ma trận nhầm lẫn bao gồm bốn loại giá trị chính:
● True Positive (TP): Số lượng điểm dữ liệu thực sự thuộc lớp i và được mô hình
dự đoán chính xác là thuộc lớp i.
● False Positive (FP): Số lượng điểm dữ liệu không thuộc lớp i nhưng lại bị mô
hình phân loại nhầm vào lớp i.

33
● True Negative (TN): Số lượng điểm dữ liệu không thuộc lớp i và được mô hình
dự đoán chính xác là không thuộc lớp i.
● False Negative (FN): Số lượng điểm dữ liệu thuộc lớp i nhưng lại bị mô hình
phân loại nhầm vào một lớp khác.
Ma trận nhầm lẫn không chỉ giúp xác định tổng số lần dự đoán đúng và sai mà
còn cho phép phân tích chi tiết lỗi phân loại của mô hình trên từng lớp dữ liệu cụ thể.
Thông qua ma trận này, người dùng có thể đánh giá mức độ chính xác tổng thể của
mô hình cũng như xác định những lỗi phân loại cụ thể mà mô hình đang mắc phải.
Điều này là cực kỳ hữu ích trong việc tối ưu hóa mô hình và cải thiện hiệu quả phân
loại.
2.2.2.8. AUC-ROC (Area Under The Curve - Receiver Operating
Characteristics)
AUC-ROC (Area Under The Curve - Receiver Operating Characteristics) là
một phương pháp quan trọng để đánh giá hiệu suất của một mô hình phân loại tại các
ngưỡng phân loại khác nhau. ROC là đường cong biểu diễn mối quan hệ giữa TPR
(Tỷ lệ True Positive - tỷ lệ các dự đoán đúng là positive so với tổng số điểm thực sự là
positive) và FPR (Tỷ lệ False Positive - tỷ lệ các dự đoán sai là positive so với tổng số
điểm thực sự là negative). Trong đó, TPR được biểu diễn trên trục tung và FPR trên
trục hoành của đồ thị ROC.
AUC, diện tích dưới đường cong ROC, là một chỉ số đánh giá khả năng phân
loại của mô hình. Một AUC cao cho thấy mô hình có khả năng phân biệt tốt giữa các
lớp; giá trị AUC gần 1 biểu thị khả năng phân loại tốt, trong khi giá trị gần 0.5 cho
thấy hiệu suất phân loại của mô hình không tốt hơn việc phân loại ngẫu nhiên. Nếu
AUC gần 0, điều này có thể chỉ ra rằng mô hình đang phân loại ngược - nhận dạng
positive thành negative và ngược lại.
Như vậy, AUC-ROC là một công cụ đánh giá toàn diện cho hiệu suất phân loại
của các mô hình, cung cấp một cái nhìn trực quan về khả năng phân biệt các lớp dữ
liệu của mô hình. Đây là một chỉ số quan trọng trong việc đánh giá các mô hình phân
loại, đặc biệt khi đối mặt với các lớp dữ liệu không cân bằng.

34
2.2.3 Các mô hình phân cụm dữ liệu
2.2.3.1 Giới thiệu về phân cụm dữ liệu
Phân cụm dữ liệu là một phương pháp trong học không giám sát (Unsupervised
Learning) nhằm phân loại các đối tượng có đặc điểm tương đồng vào các nhóm hoặc
cụm khác nhau, dựa trên các đặc tính của chúng. Mục đích chính của phương pháp
này là khám phá sự khác biệt giữa các đối tượng dữ liệu để:
● Gom nhóm các đối tượng có tính chất tương tự nhau vào cùng một cụm.
● Đảm bảo các đối tượng trong các cụm khác nhau có tính chất đặc trưng khác
biệt.
Dữ liệu trong các bài toán phân cụm thường là dữ liệu chưa được gán nhãn,
điều này thể hiện rõ tính chất tự phát và không giám sát của phương pháp này. Các
thuộc tính và liên kết của dữ liệu không được biết trước, yêu cầu thuật toán phải tự
mình khám phá và học hỏi từ dữ liệu.
2.2.3.2 Phân cụm dựa trên phân cấp
Phân cụm phân cấp (hierarchical clustering) là một kỹ thuật phân loại dữ liệu
không giám sát không đòi hỏi việc xác định trước số lượng cụm. Phương pháp này sử
dụng một cách tiếp cận phân cấp để sắp xếp dữ liệu thành một cây phân cấp dựa trên
độ tương tự giữa các đối tượng, được đo bằng ma trận khoảng cách giữa các phần tử
hoặc cụm.

Trong phân cụm phân cấp, có hai chiến lược chính: phương pháp cộng gộp và
phương pháp phân chia. Phương pháp cộng gộp bắt đầu bằng việc xem mỗi điểm dữ
liệu là một cụm riêng biệt và từng bước gộp các cụm nhỏ lại với nhau dựa trên sự
tương đồng giữa chúng. Quá trình này tiếp tục cho đến khi tất cả dữ liệu được gộp vào
một cụm duy nhất hoặc cho đến khi đạt được điều kiện dừng nhất định. Ngược lại,
phương pháp phân chia bắt đầu với một cụm chứa tất cả dữ liệu và dần tách ra thành
các cụm nhỏ hơn. Quá trình này tiếp tục cho đến khi mỗi cụm chỉ chứa một điểm dữ
liệu hoặc đạt điều kiện dừng đã xác định.

Các phương pháp phân cụm phân cấp không yêu cầu xác định số lượng cụm
trước, nhưng cần phải xác định trước các điều kiện dừng như số lượng cụm mong

35
muốn, khoảng cách tối đa giữa các cụm, hoặc các tiêu chí khác. Điều này cho phép
các nhà nghiên cứu và các nhà phân tích dữ liệu sử dụng phương pháp này để phát
hiện các nhóm tự nhiên trong dữ liệu và tối ưu hóa phân tích dựa trên đặc tính của dữ
liệu.
Phân cụm phân cấp rất hữu ích trong nhiều lĩnh vực như sinh học, y học và
marketing, nơi nó hỗ trợ việc phân tích mô hình tiêu dùng, phát hiện nhóm sản phẩm,
và đánh giá hoạt động kinh doanh, cung cấp cái nhìn sâu sắc về cấu trúc dữ liệu phức
tạp.
2.2.3.3 Phân cụm dựa trên phân hoạch
Phương pháp phân cụm phân hoạch là một kỹ thuật phân loại dữ liệu trong đó
tập hợp n đối tượng được chia thành k phân hoạch, với mỗi phân hoạch đại diện cho
một cụm và k ≤ n. Mỗi đối tượng trong phương pháp này thuộc duy nhất vào một
cụm, và các phần tử trong một cụm có sự tương tự với nhau. Điều này đảm bảo rằng
mỗi cụm là độc lập và có ít nhất một phần tử, từ đó tối ưu hóa giá trị hàm độ đo phân
cụm, nhằm tăng cường độ tương tự nội bộ trong cụm và làm rõ sự khác biệt giữa các
cụm.
Một số thuật toán điển hình trong phương pháp phân cụm phân hoạch bao gồm:
● K-means: Thuật toán này phân chia dữ liệu thành các cụm trong đó mỗi cụm
được đại diện bởi trung bình (mean) của các đối tượng trong cụm đó. Đây là
phương pháp phổ biến nhất để tối ưu hóa tổng bình phương khoảng cách giữa
các điểm và tâm cụm của chúng.
● K-medoids: Tương tự như K-means, nhưng sử dụng trung điểm (medoid) – một
điểm thực tế trong cụm làm tâm cụm, thay vì trung bình của các điểm.
● Fuzzy C-means: Khác với K-means, phương pháp này cho phép mỗi đối tượng
có một mức độ thuộc về mỗi cụm, phản ánh một dạng thuộc về mềm hơn.
Các thuật toán này đều có ưu điểm là dễ triển khai và hiệu quả trong việc xử lý
các tập dữ liệu lớn, tuy nhiên chúng cũng yêu cầu việc lựa chọn số lượng cụm k phù
hợp và có thể nhạy cảm với nhiễu và các điểm dữ liệu ngoại lai.

36
CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ
3.1. Tiền xử lí dữ liệu
Dữ liệu gốc bao gồm 2974 bản ghi mô tả bởi 21 thuộc tính. Nạp dữ liệu vào
phần mềm Orange bằng công cụ File, trong quá trình này nhóm nhận thấy bộ dữ liệu
có không có missing value nghĩa là không chứa những phần tử còn thiếu, phần tử khác
thường. Vì vậy, nhóm bỏ qua bước tiền xử lí dữ liệu.
Với các cột id và Date trong bộ dữ diệu thì nhóm sẽ bỏ qua, chuyển hai cột này
thành “skip”.

Hình 3.1: Nạp dữ liệu vào Orange


Để xem được dữ liệu từ bộ 2017.xlsx, ta kéo thả chuột từ File -> Data Table.
Nháy đúp chuột vào Data Table để quan sát được dữ liệu bên trong.

37
Hình 3.2: Data table trong Orange
3.2. Thống kê mô tả dữ liệu.
3.2.1. Mô tả dữ liệu - Descriptions
2017.xlsx là dữ liệu thương mại được lấy từ dữ liệu gốc là Housing Data.xlsx,
dữ liệu này thống kê những yếu tố quạn trọng nhất mà khi mua nhà ở khách hàng sẽ
quan tâm đến, những yếu tố được thống kê này có ảnh hưởng khác nhau đối với giá trị
của một căn nhà.
Bảng 3.1: Định nghĩa các biến

Biến độc lập Ý nghĩa


Price Giá bán của căn nhà
Number of Bedrooms Số phòng ngủ
Number of Bathrooms Số phòng tắm
Living area Diện tích của không gian sống (phòng khách)
Lot area Diện tích của lô đất
Number of floors Số tầng trong nhà
Waterfront Có phải nhà nằm bên bờ sông không (1: có, 0:
không)

38
Number of views Số lượng lượt xem
Condition Tình trạng căn nhà (từ 1-5)
Grade of the house Cấp độ của ngôi nhà dựa trên Nền móng, Thoát
nước và Phòng cháy chữa cháy trên thang điểm
từ 1 đến 13 (1 là thấp nhất và 13 là cao nhất)
Area of the house Diện tích của ngôi nhà ngoại trừ hầm
Area of Basement Diện tích của hầm
Built year Năm xây dựng
Renovation year Năm cải tạo
Postal code Mã bưu điện của căn nhà
Living_area_renov Diện tích phòng khách hiện tại (sau khi cải tạo)
Lot_area_renov Diện tích lô đất hiện tại (sau khi cải tạo)
Number of Schools nearby Số lượng trường học gần đó
Distance from the airport Khoảng cách tính bằng Km tới sân bay gần
nhất

3.2.2. Thống kê mô tả dữ liệu


Vì số lượng các biến cần được thống kê mô tả là không ít nên nhóm sẽ không
sử dụng công cụ mô tả Descriptive Statistics trên Excel để mô tả từng cột biến. Thay
vào đó nhóm tiến hành mô tả các thuộc tính của bộ dữ liệu thông qua công cụ Feature
Statistics trên Orange với những giá trị như Mean, Median, Dispersion, Min,
Max,...của 2974 bàn ghi.

39
Hình 3.3: Thống kê mô tả các biến

Hình 3.4: Thống kê mô tả các biến

40
Hình 3.5: Thống kê mô tả các biến
Với công cụ Feature Statistics các biến được thống kê nhanh chóng và dễ hiểu
từ đó người đọc có thể dễ dàng dựa vào các số liệu này để phân tích. Các giá trị
khuyết thiếu ở các biến tất cả đều bằng không.
3.3. Phân chia phân khúc
3.3.1. Phân tích bài toán
Trong tập dữ liệu, từng cột thể hiện cho từng biến độc lập ảnh hưởng (nhiều
hoặc ít hoặc không có) đến biến phụ thuộc (giá nhà). Để phân tích và dự đoán giá nhà,
nhóm lên ý tưởng về hai hình thức để dự đoán giá nhà là chia phân khúc và dự đoán
bằng phương trình hồi quy đa biến.
Trong bài toán chia phân khúc, nhóm sẽ tiến hành phân tích mức độ tương
quan pearson của các biến độc lập lên biến phụ thuộc bằng mô hình hồi quy. Sau đó sẽ
phân cụm dữ liệu theo 3 nhóm và chia giá nhà theo 3 phân khúc. Ý tưởng là sẽ lấy
75% hoặc hệ số chuẩn chuẩn hóa < 2zcủa từng nhóm trong cùng một nhóm. Sau đó sẽ
chia giá theo ba phân khúc định tính 1,2 và 3 và dự đoán giá nhà theo phân khúc bằng
phương pháp phân lớp dữ liệu.
Trong bài toán dự đoán bằng phương pháp hồi quy đa biến, nhóm sẽ dự đoán
bằng các phương pháp dự đoán và lựa chọn phương pháp dự đoán tốt nhất để dự đoán
giá nhà một cách cụ thể.
Bằng hai cách này sẽ giúp cho việc dự đoán một cách khách quan, dễ quan sát
và phân tích hơn.

41
3.3.2. Phân tích mức độ ảnh hưởng của các biến độc lập
3.3.2.1. Giả thuyết
Phân tích hồi quy là một phương pháp thống kê được sử dụng để nghiên cứu
mối quan hệ giữa một biến phụ thuộc (giá cả căn nhà) và một hoặc nhiều biến độc lập.
Mục tiêu chính của phân tích hồi quy ở đây là dự đoán giá nhà dựa trên các biến độc
lập.
Trong bài phân tích và dự đoán giá nhà, việc tìm phương trình hồi quy sẽ hỗ trợ
cho quá trình dự đoán giá nhà một cách có khoa học.
Để phân tích hồi quy, đầu tiên nhóm đặt ra các giả thuyết cho rằng các biến
(các cột) trong bảng dữ liệu có tác động hay ảnh hưởng đến giá cả của căn nhà. Vì
vậy, nhóm tác giá có những giả thuyết sau:
H1: Số phòng ngủ (number of bedrooms) có tác động dương (+) lên giá nhà.
H2: Số phòng vệ sinh (number of bathrooms) có tác động dương (+) lên giá
nhà.
H3: Diện tích khu vực sinh sống (living area) có tác động dương (+) lên giá
nhà.
H4: Diện tích đất (lot area) có tác động dương (+) lên giá nhà.
H5: Số tầng (number of floors) có tác động dương (+) lên giá nhà.
H6: Không gian xung quanh nhà có sông, suối, … (waterfront present) có tác
động dương (+) lên giá nhà.
H7: Số lần xem nhà (number of views) có tác động dương (+) lên giá nhà.
H8: Điều kiện căn nhà (condition of the house) có tác động dương (+) lên giá
nhà.
H9: Cấp của căn nhà (grade of the house) có tác động dương (+) lên giá nhà.
H10: Diện tích nhà bao gồm tầng hầm (Area of the house(excluding
basement)) có tác động dương (+) lên giá nhà.
H11: Diện tích tầng hầm (Area of the basement) có tác động dương (+) lên giá
nhà.
H12: Năm xây nhà (Built Year) có tác động dương (+) lên giá nhà.
H13: Năm tu sửa (Renovation Year) có tác động dương (+) lên giá nhà.
H14: Mã bưu điện (Postal Code) có tác động dương (+) lên giá nhà.

42
H15: Vĩ độ (Lattitude) có tác động dương (+) lên giá nhà.
H16: Kinh độ (Longitude) có tác động dương (+) lên giá nhà.
H17: Diện tích nhà sau tu sửa (living_area_renov) có tác động dương (+) lên
giá nhà.
H18: Diện tích đất sau tu sửa (lot_area_renov) có tác động dương (+) lên giá
nhà.
H19: Số trường học gần nhà (Number of schools nearby) có tác động dương
(+) lên giá nhà.
H20: Khoảng cách tới sân bay (Distance from the airport) có tác động dương
(+) lên giá nhà.
3.3.2.2. Kiểm định giả thuyết
Dựa trên những giả thuyết nhóm đã đặt ra, nhóm tiến hành kiểm định giả
thuyết và lập phương trình hồi quy tuyến tính được đặt ra sau khi tính toán theo các
bước sau:
Kiểm định One way - ANOVA
Việc kiểm định one way - ANOVA bằng Excel sẽ cho nhóm biết được các biến
độc lập có độc lập ảnh hưởng đến biến phụ thuộc là giá nhà hay không. Giá trị kiểm
định significant F phải bé hơn 5% - 0.05 để cho thấy rằng khả năng phạm sai lầm chỉ
là 5%.
Thông qua quá trình kiểm định one way - ANOVA bằng phần mềm Excel,
nhóm phát hiện được có các biến độc lập sau có giá trị sig > 0.05:
Bảng 3.2: Thống kê mô tả các biến

Tên biến Significant F

Longtitude (kinh độ) 0.14 (Bác bỏ)

Condition of the house (điều kiện căn 0.42 (Bác bỏ)


nhà)

Distance from the airport 0.60 (Bác bỏ)

Number of school nearby (số trường 0.97 (Bác bỏ)

43
xung quanh)

Từ kết quả đó, ta thấy được 4 biến độc lập trên có mức độ ảnh hưởng kém tới
biến phụ thuộc là giá nhà.
Kiểm định tương quan Pearson
Giá trị tương quan Pearson là một trong các khái niệm quan trọng trong quá
trình phân tích định lượng (ở đây là giá nhà). Nó đo lường mức độ tương quan tuyến
tính giữa hai biến định lượng hoặc các biến định tính nhưng được định lượng hóa. Hệ
số tương quan Pearson (ký hiệu là r) có giá trị dao động từ -1 đến 1:
● - Khi r càng tiến về 1 hoặc -1, tương quan tuyến tính càng mạnh và chặt chẽ.
● - Khi r càng tiến về 0, tương quan tuyến tính càng yếu.
Trong bài phân tích, nhóm sử dụng phần mềm Orange để phân tích mức độ ảnh
hưởng tương quan Pearson của các biến độc lập và biến phụ thuộc:

Hình 3.6: Mô hình tìm tương quan


Sau khi để biến giá cả (Price) làm Target, ta có được kết quả tương quan sau
đây:

44
Hình 3.7: Giá trị tương quan
Ta thấy được, mức độ tương quan của 7 biến đầu lớn hơn +-0,3 cho thấy những
biến đó đóng góp nhiều theo thứ tự từ trên xuống tới sự ảnh hưởng của giá căn nhà.
Với những biến từ +-0,1 tới +-0,3, mức độ tương quan của chúng với biến độc lập là
có nhưng không tác động mạnh đến giá cả căn nhà. Trong đó có biến Postal Code có
mức độ tương quan âm có nghĩa là nó tác động nghịch biến với giá nhà. Đối với các
biến có độ tương quan từ -0,1 đến 0,1, mức độ tương quan của chúng đến giá căn nhà
là rất yếu. Trong đó có 4 biến có kiểm định F thấp đã đề cập trên.
Kiểm định T-test

45
Kiểm định T-test giữa các biến độc lập và biến phụ thuộc sẽ giúp nhóm một lần
nữa khẳng định liệu biến độc lập đó có thực sự tác động hay không. Nếu giá trị
significant t của biến độc lập < 0.05 thì giả thuyết biến đó sẽ được chấp nhận, ngược
lại sẽ làm bác bỏ giả thuyết.
Thông qua quá trình kiểm định T-test bằng phần mềm Excel, nhóm tìm thấy
được những biến có giá trị kiểm định sig > 0.05:
Bảng 3.3: Giá trị sig t các biến

Tên biến Significant t

Longtitude (kinh độ) 0.14 (Bác bỏ)

Condition of the house (điều kiện căn 0.42 (Bác bỏ)


nhà)

Distance from the airport 0.60 (Bác bỏ)

Number of school nearby (số trường 0.97 (Bác bỏ)


xung quanh)

Kiểm định giả thuyết


Thông qua việc kiểm định giá trị significant F, significant t và kiểm định tương
quan Pearson, nhóm tiến hành lọc những biến độc lập có các giá trị kiểm định đạt và
không đạt điều kiện đưa ra.
Bằng việc phân tích bằng Excel và Orange, nhóm chấp nhận và bác bỏ những
giả thuyết sau:
Bảng 3.4: Kiểm định giả thuyết

Giả thuyết Biến độc lập Hệ số hồi quy Kiểm định p- Kết luận
value

H1 Số phòng ngủ 115640.65 0.00 Chấp nhận

H2 Số phòng vệ 232950.51 0.00 Chấp nhận


sinh

46
H3 Diện tích khu 264.44 0.00 Chấp nhận
vực sống

H4 Diện tích đất 0.97 0.00 Chấp nhận


đai

H5 Số tầng 173219.57 0.00 Chấp nhận

H6 Không gian 1015832.60 0.00 Chấp nhận


xung quanh
nhà có sông,
suối

H7 Số lần xem 197937.82 0.00 Chấp nhận


nhà

H8 Điều kiện căn 8149.85 0.42 Bác bỏ


nhà

H9 Cấp của căn 200208.16 0.00 Chấp nhận


nhà

H10 Diện tích nhà 254.12 0.00 Chấp nhận


bao gồm tầng
hầm

H11 Diện tích tầng 226.15 0.00 Chấp nhận


hầm

H12 Năm xây nhà 1047.01 0.00 Chấp nhận

H13 Năm tu sửa 103.26 0.00 Chấp nhận

H14 Mã bưu điện -2918.56 0.00 Chấp nhận

H15 Vĩ độ 836527.46 0.00 Chấp nhận

47
H16 Kinh độ 68159.73 0.14 Bác bỏ

H17 Diện tích nhà 305.58 0.00 Chấp nhận


sau tu sửa

H18 Diện tích đất 1.29 0.00 Chấp nhận


sau tu sửa

H19 Số trường học 334.19 0.97 Bác bỏ


gần nhà

H20 Khoảng cách -371.53 0.6 Bác bỏ


tới sân bay

3.3.3. Phân chia phân khúc theo giá trị phân vị


3.3.3.1. Phân chia phân khúc
Ý tưởng trong quá trình chia phân khúc giá nhà chính là xác định các vị trí của
các phân vị thứ nhất (Q1), phân vị thứ ba (Q3).
Việc sử dụng cách chia này sẽ làm cho giá nhà chia thành ba phân khúc 1, 2 và
3, với phân khúc 2 chiến 50% số lượng nhà và phân khúc 1,3 chiếm 25% mỗi phân
khúc.
Trong ba phân phúc, phân khúc 1 sẽ là những ngôi nhà có giá rẻ từ giá rẻ nhất
đến giá trị Q1 của giá, phân khúc 2 là những ngôi nhà có giá nằm từ Q1 tới Q3 và
phân khúc 3 là những ngôi nhà có giá lớn hơn Q3 đến giá lớn nhất.
Việc phân tích các giá trị phân vị và giá trị tối thiểu/tối đa được thực hiện bằng
phần mềm Orange với công cụ Box plot và Feature Statistic.

Hình 3.8: Feature Statistic giá nhà

48
Hình 3.9: Box plot giá nhà
Vậy, từ biểu đồ box plot, ta thấy được phân khúc giá như sau:
- Phân khúc 1 = [85000; 310000)
- Phân khúc 2 = [300000; 624450]
- Phân khúc 3 = (624450; 3400000]
3.3.3.2. Giải thích từng phân khúc thông qua giá trị tương quan Pearson
Giá trị tương quan Pearson thể hiện mức độ tác động của các biến độc lập lên
biến phụ thuộc. Đễ dễ dàng so sánh, nhóm sẽ so sánh giữa 3 biến có độ tương quan
mạnh nhất và 3 biến có độ tương quan yếu nhất để mô hình chung được đặc điểm của
nhà trong ba phân khúc trên
Bảng 3.5: Các giá trị tương quan của 5 biến độc lập

Biến độc lập Giá trị tương quan Pearson

Diện tích khu vực sinh sống 0.689

Cấp của căn nhà 0.688

Diện tích căn nhà bao gồm tầng hầm 0.616

Năm sửa đổi 0.117

Diện tích đất sau tu sửa 0.114

Năm xây 0.075

Diện tích khu vực sinh sống:

49
Hình 3.10: Giá trị diện tích khu vực sinh sống của 3 phân khúc
Ta dễ dàng thấy được, phân khúc giá nhà có sự phân chia khá rõ ràng ở biến
diện tích khu vực sinh sống:
- Phân khúc 3 có 75% thuộc khoảng [2230; 7950), 25% dữ liệu còn lại trả dài về
khoảng 1000
- Phân khúc 2 có 25% thuộc khoảng [1850; 2320], 50% dữ liệu bé hơn 1850 và
25% dữ liệu lớn hơn 2320
- Phân khúc 1 có 75% thuộc khoảng (500; 1880], 25% dữ liệu trải dài tới
khoảng 4000
=> Trong khi phân khúc 3 có sự khác biệt lớn về độ lớn của diện tích sinh
sống, phân khúc 2 và phân khúc 1 có những điểm chung tới hơn 25% về diện tích
nhưng về mặt bằng chung thì phân khúc 2 có phần nhiều diện tích hơn phân khúc 1.
Điều này khá dễ lý giải khi diện tích của căn nhà là một phần quan trọng trong việc ra
giá cho một căn nhà hoặc bất động sản.
Cấp của căn nhà:

50
Hình 3.11: Giá trị cấp của căn nhà của 3 phân khúc
Ta dễ dàng thấy được, phân khúc giá nhà có sự phân chia khá rõ ràng ở biến
cấp của căn nhà:
- Phân khúc 3 có 75% thuộc khoảng [8; 10], với mode là 9, giá trị trung bình là
8,77
- Phân khúc 2 có 25% thuộc khoảng [7; 8], với mode là 7, giá trị trung bình là
7.51
- Phân khúc 1 có 75% nằm trong mức 7, mode 7, giá trị trung bình là 6.88
=> Trong khi phân khúc 3 có sự khác biệt lớn về giá trị cấp của căn nhà với
mode là 9, phân khúc 2 và phân khúc 1 có những điểm chung khi mode đều là 7

51
nhưng phân khúc 2 có độ trải dài 25% lên mức 8, còn phân khúc 1 hầu hết tập trung ở
mức 7. Điều này lý giải rằng các căn nhà ở phân khúc 3 được đánh giá cao về mặt gia
công, chất liệu xây nhà, ….
Diện tích sinh hoạt bao gồm cả hầm:

Hình 3.12: Giá trị diện tích sinh hoạt bao gồm hầm
Ta dễ dàng thấy được, phân khúc giá nhà có ít hơn sự phân hóa ở giá trị diện
tích sinh hoạt bao gồm hầm:
- Phân khúc 3 có 50% thuộc khoảng [1760; 3080]
- Phân khúc 2 có 50% thuộc khoảng [1170; 2040]
- Phân khúc 1 có 50% thuộc khoảng [1060; 1600]

52
=> Trong diện tích sinh hoạt bao gồm hầm thì ta thấy cả ba phân khúc đã có sự
xích gần lại nhau hơn khi phân khúc 2 chiếm hơn 25% của hai phân khúc còn lại. Giải
thích rằng có thể có những căn nhà không có hầm ở phân khúc 3 hay 2 và có những
căn ở phân khúc 1 có hầm nên điều này giúp cho cả ba phân khúc xích lại gần nhau
hơn.
Năm tu sửa:

Hình 3.13: Giá trị năm tu sửa


Ta dễ dàng thấy được, cả ba phân khúc giá nhà đều có điểm chung là không tu
sửa khi chủ yếu mode của phân khúc 1,2 và 3 nằm ở mức 0. Mặc dù vậy, giá trị trung
bình tính theo năm của phân khúc 3 lại cao hơn hai phân khúc còn lại. Điều này có thể

53
lý giải bằng việc vì có ít căn nhà ở phân khúc 3 nên giá trị trung bình sẽ cao hơn và
được đánh giá là phân khúc có giá trị tiền lớn hơn nên sẽ có nhiều nhà được tu sửa lại
hơn.
Diện tích đất sau tu sửa:

Hình 3.14: Giá trị diện tích đất sau tu sửa


Ta dễ dàng thấy được, cả ba phân khúc giá nhà đều có điểm chung là giá trị
diện tích đất sau tu sửa chủ yếu mode của phân khúc 1,2 và 3 nằm ở mức 0. Mặc dù
vậy, giá trị trung bình tính theo năm của phân khúc 3 lại cao hơn hai phân khúc còn
lại. Điều này có thể lý giải bằng việc vì có ít căn nhà ở phân khúc 3 và được đánh giá

54
là phân khúc có giá trị tiền lớn hơn nên sẽ có nhiều nhà được tu sửa lại hơn và có khả
năng mở rộng thêm đất nên giá trị trung bình sẽ cao hơn.
Năm xây:

Hình 3.15: Giá trị diện tích đất sau tu sửa


Ta dễ dàng thấy được, cả ba phân khúc giá nhà đều có điểm chung là năm xây
được trải dài từ 1952 đến những năm 2000 hoặc gần hơn. Thế nhưng giá trị mode của
từng phân khúc là khác nhau, với 1968 cho phân khúc 1, 1977 cho phân khúc 2 và
1979 cho phân khúc 3. Điều này có thể dễ dàng lý giải khi nhìn vào mức giá của ba
phân khúc khi phân khúc 1 là thấp nhất, và phân khúc 2 đến phân khúc 3 là cao nhất.
Tổng kết:

55
Các phân khúc bị tác động theo thứ tự tương quan Pearson của các biến độc lập
lên giá cả. Với các biến có độ tương quan cao sẽ thấy có sự phân chia rõ rệt về tỉ lệ
biến động lập lên từng phân khúc. Và với các biến có độ tương quan càng thấp thì sẽ
có ít sự phân chia tỉ lệ hơn và có sự xích lại gần nhau hơn ở cả ba phân khúc.
3.4. Dự báo giá và phân lớp phân khúc
3.4.1. Phân lớp phân khúc
Bài toán phân lớp được sử dụng để dự đoán giá nhà theo từng phân khúc 1,2 và
3 đã chia trước. Nhóm sẽ sử dụng các mô hình phân lớp dữ liệu đã được học từ
chương trình để dự đoán phân khúc giá nhà, bao gồm cây quyết định, hồi quy logistic
và SVM
3.4.1.1. Xây dựng mô hình
Nhóm sẽ thực hiện quá trình phân lớp bằng cách sử dụng phần mềm Orange.

Hình 3.16: mô hình dự đoán phân lớp


3.4.1.2. Đánh giá kết quả
Kiểm tra và điểm (Test and score)

56
Tại bảng Test and Score, chọn tỉ lệ lấy mẫu 95% bằng Random Sampling và
lặp lại 10 lần để tạo tập huấn luyện để có chỉ số đẹp nhất. Trong bảng Test and score,
ta sẽ quan sát chỉ số sau:
- AUC (Area Under the Curve): Diện tích dưới đường cong ROC (Receiver
Operating Characteristic). Đo lường khả năng phân biệt giữa các lớp dự đoán.
Giá trị càng gần 1 thì mô hình càng tốt.
- CA (Classification Accuracy): Tỷ lệ dự đoán đúng trên tổng số dự đoán. Được
tính bằng tỷ lệ số dự đoán đúng trên tổng số dự đoán.
- F1 Score: Trung bình điều hòa giữa độ chính xác (precision) và độ phủ (recall).
Đo lường cân bằng giữa precision và recall.
- Prec (Precision): Tỷ lệ dự đoán đúng trong số các dự đoán dương tính. Đo
lường khả năng dự đoán đúng các trường hợp thực sự là tích cực.
- Recall: Còn gọi là độ phủ hoặc true positive rate. Đo lường khả năng dự đoán
đúng các trường hợp tích cực.
- MCC (Matthews Correlation Coefficient): Đo lường sự cân bằng giữa true và
false positives và negatives. Thường được coi là chỉ số cân bằng và có thể sử
dụng ngay cả khi tỷ lệ phân phối giữa các lớp không cân đối.

57
Hình 3.17: bảng Test & Score
Dựa trên bảng và các giá trị đo lường, mô hình Tree là mô hình tốt nhất để
phân lớp dữ liệu phân khúc.
Để chắc chắn có nên chọn mô hình cây quyết định àm mô hình chính cho việc
phân tích dữ liệu không? Ta sẽ tiếp tục phân tích nó với Ma trận nhầm lẫn (Confusion
matrix), để tìm thêm một căn cứ nữa.
Ma trận nhầm lẫn (Confussion matrix)

Hình 3.18: ma trận nhầm lẫn mô hình cây quyết định

Hình 3.19: ma trận nhầm lẫn mô hình hồi quy logistic

58
Hình 3.20: ma trận nhầm lẫn mô hình cây quyết định
Dựa trên ma trận nhầm lẫn, ta có thể thấy một lần nữa, mô hình cây quyết định
cho ra được kết quả tốt nhất với tỉ lệ dự đoán phân khúc 1 là 81,4%, phân khúc 2 là
70,6%, phân khúc 3 là 78,2% và tránh được việc đoán phân khúc 1 là phân khúc 3 và
ngược lại.
Tóm lại, từ những nhận xét, kết luận trên, Cây quyết định sẽ là mô hình tốt nhất
cho mô hình dự báo của đề tài.
3.4.1.3. Kết quả cuối cùng
Kết quả dự đoán của mô hình cây quyết định đối với 30% dữ liệu còn lại:

Hình 3.21: mô hình dự đoán cây quyết định

59
Hình 3.22: kết quả dự đoán
3.4.2. Dự báo giá
Khác với mô hình dự báo phân lớp, dự báo giá cần sử dụng các mô hình hồi
quy tuyến tính hoặc random forest để đưa ra được kết quả giá chính xác thay vì các
phân khúc 1,2 và 3. Nhóm sẽ sử dụng mô hình đã được giới thiệu ở chương 2 là hồi
quy tuyến tính và rừng ngẫu nhiên để dự đoán giá dựa trên tập dữ liệu đã chia trước.
Toàn bộ quá trình thực hiện được làm trên phần mềm Orange

60
3.4.2.1. Xây dựng mô hình

Hình 3.23: mô hình dự đoán giá


3.4.2.2. Đánh giá kết quả
Kiểm tra và điểm
Tại bảng Test and Score, chọn tỉ lệ lấy mẫu 95% bằng Random Sampling và
lặp lại 10 lần để tạo tập huấn luyện để có chỉ số đẹp nhất. Trong bảng Test and score,
ta sẽ quan sát chỉ số sau:
- MSE (Mean Squared Error): Là trung bình cộng của bình phương sai số. Sai số
được tính là hiệu giữa giá trị thực tế và giá trị dự đoán.
- RMSE (Root Mean Squared Error): Là căn bậc hai của MSE, cung cấp một ước
lượng của sai số theo đơn vị ban đầu.
- MAE (Mean Absolute Error): Là trung bình cộng của giá trị tuyệt đối của sai
số.
- MAPE (Mean Absolute Percentage Error): Là trung bình cộng của tỷ lệ phần
trăm tuyệt đối của sai số.
- R2 (R-Squared): Một chỉ số thống kê cho biết tỷ lệ phần trăm biến thiên trong
biến phụ thuộc có thể được dự đoán từ các biến độc lập.

61
Trong đó, chỉ số R2 là chỉ số quan trọng nhất để quyết định mức độ phù hợp
của mô hình đối với việc dự đoán và báo giá

Hình 3.24: bảng Test & Score mô hình dự đoán giá


Dựa trên mô hình này, ta thấy được mô hình rừng ngẫu nhiên có chỉ số R2
(0.834) lớn hơn so với hồi quy tuyến tính (0.693), cũng như các chỉ số về MSE,
RMSE, MAE, MAPE cũng nhỏ hơn so với mô hình còn lại. Vi thế, ta thấy được mô
hình rừng ngẫu nhiên dự đoán tốt hơn mức giá so với mô hình hồi quy tuyến tính
3.4.2.3. Kết quả cuối cùng
Kết quả dự đoán của mô hình rừng ngẫu nhiên đối với 30% dữ liệu còn lại:

62
Hình 3.25: mô hình dự đoán

Hình 3.26: kết quả dự đoán

63
CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH

4.1. Mô hình phân lớp dự đoán phân khúc


Mô hình dự đoán phân khúc là mô hình được nhóm thực hiện bằng việc chia
phân khúc theo giá nhà bằng 3 phân khúc: bé hơn Q1, từ Q1 đến Q3 và lớn hơn Q3.

64
Thông qua đó, nhóm tìm hiểu những đặc điểm chung thể hiện cho từng phân khúc.
Nhóm phát hiện ra, những yếu tố tác động mạnh tới giá nhà thông qua bảng tương
quan Pearson thì sẽ tác động mạnh tới phân khúc 3 bằng việc nhiều căn nhà có những
đặc tính mạnh của các yếu tố này. Điều này thể hiện ngược lại ở phân khúc 1 khi
những yếu tố tương quan mạnh lại là những đặc tính rất yếu ở phân khúc 1. Còn ở
phân khúc 2 sẽ xuất hiện sự trung bình hóa hai phân khúc trên. Những đặc tính có ít
sự tương quan sẽ ảnh hưởng đều tới cả ba phân khúc.
Bằng hai phương pháp kiểm tra là Test and Score và Confussion matrix, mô
hình cây quyết định được lựa chọn để dự đoán giá nhà. Nhìn chung, Tree là một công
cụ hữu ích cho việc phân khúc giá nhà ở giai đoạn đầu của quá trình phân tích.
Qua bài toán dự đoán bằng mô hình phân lớp, người dùng bảng dữ liệu sẽ có
thể trực quan hóa những phân khúc nhà nào được tác động bởi những yếu tố gì.
4.2. Mô hình dự đoán giá
Mô hình dự đoán giá là mô hình có thể dự đoán được giá cụ thể của căn nhà
dựa trên cách bộ chỉ số về thống kê. Mô hình dự đoán giá random forest với bộ chỉ số
thống kê vượt trội có thể giúp cho việc đưa ra quyết định về giá nhà trở nên dễ dàng
hơn bởi những dự đoán của mô hình về giá nhà tại Mỹ. Nhìn chung, Random Forest là
một lựa chọn hiệu quả cho việc dự đoán giá nhà nhờ vào khả năng xử lý dữ liệu phức
tạp, tổng hợp cao, chống nhiễu tốt và dễ dàng giải thích. Tuy nhiên, người dùng cần
lưu ý đến những hạn chế của mô hình này để có thể sử dụng nó một cách hiệu quả
nhất.

65
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Kết luận
Mục tiêu chính của đề tài là nghiên cứu mô hình khai phá dữ liệu từ đó phân
tích và dự đoán giá nhà ở Mỹ từ đó đưa ra các kế hoạch, chính sách mới trên thị
trường nhà đất.
Nhìn chung, đề tài đã cơ bản hoàn thành các mục tiêu nghiên cứu đề ra :
- Về lý thuyết, thể hiện qua Chương 2-tổng quan về chương trình sử dụng và
phương pháp sử dụng bài nghiên cứu đã trình bày được các cơ sở lý thuyết tổng
quan về kỹ thuật Khai báo dữ liệu, từ những kỹ thuật phân tích và dự báo dữ
liệu cơ bản trên Excel đến các mô hình phân tích và dự báo dữ liệu trên phần
mềm Orange, việc nghiên cứu còn thể hiện được tính hữu dụng của mô hình
qua việc được áp dụng trong lĩnh vực nhà đất của doanh nghiệp và khách hàng.
- Về thực nghiệm, thể hiện qua Chương 3-ứng dụng phương pháp vào bài toán
thực tế. Nhóm đã sử dụng hai phương pháp để dự báo một cách khách quan và
có độ chính xác cao nhất đó là chia phân khúc giá hình thành biến phụ thuộc
mới là phân khúc giá và dự báo giá thông qua việc xây dựng hồi quy. Kết quả
hai phương pháp mang lại cho thấy dự báo giá phân lớp khi phân khúc sẽ có độ
chính xác cao hơn.
Tính ứng dụng và hướng phát triển
Với việc triển khai ứng dụng kết quả này trong việc dự báo giá nhà ở Mỹ, có
thể giúp các nhà nhà đầu tư, các chủ bất động sản nhà ở, người mua hiểu rõ hơn về thị
trường này từ đó có lợi cả cho người mua và người bán. Đối với người mua có hiểu
biết sẽ có ích trong việc dự đoán được khoảng giá để so sánh và thương lượng khi
giao dịch. Còn đối với người bán khi có hiểu biết về tình hình trên thị trường sẽ đưa ra
quyết định khôn ngoan hơn khi giao dịch các bất động sản nhà ở đang nắm giữ. Các
doanh nghiệp cũng dựa vào đó để dự đoán các thị trường giá nhà ở tại Mỹ từ đó có cái
nhìn đúng đắn hơn khi ra quyết định, lập các kế hoạch và đưa ra các chiến lược mới.
Các chiến lược có thể hướng tới như mở rộng hoặc thu hẹp diện tích khu vực sinh
sống, cấp của căn nhà hay diện tích căn nhà bao gồm tầng hầm khi đầu tư xây dựng
các dự án bất động sản để điều chỉnh các mức giá được hợp lí, ba yếu tố trên đều là
những yếu tố có tương quan mạnh nhất với giá nhà trong bài nghiên cứu.

66
Đề tài còn rất nhiều thiếu sót quá cần cải thiện và phát triển quá trình nghiên
cứu. Mẫu nghiên cứu còn nhỏ chỉ mới diễn tả được một phần của thị trường, cần mở
rộng dữ liệu nghiên cứu để có cái nhìn trực quan hơn. Khi đưa ra kết quả vẫn có sai số
không nhỏ điều này có thể ảnh hưởng đến cái nhìn và việc phân tích người đọc. Cần
cải thiện những thiếu sót trên và tìm ra những phương pháp phân tích, dự báo mới để
xác định thêm nhiều khía cạnh.

67
TÀI LIỆU THAM KHẢO

68

You might also like