Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 6

Mục lục

Chương 1: Tổng quan

1.1Tổng quan về bài toán phân lớp dữ liệu

1.2Giới thiệu về phần mềm orange

1.3Lý do chọn lựa đề tài

Chương 2 Các mô hình phân lớp dữ liệu

2.1 Các mô hình phân lớp dữ liệu

2.1.1 Mô hình Logistic Regression

2.1.2 Mô hình Decision Tree

2.1.3 Mô hình Support Vector Machine

2.1.4 Mô hình Neural Network

2.2. Phân Lớp Dữ Liệu

2.2.1 Quy trình Phân Lớp dữ liệu

2.2.2 Tiền xử lý dữ liệu

2.2.3 Tiến Hành Phân Lớp Dữ Liệu

2.2.4 Đánh giá mô hình phân lớp

Chương 3 Kết Luận

3.1 Các kết quả đạt được

3.2 Những hạn chế và hướng phát triền

Tài liệu tham khảo

Chương 1 Tổng quan

1.1Tổng quan về bài toán phân lớp dữ liệu

Người dân nước mỹ đang gặp khó ăn về vấn đề lựa chọn giá nhà để mua cho phù hợp
vì ảnh hưởng của dịch covid 19 khiến cho vấn đề tài chính có chút eo hẹp .Vì thế nhiều
hộ gia đình có gặp nhiều tình huống khó khăn khi phải lựa chọn một cách thủ công
hàng ngàn căn nhà trên các trang bất động sản .Do đó nhằm giảm thiểu những vấn đề
trở ngại của họ, bài nghiên cứu này hướng đến các mục tiêu:

Nền kinh tế đang bước vào giai đoạn khủng hoảng sau đại dịch Covid-19, tình trạng
thất nghiệp gia tăng làm số người xin việc gia tăng. Vì thế, bộ phận nhân sự (HR) gặp
khó khăn khi phải xử lý một cách thủ công hàng ngàn, chục ngàn hồ sơ xin việc của
các ứng cử viên. Do đó, nhằm giảm thiểu những trở ngại trong việc tuyển dụng, bài
nghiên cứu này hướng đến các mục tiêu sau:

Sử dụng phần mềm Orange để xử lý bộ dữ liệu của các dự báo có sẵn . Ứng dụng
phương pháp phân lớp – một trong những phương pháp tối ưu nhất thông qua quá trình
xử lý và hệ thống hóa để dự báo dữ liệu

Từ dữ liệu được dự báo, chúng ta sẽ phân tích khả năng giá cả sẽ có của từng căn nhà

Xây dựng mô hình xử lí dữ liệu để giúp người tiêu dùng chọn lọc giá cả mà mục tiêu
về căn nhà một cách dễ dàng hơn, làm giảm bớt thời gian nghiên cứu lựa chọn mất
thời gian

1.1.2 Đối tượng nghiên cứu

Bộ dữ liệu đã được chúng e thu thập từ thông tin giá cả các căn nhà ở mỹ được đăng
tải trên kaggle.Tập dữ liệu thô đã bao gồm thông tin 545 dòng dữ liệu và 13 cột đặc
tính

1.1.3 Phương pháp nghiên cứu lý luận

Thông tin, dữ liệu từ sách báo, tài liệu học tập được thu thập, chọn lọc và phân tích
nhằm đưa ra những thông tin, quan điểm và khái niệm chính xác nhất làm nền tảng
xây dựng cơ sở lý thuyết cho bài nghiên cứu, dự đoán về những thuộc tính mục tiêu
mà bài nghiên cứu hướng đến, xây dựng các mô hình lý thuyết ban đầu. Bao gồm:

Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, sách báo hiện có, tiến
hành đọc và phân tích nhằm chắt lọc những nội dung cần thiết cho nền tảng lý thuyết
của bài nghiên cứu.

Phương pháp mô hình hóa: xây dựng mô hình nghiên cứu dựa trên nền tảng lý thuyết
và ứng dụng mô hình để dự báo nhằm kiểm định tính xác thực của mô hình.

b) Phương pháp nghiên cứu thực tiễn:


Tiến hành vận dụng những lý thuyết đã được đưa ra vào các phương pháp nghiên cứu
thực tiễn:

Sử dụng các phương pháp thống kê, phân tích dữ liệu, ứng dụng mô hình hồi quy kinh
tế định lượng để dự báo mô hình kinh tế thông qua chỉ số EPS với sự hỗ trợ của các
chương trình Orange và Excel.

Từ đó, xây dựng các mô hình dự báo dựa vào bộ dữ liệu huấn luyện có sẵn và so sánh
các kết quả rút ra được với nhau nhằm lựa mô hình phù hợp nhất nhằm giúp các nhà
đầu tư có quyết định chính xác hơn khi đầu tư hiệu quả

1.2Giới thiệu về phần mềm orange và excel

Orange

a)Khái niệm:

Orange là một bộ công cụ mã nguồn mở được viết bằng Python, chuyên dụng cho
việc khai phá dữ liệu (data mining) và học máy (machine learning). Nó cung cấp một
giao diện trực quan và dễ sử dụng, giúp người dùng có thể thực hiện các thao tác xử lý
dữ liệu, xây dựng mô hình học máy và phân tích kết quả một cách nhanh chóng và
hiệu quả.

b)Ứng dụng:

Orange được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau, bao gồm:

Khoa học dữ liệu: Orange được sử dụng để thu thập, chuẩn bị, phân tích và trực quan
hóa dữ liệu.

Học máy: Orange được sử dụng để xây dựng và huấn luyện các mô hình học máy cho
nhiều dạng bài toán khác nhau, như phân loại, dự đoán, nhóm dữ liệu, v.v.

Nghiên cứu khoa học: Orange được sử dụng trong nhiều lĩnh vực nghiên cứu khoa học
khác nhau, như y học, sinh học, kinh tế, xã hội, v.v.

Giáo dục: Orange được sử dụng trong giảng dạy và học tập về khai phá dữ liệu và học
máy.

c)Đặc tính :

Giao diện trực quan, dễ sử dụng:


Orange được thiết kế với giao diện đồ họa (GUI) trực quan, cho phép người dùng
thực hiện các thao tác xử lý dữ liệu, xây dựng mô hình học máy và phân tích kết
quả một cách dễ dàng bằng cách kéo thả chuột và nhấp chuột.

Không yêu cầu người dùng có kiến thức lập trình chuyên sâu để sử dụng, phù hợp
với mọi đối tượng, từ người mới bắt đầu đến chuyên gia.

Hỗ trợ đa dạng thuật toán:

Orange tích hợp sẵn nhiều thuật toán khai phá dữ liệu và học máy phổ biến, bao
gồm:

Thu thập và xử lý dữ liệu: Đọc dữ liệu từ nhiều nguồn khác nhau, lọc, gán biến,
chuẩn hóa dữ liệu, v.v.

Phân tích dữ liệu khám phá: Tính toán thống kê cơ bản, trực quan hóa dữ liệu bằng
biểu đồ, sơ đồ, v.v.

Học máy: Phân loại, hồi quy, nhóm dữ liệu, giảm chiều dữ liệu, v.v.

Người dùng có thể dễ dàng lựa chọn thuật toán phù hợp với nhu cầu và dữ liệu của
mình.

Khả năng mở rộng cao:

Orange có thể được mở rộng bằng cách viết các widget và module mới, cho phép
người dùng thực hiện các chức năng chuyên biệt theo nhu cầu của mình.

Cộng đồng người dùng Orange năng động và thường xuyên chia sẻ các widget và
module mới, giúp mở rộng khả năng của phần mềm.

Miễn phí và mã nguồn mở:

Orange là phần mềm mã nguồn mở, được phát hành theo giấy phép MIT, cho phép
người dùng sử dụng, sửa đổi và phân phối miễn phí.
Điều này giúp người dùng dễ dàng tiếp cận, học hỏi và đóng góp cho sự phát triển
của phần mềm.

Ứng dụng rộng rãi:

Orange được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau, bao gồm:

Khoa học dữ liệu: Thu thập, chuẩn bị, phân tích và trực quan hóa dữ liệu.

Học máy: Xây dựng và huấn luyện các mô hình học máy cho nhiều dạng bài toán
khác nhau.

Nghiên cứu khoa học: Ứng dụng trong nhiều lĩnh vực nghiên cứu khoa học như y
học, sinh học, kinh tế, xã hội, v.v.

Giáo dục: Giảng dạy và học tập về khai phá dữ liệu và khoa học.

1.3 Lý do chọn đề tài :


Thị trường nhà đất Hoa Kỳ đóng vai trò quan trọng trong nền kinh tế, tác động
trực tiếp đến đời sống của hàng triệu người dân. Giá nhà biến động ảnh hưởng đến
khả năng mua nhà, đầu tư và an ninh tài chính của cá nhân, hộ gia đình và doanh
nghiệp. Do đó, nghiên cứu dự đoán giá nhà có tính cấp thiết và tiềm năng ứng
dụng cao, mang lại nhiều lợi ích thiết thực như hỗ trợ quyết định đầu tư, đánh giá
thị trường và bảo vệ người tiêu dùng.

Về mặt khoa học và thực tiễn, giá nhà chịu ảnh hưởng bởi nhiều yếu tố phức tạp,
đòi hỏi ứng dụng kiến thức và kỹ thuật từ nhiều lĩnh vực. Nghiên cứu này là bài
toán khoa học thú vị, đầy thử thách và có tiềm năng thúc đẩy sự phát triển của
khoa học dữ liệu và học máy trong lĩnh vực bất động sản.

Hiện nay, việc nghiên cứu dự đoán giá nhà trở nên khả thi và hiệu quả hơn nhờ sự
sẵn có của nguồn dữ liệu phong phú và các công cụ phân tích dữ liệu tiên tiến. Lựa
chọn đề tài nghiên cứu giá nhà tại Hoa Kỳ là quyết định sáng suốt, mang lại nhiều
lợi ích thiết thực và góp phần thúc đẩy sự phát triển khoa học

Chương 2 Các mô hình phân lớp dữ liệu


2.1 Các mô hình phân lớp dữ liệu

2.1.1 Mô hình Logistic Regressions

You might also like