Tóm tắt báo cáo

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 34

TÓM TẮT BÁO CÁO

Bài báo cáo “Dự đoán giá bất động sản ” được thực hiện nhằm xác định giá bán bất
động sản của một ngôi nhà dựa trên nhiều đặc điểm khác nhau của ngôi nhà bằng Azure
Machine Learning và yêu cầu người mua nhà mô tả ngôi nhà mơ ước của họ. Bộ dữ liệu
này bao gồm khoảng 81 biến và 1460 hàng giải thích mô tả gần như mọi khía cạnh của
nhà ở Ames, Iowa của một tập dữ liệu trên Kaggle. Mỗi hàng tương ứng mỗi ngôi nhà và
bao gồm nhiều các yếu tố nghiên cứu cho rằng nó ảnh hưởng đến giá của từng ngôi nhà.
Trong nghiên cứu này nhóm đã sử dụng các máy học như “Decision Forest
Regression”, “Boosted Decision Tree Regression” và “Linear Regression”. Dựa trên tập
dữ liệu cụ thể có trong bài báo nghiên cứu nhằm xác định, đo lường dựa trên các yêu cầu
của người mua mô tả ngôi nhà ước mơ của họ từ đó đưa ra được mức giá phù hợp và đáp
ứng yêu cầu của người mua. Sau khi xem xét kĩ lưỡng nhóm nhận thấy việc sử dụng
phần mềm Azure Machine Learning, dữ liệu từ Kaggle và Google Colaboratory cho bài
nghiên cứu lần này để có thể xây dựng được mô hình theo bài báo mẫu. Từ đó, xác định
được tác động của các biến độc lập lên các biến phụ thuộc, độ chính xác của từng mô
hình áp dụng và cuối cùng là đưa ra sự so sánh kết quả giữa các thuật toán khác nhau đưa
ra các kểt quả dự đoán khác nhau và chọn ra được con máy phù hợp nhất với nghiên cứu
này.
Kết quả nghiên cứu tổng hợp cho ta thấy các nhân tố tác động đến giá của ngôi nhà
như Giá bán - giá bán tài sản bằng đô la. Đây là biến mục tiêu mà bạn đang cố gắng dự
đoán, MSSubClass : Lớp xây dựng, MSZoning : Phân loại phân vùng chung,
LotFrontage : Feet tuyến tính của đường phố kết nối với bất động sản, LotArea : Kích
thước lô tính bằng feet vuông, Đường phố : Loại đường vào, Ngõ : Loại đường vào ngõ,
LotShape : Hình dạng chung của tài sản, LandContour : Độ bằng phẳng của bất động
sản, Tiện ích : Loại tiện ích sẵn có, LotConfig : Cấu hình lô, LandSlope : Độ dốc của tài
sản, Vùng lân cận : Các vị trí thực tế trong giới hạn thành phố Ames, …, hầu hết 81 biến
trên tập dữ liệu Kaggle đều ảnh hưởng đến giá của ngôi nhà.
Từ kết quả nghiên cứu, nhóm đề xuất mô hình dự đoán giá chính xác nhất trong các
mô hình nhằm giúp các doanh nghiệp dự đoán được giá bất động sản của ngôi nhà thông
qua nhu cầu khách hàng và tiết kiệm được chi phí cũng như thời gian. Không ít bài báo
đã nghiên cứu về vấn đề dự đoán giá bất động sản,… nhưng với kết quả qua những số
liệu được chạy khảo sát nhóm hy vọng sẽ góp phần giúp ích để các doanh nghiệp bất
động sản nói riêng mà trong cả ngành mua bán nhà nói chung xác định được các giá trị
của ngôi nhà một cách hiệu quả. Cuối cùng, nhóm đưa ra những hạn chế của đề tài

1
nghiên cứu để đưa ra những kiến nghị, hàm ý quản trị cho doanh nghiệp và giải pháp
cho người mua.

2
CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU
1.1 Lý do chọn đề tài
Nghiên cứu về giá bất động sản của một ngôi nhà là quan trọng vì nó mang lại nhiều
lợi ích và thông tin hữu ích cho nhiều bên liên quan. Người mua và người bán nhà cần
thông tin chính xác về giá nhà để ra quyết định đầu tư và giao dịch. Nghiên cứu về giá
nhà cung cấp thông tin quan trọng về xu hướng thị trường, giá cả và các yếu tố ảnh
hưởng đến giá nhà.

Nghiên cứu gần đây của NAHB, Người mua nhà thực sự muốn gì , Phiên bản 2021 ,
đã yêu cầu những người mua lần đầu đánh giá hơn 200 đặc điểm của ngôi nhà và cộng
đồng bằng thang đo bốn bậc: thiết yếu, mong muốn, thờ ơ và không muốn.

Biểu đồ bên dưới hiển thị 10 đặc điểm “được mong muốn nhất” đối với người mua
nhà lần đầu, dựa trên tỷ lệ phần trăm người mua đánh giá một đặc điểm là đáng mong
muốn hoặc thiết yếu.

1
Phòng giặt là đứng đầu danh sách, được 83% người mua lần đầu đánh giá là cần
thiết hoặc mong muốn, tiếp theo là quạt trần và hệ thống chiếu sáng bên ngoài, mỗi loại
được 81% đánh giá là cần thiết hoặc mong muốn. Bốn trong số những tính năng được
người mua lần đầu mong muốn nhất là tính năng nhà bếp:

- Bồn rửa đôi trong bếp và tủ đựng thức ăn không cửa ngăn (mỗi loại được 80%
đánh giá là thiết yếu hoặc mong muốn).
- Lọc nước uống (78%).
- Không gian bàn ăn (77%).

Hai là tính năng ngoài trời: sân hiên (được 78% đánh giá là cần thiết hoặc mong
muốn) và hệ thống chiếu sáng bên ngoài.

Nằm trong top 10 là sàn gỗ cứng cho không gian sinh hoạt ở tầng chính (80%) và
camera an ninh (78%).

Danh sách các tính năng được người mua lần đầu mong muốn nhất cũng tương tự
như danh sách dành cho người mua nhà nói chung, mặc dù người mua nói chung có xu
hướng xếp hạng các tính năng này cao hơn một chút. Ví dụ: phòng giặt là số 1 trong cả
hai danh sách, nhưng được 87% người mua nói chung đánh giá là thiết yếu hoặc mong
muốn, so với 83% ở những người mua lần đầu.

Tuy nhiên, khi dự định và tìm hiểu về giá bất động sản của một ngôi nhà , đại đa số
chúng ta sẽ quan tâm đến giá nhà, khu vực, thiết kế nhà đang hot mà vô tình bỏ qua
những tiêu chí khác và việc chọn nghiên cứu dự đoán giá bất động sản của ngôi nhà
giúp ta hiểu rỏ thêm nhiều vấn đề cần thiết hơn, nhanh gọn, đáp ưng được nhu cầu của
người mua nhanh chóng, hiệu quả và hơn hết có thể mang lại nhiều lợi ích từ cả mặt thị
trường, ứng dụng thực tiễn, phát triển công nghệ, quan tâm xã hội, và nghiên cứu và
phát triển tiếp theo.

2
1.2 Mục tiêu nghiên cứu.Error: Reference source not found

1.2.1 Mục tiêu chung.

Xác đinh các nhân tố ánh hưởng đến giá bất động sản của ngôi nhà, từ đó giúp
doanh nghiệp tiết kiệm chi phí cũng như tiết kiệm thời gian của người bán và cả người
mua.

1.2.2 Mục tiêu cụ thể.

Mục tiêu 1: Xác định các nhân tố ảnh hưởng đến đến giá bất động sản của ngôi
nhà.

Mục tiêu 2 : Đánh giá mức độ ảnh hưởng của từng nhân tố đến đến giá bất động
sản của ngôi nhà.

Mục tiêu 3: Đề xuất một số giải pháp cho doanh nghiệp,..

1.3 Câu hỏi nghiên cứu.

Câu 1: Những nhân tố nào ảnh hưởng đến đến giá bất động sản của ngôi nhà ?

Câu 2: Mức độ tác động của các nhân tố đến người tiêu dùng ?

Câu 3: Giải pháp nào giúp ích cho doanh nghiệp kinh doanh bất động sản, người
bán và người mua ?

1.4 Đối tượng, phạm vi nghiên cứu.Error: Reference source not found

1.4.1 Đối tượng nghiên cứu

- Đối tượng nghiên cứu của đề tài : Các nhân tố ảnh hưởng đến giá bất động sản
của ngôi nhà

- Đối tượng khảo sát : Người bán, người mua hoặc doanh nghiệp.

1.4.2 Phạm vi nghiên cứu

3
Nghiên cứu này được thực hiện tại nhiều doanh nghiệp, người bán và người mua
khác nhau

1.5 Phương pháp nghiên cứu.

Bài nghiên cứu này sử dụng phương pháp nghiên cứu định lượng. Bộ dữ liệu này
bao gồm khoảng 81 biến và 1460 hàng giải thích mô tả gần như mọi khía cạnh của nhà ở
Ames, Iowa của một tập dữ liệu trên Kaggle. Mỗi hàng tương ứng mỗi ngôi nhà và bao
gồm nhiều các yếu tố nghiên cứu cho rằng nó ảnh hưởng đến giá của từng ngôi nhà.

1.6 Ý nghĩa của nghiên cứu.

1.6.1 Ý nghĩa lý thuyết

Kiểm tra, khẳng định tính đúng đắn của mô hình và kết quả của bài nghiên cứu
trước liên quan tới các yếu tố ảnh hưởng đến giá của từng ngôi nhà. Hơn nữa, bài này
còn nghiên cứu mở rộng hơn việc đưa ra mô hình dự đoán giá của ngôi nhà thông qua
các thông số cũng như đưa ra lý thuyết về xu hướng phân phối phù hợp doanh nghiệp,
người bán và người mua nhằm tiết kiệm được thời gian và chi phí, thời gian.

1.6.2 Ý nghĩa thực tiễn

Đưa ra mô hình hoàn thiện và đề xuất được các phương pháp hữu ích giúp cho
doanh nghiệp,người bán và người mua từ đó có thể biết được giá nhà tiềm năng, giúp
cho doanh nghiệp, người bán và người mua hoạt động tối ưu. Đồng thời, có thể giúp
doanh nghiệp, người bán và người mua có thể dựa vào đó đưa ra một số khắc phục để có
thể chốt một căn nhà nhanh chóng hơn.

1.7 Bố cục nghiên cứu.

Chương 1. Tổng quan đề tài.


Giới thiệu về lý do, mục tiêu nghiên cứu, đối tượng trong phạm vi nghiên cứu và
đóng góp của nghiên cứu.
Chương 2. Cơ sở lý thuyết.
4
Trình bày các kiến thức tổng quan về đề tài, giới thiệu về các biến được sử dụng:
biến độc lập và biến phụ thuộc, giới thiệu về công cụ, các mô hình và giải thích về
các nghiên cứu trước.
Chương 3. Các phương pháp nghiên cứu
Mô tả các phương pháp nghiên cứu, chọn ra quy trình nghiên cứu: Nghiên cứu
sơ bộ, phương pháp định lượng. Sau đó là bước làm sạch dữ liệu, mô tả và chọn ra
ba phương pháp là: “Decision Forest Regression”,“Boosted Decision Tree
Regression” và “Linear Regression” để thực hiện nghiên cứu lần này.
Chương 4. Kết quả nghiên cứu
Trình bày quá trình xây dựng mô hình, đánh giá và lựa chọn mô hình dự đoán,
triển khai Web service và thử nghiệm.
Chương 5. Kết luận nghiên cứu
Tổng kết toàn bộ quá trình, đưa ra kết luận, hạn chế của nghiên cứu, đề xuất về
hướng nghiên cứu trong tương lai.

5
CHƯƠNG 2: CƠ SỞ LÝ THUYẾTError: Reference source not found
2.1 Giới thiệu bài mẫu.Error: Reference source not found
Bài mẫu mà nhóm tham khảo có tên là “Walmart Store Sales Forecasting”
được xuất bản ngày 6 tháng 12 năm 2016 bởi tác giả Dmitry Katson. Đây cũng là
bài nghiên cứu để nhóm có ý tưởng làm bài nghiên cứu về giá của ngôi nhà.
Lấy dữ liệu từ kaggle và dự đoán doanh số bán hàng cho 45 cửa hàng
Walmart ở các khu vực khác nhau. Mỗi cửa hàng có nhiều gian hàng và dự đoán
doanh số bán hàng cho từng gian hàng trong mỗi cửa hàng.
Trong nghiên cứu này, tác giả sử dụng phương pháp nghiên cứu định tính
nhằm Phân tích và dự đoán doanh số bán hàng của các cửa hàng Walmart có thể
được thực hiện bằng nhiều phương pháp khác nhau trong lĩnh vực dự báo chuỗi
thời gian (time series forecasting) và phân tích dữ liệu. Sau đó, tiền xử lý dữ liệu
bao gồm làm sạch dữ liệu, xử lý dữ liệu bị thiếu, chuẩn hóa dữ liệu và chuyển đổi
dữ liệu thành dạng phù hợp cho các phương pháp phân tích và dự đoán.
Phân tích Exploratory Data Analysis (EDA): Thực hiện phân tích EDA để
hiểu rõ hơn về các đặc điểm của dữ liệu, quan hệ giữa các biến, và tìm ra các mẫu
và thông tin quan trọng trong dữ liệu.
Phân tích chuỗi thời gian: Sử dụng các phương pháp phân tích chuỗi thời
gian để xác định các mẫu, xu hướng và mùa vụ trong dữ liệu bán hàng của các cửa
hàng Walmart. Các phương pháp có thể bao gồm mô hình ARIMA, mô hình Holt-
Winters, hoặc mạng nơ-ron hồi quy dài hạn (Long Short-Term Memory - LSTM).
Xây dựng mô hình dự đoán: Dựa trên các phân tích chuỗi thời gian, xây dựng
mô hình dự đoán doanh số bán hàng cho các cửa hàng Walmart trong tương lai.
Các mô hình có thể được huấn luyện bằng cách sử dụng dữ liệu lịch sử và có thể
điều chỉnh để tối ưu hóa hiệu suất dự đoán
Đánh giá mô hình: Đánh giá hiệu suất của các mô hình dự đoán bằng cách sử
dụng các phép đo như sai số trung bình (Mean Absolute Error - MAE), sai số bình
phương trung bình (Mean Squared Error - MSE), hoặc hệ số xác định (R2). Điều
này giúp xác định xem mô hình nào hoạt động tốt nhất cho dữ liệu cụ thể.
2.2 Một số định nghĩa.Error: Reference source not found
2.2.1 Big Data là gì ?
Big Data được hiểu sử dụng để mô tả việc khai thác các thông tin quan trọng
từ nhiều nguồn khác nhau, sau đó các thông tin này được tập hợp lại để phân tích.

6
Nhà nghiên cứu công nghiệp đã lần đầu tiên công bố định nghĩa cho khái niệm Big
Data với 3V: Volume (khối lượng), Velocity (nhanh chóng, tức thời), Variety (đa
dạng, không đồng nhất về cấu trúc). Big Data không giới hạn ở bất cứ lĩnh vực
nào, nhưng ở hệ thống doanh nghiệp, công nghệ này có khả năng đem tới hiệu quả
vượt trội bởi không một mô hình dữ liệu nào đáp ứng đúng tiêu chí 3V của Big
Data như khối dữ liệu trong doanh nghiệp.

Cụ thể là, lượng dữ liệu khổng lồ được ghi lại trong suốt quá trình vận hành
doanh nghiệp có nhiều nguồn, đồng nghĩa có rất nhiều loại cấu trúc khác nhau và
được cập nhật nhanh chóng, tức thì lên hệ thống.
2.2.2 Big Data ứng dụng trong kinh doanh.
Nhiều doanh nghiệp chưa có chiến lược Big Data rõ ràng thường có xu hướng
thu thập được càng nhiều thông tin càng tốt, càng chi tiết, càng chính xác càng tốt.
Lượng dữ liệu này được hi vọng sẽ có thể giúp đội ngũ chuyên gia phân tích dữ
liệu trong tương lai đưa ra những thông tin có giá trị trong điều hành doanh nghiệp.
Tuy nhiên, điều này gây áp lực lên hệ thống hạ tầng công nghệ thông tin của doanh
nghiệp, và cũng không giúp được nhiều cho các chuyên gia phân tích. Vậy nên
chiến lược xây dựng Big Data trong doanh nghiệp nên bắt đầu từ việc đặt câu hỏi,
những thông tin nào cần thiết, và có khả năng đem lại giá trị trước khi bàn tới việc
thu thập chúng từ đâu và như thế nào.
Tầm quan trọng của Big Data không nằm ở việc khối lượng data thu thập
được mỗi ngày, mà ở chiến lược sử dụng chúng để đem lại những thông tin có giá
trị. Giá trị ở đây thể hiện ở việc, nó giúp giảm chi phí, rút ngắn thời gian, hỗ trợ
hoạt động nghiên cứu phát triển sản phẩm mới và hỗ trợ nhà quản trị trong công
tác ra quyết định.
Khi được kết hợp với một hệ thống phân tích dữ liệu mạnh mẽ, Big Data có thể
giúp doanh nghiệp thực hiện các tác vụ như: tìm hiểu về Big Data
- Xác định và cảnh báo về điểm nút có thể dẫn tới phát sinh gián đoạn sản
xuất hay lỗi sản phẩm gần với thời gian thực.
- Xây dựng các chương trình khuyến mãi tại điểm bán dựa trên thói quen của
khách hàng.
- Tính toán và tổng hợp nhanh chóng danh mục rủi ro.
- Phát hiện hành vi gian lận trước khi nó có thể tác động xấu tới hoạt động của
doanh nghiệp.

7
Có một sự thật rằng, khoa học công nghệ là rất công bằng đối với mọi đối
tượng, vì vậy, kể cả khi bạn chỉ là doanh nghiệp SME, bạn vẫn nhận được rất nhiều
lợi ích khi ứng dụng Big Data như: tăng cường khả năng quản trị, giảm thiểu rủi ro
và gian lận thương mại, duy trì chất lượng, giảm giá thành, tăng năng suất, và cải
thiện mối quan hệ khách hàng.

2.2.3 Azure Machine LearningError: Reference source not found


Microsoft Azure Machine Learning (ML) là một dịch vụ mà nhà phát triển có
thể sử dụng để xây dựng các mô hình phân tích dự đoán (sử dụng bộ dữ liệu đào
tạo từ nhiều nguồn dữ liệu khác nhau) và sau đó dễ dàng triển khai các mô hình đó
để sử dụng dưới dạng dịch vụ web trên đám mây. Azure ML Studio cung cấp chức
năng phong phú để hỗ trợ nhiều kịch bản quy trình công việc từ đầu đến cuối để
xây dựng các mô hình dự đoán, từ khả năng truy cập dễ dàng vào các nguồn dữ
liệu phổ biến, công cụ trực quan hóa và khám phá dữ liệu phong phú, ứng dụng
thuật toán ML phổ biến cũng như đánh giá, thử nghiệm mô hình và web mạnh mẽ
công cụ xuất bản.
Sách điện tử này sẽ trình bày tổng quan về lý thuyết và nguyên tắc khoa học
dữ liệu hiện đại, quy trình làm việc liên quan, sau đó đề cập đến một số thuật toán
học máy phổ biến hơn đang được sử dụng ngày nay. Chúng tôi sẽ xây dựng nhiều
mô hình phân tích dự đoán khác nhau bằng cách sử dụng dữ liệu trong thế giới
thực, đánh giá một số thuật toán máy học khác nhau và chiến lược lập mô hình, sau
đó triển khai các mô hình đã hoàn thành dưới dạng dịch vụ web máy học trên
Azure trong vòng vài phút. Cuốn sách cũng sẽ mở rộng trên Azure đang hoạt động
Ví dụ về mô hình dự đoán Machine Learning để khám phá các loại ứng dụng
máy khách và máy chủ mà bạn có thể tạo để sử dụng các dịch vụ web Azure
Machine Learning.
Các kịch bản và ví dụ toàn diện trong cuốn sách này nhằm cung cấp đủ thông
tin để bạn nhanh chóng bắt đầu tận dụng các khả năng của Azure ML Studio, sau
đó dễ dàng mở rộng các kịch bản mẫu để tạo các thử nghiệm phân tích dự đoán
mạnh mẽ của riêng bạn. Cuốn sách kết thúc bằng cách cung cấp thông tin chi tiết
về cách áp dụng các kỹ thuật “học tập liên tục” để “đào tạo lại” các mô hình dự
đoán Azure ML theo chương trình mà không cần bất kỳ sự can thiệp nào của con
người.

8
Azure Machine Learning là một dịch vụ đám mây cho phép chúng ta có thể
khởi tạo, quản lý, triển khai các model machine learning. Azure Machine Learning
cung cấp các dịch vụ chính như:

- Automated Machine Learning: Tạo nhanh các model từ dữ liệu.


- Azure Machine Learning Designer: Một nền tảng low-code giúp trực quan
hóa giao diện khi khởi tạo model.
- Lưu trữ và xử lý dữ liệu: Nơi lưu trữ và xử lý dự liệu đám mây một cách
thuận tiện có thể scale dễ dàng (Azure Machine Learning Workspace cho
phép chúng ta có thể lưu trữ, tạo máy ảo, thuê máy để train các model).
- Notebook & Pipelines: Nơi mà các Data Scientist, Software Engineers, có
thể viết code, train, deploy và quản lý các tasks.

2.3 Mô hình nghiên cứu trước.


Để có thể xác định được một cách chính xác các yếu tố tác động đến giá bất
động sản, chúng ta cùng xem qua các bài báo nghiên cứu đã được phân tích, thiết
lập và chứng minh trước đó. Sau đây là một số bài báo nghiên cứu trước và một số
bài báo nghiên cứu có liên quan :

2.3.1 "Predicting House Prices Using Multiple Linear Regression Model"

Tác giả: Abdelkader Alkhaldi và Adham Atyat


Tạp chí: International Journal of Computer Applications
Tóm tắt: Nghiên cứu này sử dụng mô hình hồi quy tuyến tính đa biến để dự
đoán giá nhà dựa trên các yếu tố như diện tích, số lượng phòng, vị trí, và các yếu
tố khác.
2.3.2 "Housing Price Prediction: A Machine Learning Approach"

Tác giả: Nitin Patel, Vishal Rajpurohit, và Ritesh Patel


Tạp chí: International Journal of Computer Applications
Tóm tắt: Bài báo này sử dụng các kỹ thuật học máy như mạng nơ-ron nhân
tạo và cây quyết định để dự đoán giá bất động sản dựa trên các biến như diện tích,
vị trí, và tiện ích xung quanh.
2.3.3"Predicting Real Estate Prices Using the Multiple Linear Regression
Model and Neural Networks"

9
Tác giả: K. K. Sharma và P. N. Chatur
Tạp chí: International Journal of Computer Applications
Tóm tắt: Nghiên cứu này so sánh hiệu suất giữa mô hình hồi quy tuyến tính
đa biến và mạng nơ-ron trong việc dự đoán giá bất động sản, và đưa ra kết luận về
sự hiệu quả của từng mô hình.
2.3.4"Predicting Housing Prices in Beijing, China: A Comparative Study of
Hedonic Price Model, ARIMA Model, and LSTM Model"

Tác giả: Hong Zhu và Jianjun Zhu


Tạp chí: Sustainability
Tóm tắt: Bài báo này so sánh hiệu suất của ba mô hình khác nhau (mô hình
giá hedonic, mô hình ARIMA, và mô hình LSTM) trong việc dự đoán giá nhà ở
Bắc Kinh, Trung Quốc.
2.3.5"House Price Prediction Using Machine Learning Techniques"

Tác giả: S. Fatima, S. Mahaboob, và M. A. Javeed


Tạp chí: International Journal of Engineering Research & Technology
Tóm tắt: Nghiên cứu này thử nghiệm và so sánh hiệu suất của nhiều phương
pháp học máy khác nhau trong việc dự đoán giá nhà, bao gồm k-Nearest
Neighbors, Naive Bayes, Support Vector Machines, và Decision Trees.

1
0
CHƯƠNG 3: KHÁI QUÁT DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU
Chương này, sẽ mô tả khái quát bộ dữ liệu bao gồm phương pháp tìm kiếm bộ dữ
liệu, các đặc tính của mỗi biến trong bộ dữ liệu và các bước xử lý bộ dữ liệu trước
khi thực hiện phân tích mô hình nghiên cứu của đề tài. Đồng thời, nhóm cũng sẽ
trình bày về phương pháp nghiên cứu sử dụng mô hình hồi quy với ba máy học
như : “Decision Forest Regression”, “Boosted Decision Tree Regression” và
“Linear Regression”
3.1 Thiết kế nghiên cứu
Bài nghiên cứu của nhóm dựa trên nhu cầu hầu hết doanh nghiệp, người mua và
người bán. Để có cái nhìn tổng quát thì nhóm đã áp dụng các biện pháp nghiên
cứu để có được thành quả chính xác, sau đây một số phương pháp mà nhóm triển
khai trong dự án lần này.
Phương pháp nghiên cứu tài liệu: nhóm đã áp dụng phương pháp nghiên cứu dữ
liệu Big Data, các kiến thức nền tảng và chuyên môn về lĩnh vực logistics và quản
trị chuỗi cung ứng, các môn học bổ trợ về khả năng tìm hiểu lĩnh vực và một số
nguồn thông tin tự học khác trên google và một số bài báo của các nhà khoa học
khác để có thêm nguồn kiến thức áp dụng cho nghiên cứu lần này.
Phương pháp nghiên cứu các thuật toán trong Azure machine learning dựa trên
nhiều thử nghiệm trên nhiều con máy khác nhau thì nhóm có chọn ra ba máy học
để so sánh đưa ra các kết quá khác nhau giúp cho bài nghiên cứu lần này bao gồm
“Decision Forest Regression”, “Boosted Decision Tree Regression” và “Linear
Regression”
Phương pháp so sánh: Với việc phân loại dữ liệu thành nhiều biến khác nhau, từ
đây nhóm có thể tiến hành so sánh giữa những nguồn dữ liệu đó, từ đó rút ra được
kết luận về ra giá bất động sản của ngôi nhà giữa những dữ liệu khác nhau, cho ta
thấy được tổng quát về các biến dữ liệu khác nhau tác động lên khả năng ra giá cả
của từng ngôi nhà ra sao.
Phương pháp phân tích và đưa ra giải pháp: dựa vào các nguồn dữ liệu thu thập
được nhóm hình thành các cơ sở dữ liệu để đưa ra một con máy cơ bản xử lý được
một số vấn đề doanh nghiệp gặp phải hiện nay, Bên cạnh việc sử dụng phần mềm
Microsoft Excel để tổng hợp và xử lý nguồn dữ liệu thô đầu vào, nhóm chúng em
còn áp dụng Microsoft Azure để phân tích và dự đoán dữ liệu. Nhờ đó đưa ra được
giải pháp giúp cho doanh nghiệp.

1
1
3.2 Quy trình nghiên cứu.
Để xử lý dữ liệu một cách hiệu quả, nhóm đã xây dựng nên quy trình nghiên
cứu thể hiện trình tự giúp định hướng cho quá trình nghiên cứu của nhóm.

Hình 3.2 Quy trình nghiên cứu.


3.3 Mô tả bộ dữ liệu.
3.3.1 Khái quát bộ dữ liệu
Bài nghiên cứu này, nhóm đã tìm kiếm và thu thập bộ dữ liệu này ở trên
Kaggle.com được tham khảo bởi Dean De Cock yêu cầu người mua nhà mô tả ngôi
nhà mơ ước của họ. Bộ dữ liệu này bao gồm khoảng 81 biến và 1460 hàng giải
thích mô tả gần như mọi khía cạnh của nhà ở Ames, Iowa. Mỗi hàng tương ứng
mỗi ngôi nhà và bao gồm nhiều các yếu tố nghiên cứu cho rằng nó ảnh hưởng đến
giá của từng ngôi nhà.

Hình 3.3 Một phần bộ dữ liệu gốc từ Kaggle.com


3.3.2 Định nghĩa các thuộc tính các biến.

1
2
Sau đây là bảng thuộc tính mà nhóm áp dụng vào trong nghiên cứu, bộ dữ liệu gốc
gồm 81 biến tính năng nhưng có một số biến có số % dự đoán thấp và dữ liệu bị
thiếu nên nhóm đã lọc ra còn lại 19 biến tính năng ngẫu nhiên sau cho bài nghiên
cứu.
STT Tên biến Ý nghĩa
1. ID Số nhà
2. MSSubClass Lớp xây dựng
3. MSZoning Phân loại phân vùng
chung

4. LotArea Kích thước lô tính bằng


feet vuông

5. Alley Loại đường vào ngõ


6. LotShape Hình dạng chung của tài
sản

7. LotConfig Cấu hình lô


8. Neighborhood Các vị trí thực tế trong
giới hạn thành phố Ames

9. Condition1 Gần đường chính hoặc


đường sắt

10. OverallQual Chất lượng vật liệu và


hoàn thiện tổng thể

11. OverallCond Đánh giá tình trạng tổng


thể

12. YearBuilt Ngày xây dựng ban đầu


13. YearRemodAdd Ngày sửa sang lại
14. RoofStyle Loại mái

1
3
15. Functional Đánh giá chức năng của
ngôi nhà

16. YrSold Năm bán


17. SaleType Loại hình bán hàng
18. SaleCondition Tình trạng bán hàng
19. SalePrice Giá bán tài sản bằng đô
la

3.4 Xử lý dữ liệu.
Sau khi chọn ra các biến cần thiết cho đề tài, nhóm tiếp tục sử dụng phần
mềm Microsoft Excel cho các bước xử lý bộ dữ liệu của bài nghiên cứu, bao gồm
các bước như sau.
Bước 1: Lọc ra những biến có khả năng cho dự đoán cao cho bài nghiên cứu.
Bước 2: Nhóm tiếp tục làm sạch dữ liệu bằng cách lọc những dữ liệu trống
mà không có khả năng cao trong dự đoán ra, làm tăng độ chính xác cao cho phân
tích.
3.5 Phương pháp nghiên cứu.
Phương pháp nghiên cứu: Theo phương thức học: Supervised Learning (Học
có giám sát): Supervised learning là thuật toán dự đoán đầu ra (outcome) của một
dữ liệu mới (new input) dựa trên các cặp (input, outcome) đã biết từ trước. Cặp dữ
liệu này còn được gọi là (data, label), tức (dữ liệu, nhãn). Supervised learning là
nhóm phổ biến nhất trong các thuật toán Machine Learning. Trong đó, thuật toán
được nhóm triển khai cho dự án dự đoán giá bất động sản của ngôi nhà là Linear
Regression và Random Forests. Mọi dữ liệu sẽ được thu thập từ Kaggle.
3.5.1 thuật toán Linear Regression

Thuật toán Linear Regression là một trong những thuật toán cơ bản và phổ
biến nhất trong học máy và thống kê. Nó được sử dụng để dự đoán một biến liên
tục dựa trên các biến độc lập. Linear Regression tìm kiếm một mối quan hệ tuyến
tính giữa các biến độc lập và biến phụ thuộc.

1
4
Cụ thể, trong trường hợp dự đoán giá bất động sản, Linear Regression có thể
được áp dụng bằng cách tìm ra một mối quan hệ tuyến tính giữa các biến như diện
tích, vị trí, số phòng, và giá bán của bất động sản.

Công thức của mô hình Linear Regression có thể được biểu diễn như sau:

Trong đó:

Mục tiêu của Linear Regression là tìm các giá trị của các hệ số β sao cho sai
số dự đoán (ϵ) là nhỏ nhất có thể. Điều này thường được thực hiện thông qua việc
tối ưu hóa một hàm mất mát, như hàm bình phương của sai số (Mean Squared
Error - MSE) hoặc hàm trị tuyệt đối của sai số (Mean Absolute Error - MAE).

Linear Regression là một công cụ mạnh mẽ và linh hoạt được sử dụng rộng rãi
trong nhiều lĩnh vực như dự đoán giá bất động sản, dự báo tài chính, và phân tích
kinh doanh.

Random Forest là một thuật toán máy học phổ biến được sử dụng cho các bài
toán phân loại và hồi quy. Nó là một phương pháp kết hợp nhiều cây quyết định để
tạo ra một mô hình dự đoán mạnh mẽ.
Nguyên lý hoạt động:
Bootstrap Sampling (Lấy mẫu ngẫu nhiên lặp lại): Random Forest sử dụng
phương pháp Bootstrap Sampling để tạo ra các tập dữ liệu con khác nhau từ tập dữ
liệu huấn luyện bằng cách lấy mẫu với hoàn lại (có thể trùng lặp).

Random Feature Selection (Chọn đặc trưng ngẫu nhiên): Trong quá trình xây
dựng mỗi cây quyết định, Random Forest chọn một số lượng ngẫu nhiên các đặc
trưng từ tập dữ liệu huấn luyện. Điều này giúp tạo ra sự đa dạng giữa các cây.

1
5
Xây dựng Cây Quyết định: Trên mỗi tập dữ liệu con, một cây quyết định
được xây dựng bằng cách chia tập dữ liệu thành các nhóm dựa trên các đặc trưng
được chọn. Quá trình chia tiếp tục đến khi không thể chia được nữa hoặc đạt được
điều kiện dừng khác.

Voting hoặc Average Prediction (Bỏ phiếu hoặc Dự đoán trung bình): Trong
bước cuối cùng, Random Forest kết hợp các dự đoán từ tất cả các cây trong tập
hợp bằng cách thực hiện bỏ phiếu (trong trường hợp phân loại) hoặc tính trung
bình (trong trường hợp hồi quy).

Ưu điểm:
Khả năng làm việc tốt với dữ liệu lớn và số lượng lớn các đặc trưng.
Tự động xử lý các giá trị còn thiếu và các đặc trưng phân loại không phải làm
việc.
Độ chính xác cao và khả năng tự động chọn đặc trưng quan trọng.
Nhược điểm:
Có thể phức tạp và tốn kém về mặt tính toán so với một số thuật toán khác.
Không dễ giải thích như một số thuật toán khác như Linear Regression hoặc
Decision Trees đơn lẻ.

1
6
CHƯƠNG 4 KẾT QUẢ NGHIÊN CỨU
4.1 Các tiêu chí đánh giá mô hình.
Dựa theo bài báo mẫu và kết quả đánh giá sau khi chạy mô hình trên nền
tảng Azure Machine Learning , nhóm đã chọn ra hai tiêu chí đánh giá mô hình. Bài
báo mẫu đã đánh giá cả ba mô hình Decision Forest Regression, Boosted Decision
Tree Regression và Linear Regression bằng chỉ số trong bảng Evaluation results
Khi so sánh và chọn ra mô hình dự đoán tốt nhất nhóm sẽ dựa vào
Coefficient of Determination (Hệ số xác định) trong bảng Evaluation results. Do
đó, đây là phương pháp ước tính tiêu chuẩn để đánh giá sự phù hợp của mô hình
dữ liệu. Bên cạnh đó, nó cũng thể hiện tỷ lệ đoán chính xác của mô hình. Hệ số
xác định này càng cao thì mức độ dự đoán của mô hình này càng cao.
Coefficient of Determination : Hệ số xác định này được sử dụng để đánh giá
hoạt động của mô hình. Hệ số xác định cao cho biết khả năng phân biệt độ tin cậy
và những trường hợp không đáng tin cậy một cách chính xác. Ngoài ra còn dựa
vào các thông số Negative Log Likelihood (NLL), Mean Absolute Error (MAE),
Root Mean Squared Error (RMSE), Relative Absolute Error (RAE), Relative
Squared Error (RSE) để đánh giá mô hình.
4.2 Kết quả nghiên cứu các mô hình
Để bắt đầu xây dựng mô hình dự đoán giá bất động sản của ngôi nhà trên dữ
liệu đã thu thập, với ba con máy “Decision Forest Regression”, “Boosted Decision
Tree Regression” và “Linear Regression’, nhóm sẽ tiến hành chạy trên Azure
Machine Learning.
Đầu tiên, nhóm truy cập vào trang web https://studio.azureml.net/, đăng
nhập và tải tập dữ liệu “House Pricesxx” lên studio, sau đó chọn New -> Blank
Experiment để bắt đầu tiến hành xây dựng một mô hình học máy. Ở thanh công cụ
bên tay trái, nhấp vào mục “Saved Datasets” – “My Datasets”, nhấn chọn file data
đã thêm vào đồng thời kéo thả chuột vào thí nghiệm đào tạo để làm việc.
Tiếp theo, thêm ô lệnh “Edit Metadata”(Chỉnh sửa siêu dữ liệu) vào thí
nghiệm đào tạo, chọn “Launch Column Selector”(Khởi chạy bộ chọn cột) ở thanh
công cụ bên phải, nhóm sẽ tiến hành chọn các biến có định dạng ban đầu là
“String”(sợi dây) và chuyển thành “Make categorical” tại mục tùy chọn
“Categorical”(phân loại) để chuyển kiểu dữ liệu chữ (String) thành dữ liệu phân
loại (Categorical).

1
7
Xây dựng mô hình trên Azure với bộ dữ liệu sau khi đã được làm sạch,
không còn dữ liệu trống gây nhiễu, với tổng cộng là 1460 mẫu ứng với 19 biến.
Bắt đầu phân tích dữ liệu và xây dựng mô hình.
Trước tiên, sẽ thêm ô lệnh “Filter Based Feature Selection”, lệnh này sẽ giúp
máy tìm ra những biến độc lập có tác động mạnh nhất đến biến phụ thuộc. Nhấp
vào “Launch Column Selector”, chọn biến “SalePrice” vì đây là biến phụ thuộc
dùng để dự đoán. Sau khi chạy bước này, kết quả nhận được 19 biến có hệ số
tương quan cao nhất so với biến phụ thuộc “SalePrice” là:

Hình 4.2 Mô tả 19 biến có hệ số tương quan từ cao đến thấp so với biến phụ
thuộc

Tiếp theo, dựa theo bài “Walmart Store Sales Forecasting”, nhóm sẽ tiến
hành tách dữ liệu để một phần dữ liệu dùng để đào tạo máy và phần còn lại dùng
để kiểm tra mô hình “Split Data” (chia dữ liệu) theo tỉ lệ lần lượt là 0.8 còn lại là
0.2 dữ liệu đào tạo sẽ được sử dụng để phù hợp với mô hình dự đoán, nhóm để
random seed sẽ là “12345” và dữ liệu thử nghiệm sẽ được sử dụng để đánh giá
hiệu suất của mô hình.

1
8
Hình 4.2 Mô tả tách dữ liệu trong Split Data.

Sau khi tách dữ liệu thành công, việc cần làm tiếp theo là bắt đầu chọn thuật
toán để chạy máy. Thêm ô lệnh “Train Model” và thuật toán cần chạy, ở đây nhóm
lần lượt chọn 3 thuật toán đã có sẵn trong Azure là máy “Decision Forest
Regression”, “Boosted Decision Tree Regression” và “Linear Regression’. Ở ô
lệnh “Train Model”, chọn biến độc lập “SalePrice”.

1
9
Hình 4.2 Mô tả hoàn chỉnh các bước đánh giá mô hình trong Azure Machine
Learning

Cuối cùng, thêm lần lượt theo thứ tự 3 ô lệnh “Score Model” – để máy đưa
ra các kết quả dự đoán sau khi đã train model và “Evaluate Model” – để đánh giá
độ chính xác của kết quả ở “Score Model”. Mô hình chi tiết và kết quả đánh giá
của từng mô hình sẽ được trình bày cụ thể ở phần dưới đây.

2
0
4.2.1 Mô hình Decision Forest Regression.

Hình 4.2.1 Xây dựng mô hình dự đoán bằng mô hình Decision Forest
Regression.
Sau khi hoàn tất việc chạy mô hình như trên, nhóm sẽ đánh giá độ chính xác
của mô hình dự đoán này qua bằng cách chọn “Visualize” ô lệnh “Evaluate
Model”. Kết quả đánh giá được thể hiện như hình sau:

Hình 4.2.1 Kết quả đánh giá mô hình Decision Forest Regression.

2
1
Hình 4.2.1 Mô hình Decision Forest Regression khi triển khai Wed Service

2
2
4.2.2 Mô hình Linear Regression.

Hình 4.2.2 Xây dựng mô hình dự đoán bằng mô hình Linear Regression.

Tương tự, sau khi hoàn tất chạy mô hình, kết quả đánh giá mô hình được
“Visualize” như hình sau:

2
3
Hình 4.2.2 Kết quả đánh giá mô hình Linear Regression.

2
4
Hình 4.2.2 Mô hình Linear Regression khi triển khai Wed Service.

4.3.3 Mô hình Boosted Decision Tree Regression.


Đây cũng là mô hình cuối cùng mà nhóm thử nghiệm.

2
5
Hình 4.2.3 Xây dựng mô hình dự đoán bằng mô hình Boosted Decision Tree
Regression.
Kết quả đánh giá mô hình được “Visualize” như hình sau:

2
6
Hình 4.2.3 Kết quả đánh giá mô hình Boosted Decision Tree Regression.

2
7
Hình 4.2.3 Mô hình Boosted Decision Tree Regression khi triển khai Wed Service.

4.3 So sánh kết quả nghiên cứu của các mô hình


Mục tiêu của bài nghiên cứu là tìm ra mô hình dự đoán có độ chính xác cao
nhất để dự đoán quyết định của khách hàng. Do đó, cần so sánh các giá trị đo
lường của cả ba mô hình đã chạy trên để chọn ra mô hình có thuật toán tốt nhất,
theo bảng dưới đây:
Mô hình Coefficient of Determination
Decision Forest Regression 0.769721
Linear Regression -0.338903

Boosted Decision Tree Regression 0.796244

Dựa trên kết quả đánh giá ta thấy kết quả đánh giá khá tốt, nhóm thấy cả ba mô
hình đều có những chỉ số tốt nhưng mô hình Boosted Decision Tree Regression có
các chỉ số ở mức vừa khá đồng đều nhau làm mô hình dự đoán. Các thông số cụ
thể như sau:

2
8
- Coefficient of Determination: 0.796244 (79%) được đánh giá tạm được
trong cả ba mô hình.
- Relative Squared Error: 0.2 khá ổn định khi số này càng nhỏ hoặc bằng 0 thì
tức là mô hình hoàn hảo.
- Relative Absolute Error: 0.4 tạm được, nếu nó bằng 0 thì nó cũng giống
Relative Squared Error là nó mô hình hoàn hảo.
- Mean Absolute Error và Root Mean Squared Error: lần lượt là 56.51 và
74.96 tạm ổn.
Cho thấy khả năng cao mô hình này dự đoán ở tầm trung và chuẩn hơn so với
hai mô hình còn lại.
4.4 Triển khai Web service và thử nghiệm.
Sau khi hoàn tất mô hình, nhóm tiến hành bấm Run để chạy mô hình Boosted
Decision Tree Regression. Sau khi chạy xong, nhóm sẽ bấm vào Set up Web
Service ở bên dưới và chọn Predictive Web Service [Recommended] nhóm nhận
được giao diện như sau:

Hình 4.4 Mô hình dự giá bất động sản của ngôi nhà triển khai Wed Service

2
9
Để việc test mô hình được thực hiện tinh gọn hơn, nhóm kéo thả thêm 1 select
column vào mô hình. Select column đầu nhầm loại bỏ biến dự đoán “SalePrice”
khi input dữ liệu để test.

Sau khi hoàn tất chạy mô hình xong, ta tiến hành thử nghiệm như sau: Đầu
tiên ta bấm vào Deloy Web Service sau đó bấm chọn Test Preview như hình sau:

Hình 4.4 : Giao diện trước khi bước vào thử nghiệm mô hình.

Sau đây là mẫu test dự báo của nhóm:

Đầu tiên nhóm nhập vào các giá trị các biến theo yêu cầu mà nhóm muốn dự báo.

3
0
Hình 4.4 Mẫu thử nghiệm 1.

3
1
Hình 4.4 Mẫu thử nghiệm 2.
Sau hai lần thử nghiệm thì kết quả có thay đổi khi thay đổi id của ngôi nhà giá
trị cũng tăng theo. Từ đó ta có thể thay đổi theo yêu cầu của người mua cung cấp
để đưa ra được giá bất động sản của ngôi nhà.

3
2

You might also like