Professional Documents
Culture Documents
Ò Án
Ò Án
Người dân nước mỹ đang gặp khó ăn về vấn đề lựa chọn giá nhà để mua cho phù hợp
vì ảnh hưởng của dịch covid 19 khiến cho vấn đề tài chính có chút eo hẹp .Vì thế nhiều
hộ gia đình có gặp nhiều tình huống khó khăn khi phải lựa chọn một cách thủ công
hàng ngàn căn nhà trên các trang bất động sản .Do đó nhằm giảm thiểu những vấn đề
trở ngại của họ, bài nghiên cứu này hướng đến các mục tiêu:
Nền kinh tế đang bước vào giai đoạn khủng hoảng sau đại dịch Covid-19, tình trạng
thất nghiệp gia tăng làm số người xin việc gia tăng. Vì thế, bộ phận nhân sự (HR) gặp
khó khăn khi phải xử lý một cách thủ công hàng ngàn, chục ngàn hồ sơ xin việc của
các ứng cử viên. Do đó, nhằm giảm thiểu những trở ngại trong việc tuyển dụng, bài
nghiên cứu này hướng đến các mục tiêu sau:
Sử dụng phần mềm Orange để xử lý bộ dữ liệu của các dự báo có sẵn . Ứng dụng
phương pháp phân lớp – một trong những phương pháp tối ưu nhất thông qua quá trình
xử lý và hệ thống hóa để dự báo dữ liệu
Từ dữ liệu được dự báo, chúng ta sẽ phân tích khả năng giá cả sẽ có của từng căn nhà
Xây dựng mô hình xử lí dữ liệu để giúp người tiêu dùng chọn lọc giá cả mà mục tiêu
về căn nhà một cách dễ dàng hơn, làm giảm bớt thời gian nghiên cứu lựa chọn mất
thời gian
Bộ dữ liệu đã được chúng e thu thập từ thông tin giá cả các căn nhà ở mỹ được đăng
tải trên kaggle.Tập dữ liệu thô đã bao gồm thông tin 545 dòng dữ liệu và 13 cột đặc
tính
Thông tin, dữ liệu từ sách báo, tài liệu học tập được thu thập, chọn lọc và phân tích
nhằm đưa ra những thông tin, quan điểm và khái niệm chính xác nhất làm nền tảng
xây dựng cơ sở lý thuyết cho bài nghiên cứu, dự đoán về những thuộc tính mục tiêu
mà bài nghiên cứu hướng đến, xây dựng các mô hình lý thuyết ban đầu. Bao gồm:
Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, sách báo hiện có, tiến
hành đọc và phân tích nhằm chắt lọc những nội dung cần thiết cho nền tảng lý thuyết
của bài nghiên cứu.
Phương pháp mô hình hóa: xây dựng mô hình nghiên cứu dựa trên nền tảng lý thuyết
và ứng dụng mô hình để dự báo nhằm kiểm định tính xác thực của mô hình.
Sử dụng các phương pháp thống kê, phân tích dữ liệu, ứng dụng mô hình hồi quy kinh
tế định lượng để dự báo mô hình kinh tế thông qua chỉ số EPS với sự hỗ trợ của các
chương trình Orange và Excel.
Từ đó, xây dựng các mô hình dự báo dựa vào bộ dữ liệu huấn luyện có sẵn và so sánh
các kết quả rút ra được với nhau nhằm lựa mô hình phù hợp nhất nhằm giúp các nhà
đầu tư có quyết định chính xác hơn khi đầu tư hiệu quả
Orange
a)Khái niệm:
Orange là một bộ công cụ mã nguồn mở được viết bằng Python, chuyên dụng cho
việc khai phá dữ liệu (data mining) và học máy (machine learning). Nó cung cấp một
giao diện trực quan và dễ sử dụng, giúp người dùng có thể thực hiện các thao tác xử lý
dữ liệu, xây dựng mô hình học máy và phân tích kết quả một cách nhanh chóng và
hiệu quả.
b)Ứng dụng:
Orange được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau, bao gồm:
Khoa học dữ liệu: Orange được sử dụng để thu thập, chuẩn bị, phân tích và trực quan
hóa dữ liệu.
Học máy: Orange được sử dụng để xây dựng và huấn luyện các mô hình học máy cho
nhiều dạng bài toán khác nhau, như phân loại, dự đoán, nhóm dữ liệu, v.v.
Nghiên cứu khoa học: Orange được sử dụng trong nhiều lĩnh vực nghiên cứu khoa học
khác nhau, như y học, sinh học, kinh tế, xã hội, v.v.
Giáo dục: Orange được sử dụng trong giảng dạy và học tập về khai phá dữ liệu và học
máy.
c)Đặc tính :
Không yêu cầu người dùng có kiến thức lập trình chuyên sâu để sử dụng, phù hợp
với mọi đối tượng, từ người mới bắt đầu đến chuyên gia.
Orange tích hợp sẵn nhiều thuật toán khai phá dữ liệu và học máy phổ biến, bao
gồm:
Thu thập và xử lý dữ liệu: Đọc dữ liệu từ nhiều nguồn khác nhau, lọc, gán biến,
chuẩn hóa dữ liệu, v.v.
Phân tích dữ liệu khám phá: Tính toán thống kê cơ bản, trực quan hóa dữ liệu bằng
biểu đồ, sơ đồ, v.v.
Học máy: Phân loại, hồi quy, nhóm dữ liệu, giảm chiều dữ liệu, v.v.
Người dùng có thể dễ dàng lựa chọn thuật toán phù hợp với nhu cầu và dữ liệu của
mình.
Orange có thể được mở rộng bằng cách viết các widget và module mới, cho phép
người dùng thực hiện các chức năng chuyên biệt theo nhu cầu của mình.
Cộng đồng người dùng Orange năng động và thường xuyên chia sẻ các widget và
module mới, giúp mở rộng khả năng của phần mềm.
Orange là phần mềm mã nguồn mở, được phát hành theo giấy phép MIT, cho phép
người dùng sử dụng, sửa đổi và phân phối miễn phí.
Điều này giúp người dùng dễ dàng tiếp cận, học hỏi và đóng góp cho sự phát triển
của phần mềm.
Orange được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau, bao gồm:
Khoa học dữ liệu: Thu thập, chuẩn bị, phân tích và trực quan hóa dữ liệu.
Học máy: Xây dựng và huấn luyện các mô hình học máy cho nhiều dạng bài toán
khác nhau.
Nghiên cứu khoa học: Ứng dụng trong nhiều lĩnh vực nghiên cứu khoa học như y
học, sinh học, kinh tế, xã hội, v.v.
Giáo dục: Giảng dạy và học tập về khai phá dữ liệu và khoa học.
Về mặt khoa học và thực tiễn, giá nhà chịu ảnh hưởng bởi nhiều yếu tố phức tạp,
đòi hỏi ứng dụng kiến thức và kỹ thuật từ nhiều lĩnh vực. Nghiên cứu này là bài
toán khoa học thú vị, đầy thử thách và có tiềm năng thúc đẩy sự phát triển của
khoa học dữ liệu và học máy trong lĩnh vực bất động sản.
Hiện nay, việc nghiên cứu dự đoán giá nhà trở nên khả thi và hiệu quả hơn nhờ sự
sẵn có của nguồn dữ liệu phong phú và các công cụ phân tích dữ liệu tiên tiến. Lựa
chọn đề tài nghiên cứu giá nhà tại Hoa Kỳ là quyết định sáng suốt, mang lại nhiều
lợi ích thiết thực và góp phần thúc đẩy sự phát triển khoa học