Professional Documents
Culture Documents
Bài tập nhóm kho
Bài tập nhóm kho
Bài tập nhóm kho
Bảng có nhiều hàng nhất là bảng tương tác của học viên, cũng có số lượng
lặp khá lớn.Còn tất cả các hàng còn lại không có dữ liệu lặp.
b. Bảng courses
Đề cập đến danh sách các học phần có sẵn và kỳ học tương ứng, các cột dữ liệu bao gồm:
c. Bảng assessments
Mô tả thông tin về các bài kiểm tra trong khóa học, bao gồm các cột sau:
Lưu ý: Nếu ngày nộp cuối cùng của bài thi cuối kỳ là null, thì ngày cuối cùng của khóa học sẽ
được sử dụng mặc định.
d. Bảng vle
Danh sách các tài liệu có sẵn trong VLE (Virtual Learning Environment), bao gồm các thông tin
sau:
Thông tin về học viên và kết quả học tập, bao gồm các chi tiết sau:
f. Bảng student_registration
gồm các chi tiết sau:
g. Bảng student_assessment
Thông tin về kết quả các bài kiểm tra của học viên được mô tả như sau:
Thông tin về tương tác của từng học viên với các tài liệu trên VLE được mô tả như sau:
Có một xu hướng rõ rệt là số lượng học viên trong các kỳ học sau đang tăng lên so với các kỳ
học cùng thời điểm năm trước. Ví dụ, số lượng học viên trong kỳ học 2014B nhiều hơn khoảng
3000 học viên so với kỳ học 2013B. Tổng số học viên cho năm 2014 là khoảng 19000, vượt qua
con số 13000 học viên của năm 2013, tăng hơn 6000 học viên.
Điều này đặt nền tảng cho việc phân tích chi tiết hơn về xu hướng phát triển theo thời gian và các
yếu tố ảnh hưởng đến sự biến động của số lượng học viên.
Những phát hiện này khuyến khích việc thực hiện các phân tích sâu hơn để hiểu rõ hơn về
nguyên nhân và các yếu tố tác động đến sự chênh lệch này.
c, Phân bố số lượng học viên của từng học phần theo nhóm tuổi
Biểu đồ cột thể hiện phân bố số lượng học viên của từng học phần theo nhóm tuổi, giúp so sánh
mức độ tương ứng giữa các học phần như sau:
Đối với nhóm tuổi 0-35, số lượng học viên nhiều nhất tập trung vào học phần F, đồng thời đây
cũng là học phần có số lượng học viên cao nhất trong tất cả các nhóm tuổi.
Trong nhóm tuổi 35-55, học phần B có số lượng học viên nhiều nhất. Điều đáng chú ý là trong
nhóm tuổi này, có sự giảm đột ngột về số lượng học viên, và sự giảm này càng mạnh hơn ở
nhóm tuổi trên 55.
Những biến động này giúp hiểu rõ hơn về đặc điểm của học viên và sự khác biệt giữa các học
phần.
Như đã tính toán các đại lượng thống kê ở trên, điểm kiểm tra theo mã học phần AAA có
trung bình và trung vị khá gần nhau (69.15 và 71.0). Điều này cho thấy phân phối điểm không
bị lệch nhiều. Độ lệch chuẩn khá thấp (khoảng 12) cho thấy điểm số của sinh viên trong học
phần AAA có sự ổn định hơn so với một số học phần khác.
g, Ma trận hệ số tương quan
Từ ma trận có thể thấy, số tín chỉ có hệ số tương quan lớn nhất với kết quả khoá học (0.16).
Điều này cho thấy những học viên đã hoặc đang học nhiều tín chỉ hơn có xu hướng bỏ học giữa
chừng nhiều hơn. Nguyên nhân có thể do người học ít tín chỉ đầu tư để hoàn thành khóa học
hơn, người đã học nhiều tín chỉ có kinh nghiệm hơn, họ biết khóa học nào phù hợp với mình
hơn nên sẽ bỏ giữa chừng nếu thấy không phù hợp.
3. Data Architecture
4. ETL
Tiền xử lý dữ liệu là một bước quan trọng trong quá trình phân tích dữ liệu. Nó đảm bảo
rằng dữ liệu đang làm việc với đủ chất lượng và phù hợp để tạo ra kết quả phân tích hoặc dự
đoán chính xác.
Dưới góc nhìn logic, ta cần tập trung vào 3 đối tượng chính:
Kết quả học tập: Được đánh giá thông qua chỉ số chính là tỷ lệ điểm thi.
Đăng ký khoá học: Được đo lường bằng chỉ số chính là số lượng học viên.
Tương tác với hệ thống VLE: Được phản ánh qua chỉ số chính là số lượt click.
Với các đối tượng và chỉ số này, các khía cạnh cần xem xét bao gồm:
Học viên: Bao gồm các đặc điểm như giới tính (gender), khu vực (region), dải độ tuổi
(age band), tình trạng khuyết tật (disability), và trình độ học vấn cao nhất (highest
education).
Bài kiểm tra: Bao gồm loại bài kiểm tra (assessment_type) và mã bài kiểm tra
(assessment).
Khoá học: Thông tin về học phần và kỳ học.
Thời gian: Biến đổi theo ngày, tháng, năm và kỳ học.
Tài liệu: Bao gồm mã tài liệu và loại tài liệu.
Mô hình dữ liệu gồm 5 bảng dim và 3 bảng fact. 5 bảng dim trong mô hình tương ứng với
5 dim đã nêu ở phần trước. 3 bảng fact gồm có:
• fact_student_result: chứa thông tin về kết quả học tập, gồm mã học viên, mã bài kiểm
tra, mã khoá học, mã đặc điểm học viên, ngày nộp bài, hạn nộp, điểm bài kiểm tra,
điểm khoá học, kết quả khóa học.
• fact_registration: chứa thông tin đăng ký khóa học của học viên, mã học viên, mã khoá
học, mã đặc điểm học viên, ngày đăng ký, ngày huỷ đăng ký khoá học.
• fact_student_vle: chứa thông tin tương tác với hệ thống của học viên, mã học viên, mã
khoá học, mã tài liệu, mã đặc điểm học viên, tổng số lượt click, ngày tương tác.
8. Mở Rộng
- Ứng dụng Microsoft Copilot vào việc xử lý dữ liệu
Microsoft Copilot, một chatbot được Microsoft phát triển và thay thế cho Cortana.
Điểm độc đáo của Microsoft Copilot: Có khả năng trích dẫn nguồn, làm thơ, viết bài hát, thiết kế đồ
họa.
Ngày phát hành lần đầu : Ngày 7 tháng 2 năm 2023
Ưu điểm: Có thể tạo ra đa dạng các loại dữ liệu đầu ra hơn như thiết kế ảnh, trích dẫn
nguồn, duyệt web, v.v... Có khả năng lập trình trong đa số các trường hợp chính xác
hơn,...
Nhược điểm: Bị giới hạn số câu chat khi sử dụng, không xem được lịch sử hỏi, ...