Professional Documents
Culture Documents
THỐNG KÊ CHO KHOA HỌC XÃ HỘI
THỐNG KÊ CHO KHOA HỌC XÃ HỘI
THỐNG KÊ CHO KHOA HỌC XÃ HỘI
★ 7/12/2022
1. KHÁI NIỆM:
- Khái niệm chọn mẫu( sample sampling): Là quá trình chọn một số lượng
nhỏ những đơn vị nghiên cứu từ một quần thể( dân số) nghiên cứu xác
định
- Dung lượng mẫu/ quy mô mẫu: là tập hợp các đơn vị mẫu được chọn.
Phương pháp chọn mẫu sẽ quyết định cách NNC kết luận các kết quả
nghiên cứu( có đại diện cho tổng thể được không, đại diện mức độ nào)
- Tuy nhiên thông tin cá nhân có thể không được cung cấp=> phải chấp
nhận.
Mẫu nằm trong tổng thể, là 1 Mẫu nằm trong tổng thể, là 1
phần tổng thể, mẫu được chọn ra phần tổng thể, được chọn ra từ
có khả năng đại diện cho tổng tổng thể, nhưng không rõ được
thể có mang đặc điểm đặc trưng chọn ra như thế nào, nên không
đại diện cho tổng thể. đại diện cho tổng thể.
Mỗi đơn vị được chọn ra phải là một cá nhân. Cá nhân chính là đối
tượng/ người trả lời.
Tập hợp mẫu là “cá nhân” khác gì với con số??
Số thì có thể có số nguyên và thập phân, người thì chỉ có số nguyên
- Nguyên tắc thống kê đòi hỏi một mẫu có giá trị khi mẫu đó có kích
thước đủ lớn( đủ cỡ mẫu) và mẫu đại diện cho dân số( n>=30)
- Mục tiêu chọn mẫu: phản ánh chính xác đặc điểm của tổng thể
- Không khẳng định, kết luận cho tổng thể nếu chọn mẫu không đúng,
mẫu không mang tính đại diện cho tổng thể( phi xác suất) mà chỉ đúng
với nhóm khách thể đã khảo sát.
- Tổng thể( population): là tập hợp các đối tượng có chung đặc điểm mà
chúng ta muốn áp dụng kết quả nghiên cứu.
- Mẫu( sample): Tập hợp những đối tượng được khảo sát có hệ thống nhằm
ước lượng đặc trưng của dân số đích
-
- Khối dân cư mục tiêu: trong nghiên cứu cần có cùng một vấn đề nhưng có
nhiều nhóm khác nhau có thể cung cấp cho mình thông tin.
- Khối dân cư lấy mẫu: là khối dân cư từ đó một nhóm mẫu cụ thể được chọn
dựa trên khung mẫu. Về mặt thực nghiệm, khung mẫu chính là đại diện
tổng thể. VD: danh sách sinh viên của các trường thành viên ĐHQG.
Danh sách sinh viên lớp TKCKHXH 04
- Khung mẫu( sampling frame): tập hợp của những đơn vị nghiên cứu
hơn ..trong dân số
- Ví dụ: Nghiên cứu về thực trạng về tình dục trước hôn nhân của sinh
viên đại học quốc gia
- Khối dân cư mục tiêu: Chọn những nhóm có liên quan đến thực trạng
trên:
- SV( chủ thể)
- Phụ huynh( thái độ của PH giả sử nếu có chuyện đó, cách xử lý, cách
giáo dục của PH về TD, cách chia sẻ của PH với SV với các vấn đề trong
cuộc sống)
- QLSV/ GVCN/ CVHT( thực trạng, tư vấn cho các bạn về tâm tư tình cảm)
- Chủ nhà nghỉ theo giờ/ khách sạn
- Bác sĩ phụ sản/ nhân viên y tế=> nơi nào, ai có thể hỗ trợ giải quyết
- Khối dân cư lấy mẫu: Sinh viên của các trường thành viên ĐHGQ
- Tổng thể: Toàn bộ 100.000 sinh viên đại học quốc gia
- Mẫu: sinh viên
- Chọn mẫu: mẫu xác suất, phương pháp chọn mẫu ngẫu nhiên
- Dung lượng/ quy mô mẫu: 1000 sinh viên
- Trong đó: n là dung lượng mẫu, N là số lượng tổng thể, e là sai số tiêu
chuẩn
- Trường Nhân Văn có 15000 SV, mức sai số mong muốn (e) là 1% (khả
năng mình chọn đúng là bao nhiêu %, độ tin cậy gần như tuyệt đối là
99%). Tính n?
- n= 15000/(1+15000*0,01 bình)= 6000
- Nếu e= 5%=> n=?
- n= 15000/(1+15000*0,05 bình)= 389,61=> nhưng đơn vị mẫu mới có khả năng
đại diện 95% cho tổng thể về mặt số lượng
- Thông thường chọn mức độ sai số 5%
- Thực tế có rất nhiều trường hợp sai số( di cư, du lịch..)
-
Ngẫu nhiên đơn giản( simple Lấy mẫu thuận tiện( convenience)
random)
Phân tầng( stratified random) Lấy mẫu tăng nhanh( viên tuyết
lăn)
- Phương pháp lấy mẫu mà mọi đơn vị lấy mẫu đều được chọn vào mẫu
nghiên cứu với xác xuất bằng nhau và độc lập với việc chọn đơn vị lấy
mẫu khác.
- Ví dụ: Rút thăm, lô tô, bảng số ngẫu nhiên, tờ tiền, vé số, phần mềm,...
3.1.2. Mẫu ngẫu nhiên hệ thống:
- Cứ phần tử thứ k tiếp sau phần tử đầu tiên được chọn ngẫu nhiên từ
danh sách
- ( bước nhảy) k= N/n
3.1.3. Mẫu phân tầng:
- Mẫu phân tầng: phải biết thông tin về tổng thể, phân biệt theo đặc tính,
xếp vào từng tầng khác nhau
- Ví dụ: chọn khảo sát Nhân văn, phân tầng theo giới tính( ¾ nữ và ¼
nam), diện cư trú( ⅓ thường trú, ⅔ tạm trú)
- Các cá thể trong mỗi tầng đều đồng nhất
- Có thể áp dụng chọn mẫu ngẫu nhiên hoặc mẫu hệ thống ở mỗi tầng
- Số mẫu mỗi tầng được chọn có thể bằng nhau hoặc tỷ lệ với nhau
- Ưu điểm:
+ Đảm bảo mỗi nhóm đều có tính đại diện trong tổng mẫu
+ Các nhóm đều được so sánh và thống kê
+ Giảm sai số hệ thống
- Hạn chế:
+ Yêu cầu thông tin chính xác về tỷ lệ giữa các tầng
+ Tốn kém chi phí để có được danh sách các tầng
★ 14/12/2022
THANG ĐO:
- Thang đo hay còn gọi là cấp độ đo( levels of measurement) là cách thức
chúng ta đo lường hay nói cách khác là đặt câu hỏi- đáp án
- Thang đo là khái niệm quan trọng trong tiến thu thập và phân tích dữ
liệu
- Một câu hỏi có thu thập thông tin được hiệu quả hay không phụ thuộc
rất nhiều vào thang đo
- Tương ứng với hai loại biến định tính và định lượng, có 2 loại thang đo
chính:
+ Thang đo biến số chữ [định tính] ( bao gồm thang đo danh nghĩa
và thang đo thứ bậc)
+ Thang đo biến số số [định lượng] ( bao gồm thang đo khoảng
cách và thang đo tỉ lệ)
Thang đo danh nghĩa( nominal scale)
- Một biến được xác định bởi thang đo danh nghĩa gồm hệ thống các chỉ
báo khác nhau biểu thị thuộc tính hay tính chất của biến đó
- Các chỉ báo này có tính chất ngang nhau và không theo một thứ tự nào
- Một thang đo danh nghĩa phải có 2 chỉ báo( giá trị) trở lên
Giới tính Tình trạng hôn nhân Nơi đến của anh chị?
1. Nam 1. Độc thân 1. TP HCM
2. Nữ 2. Có vợ/ chồng 2.Hà Nội
3.Ly thân 3.Khác
4.Ly dị
5.Góa
Thang đo thứ bậc( ordinal scale)
- Là thang đo danh nghĩa nhưng các chỉ báo hay các phương án trả lời
được sắp xếp theo một trật tự nhất định
- Nói một cách khác, giữa các chỉ báo này có quan hệ thứ bậc hơn kém,
nhưng thường thì mức độ hơn kém giữa chúng không xác định được
Ví dụ: Thu nhập trung bình hàng tháng Kinh tế so với 5 năm trước
1.Dưới 500 ngàn 1. Khá hơn rất nhiều
2.Từ 500 ngàn đến dưới 1 triệu 2.Khá hơn chút đỉnh
3.Từ 1 triệu đến dưới 2 triệu 3.Cũng vậy
4.Từ 2 triệu đến dưới 3 triệu 4.Tệ hơn chút đỉnh
5.Từ 3 triệu trở lên 5.Tệ hơn nhiều
- Thang đo thứ bậc( ordinal scale) đo lường những dữ liệu được sắp xếp
theo thứ tự, chẳng hạn như thứ bậc của sinh viên trong lớp học là thứ
nhất, thứ hai, thứ ba và thứ tư tùy thuộc vào điểm trung bình học tập
của họ. Tuy nhiên, giá trị thực tế hoặc giá trị tương đối của các thành
phần hay sự khác biệt trong giá trị của các thành phần không thể được
đánh giá. Ví dụ, thứ hạng của các học sinh trong lớp không nói lên điểm
trung bình cụ thể của họ.
Thang đo khoảng cách( interval scale)
- Là thang đo có đầy đủ tính chất của một thang đo danh nghĩa và thứ
bậc, nhưng khoảng cách giữa các chỉ số được xác định một cách cụ thể
và đều nhau
- Đối với loại thang đo này ta có thể sử dụng một số các phép tính toán
học như tính trung bình hay tính toán tỉ lệ chênh lệch giữa các chỉ số
- Điểm “không” của thang đo này là tùy ý
- Phát biểu “Những người có học vấn cao sẽ có thu nhập cao”
1 2 3 4 5 6 7
Rất không rất đồng ý
đồng ý
- Thang đo này thường được sử dụng nhiều cho các phân tích chuyên
sâu về định lượng như: Phân tích nhân tố( EFA) hoặc Hồi quy tuyến tính.
MỘT SỐ VẤN ĐỀ CẦN LƯU Ý TRONG VIỆC XÂY DỰNG THANG ĐO:
- Tránh thu thập những thông tin quá riêng tư của người trả lời
- Phương án trả lời không bao phủ câu hỏi
- Thang đo lặp lại
- Thang đo khoảng cách không rõ
1. KHÁI NIỆM:
- Thống kê mô tả là phương pháp liên quan đến việc tổ chức, tổng
hợp và trình bày số liệu thu thập được từ mẫu nghiên cứu hoặc
tổng thể
- Một trong những lý do chính sử dụng phương pháp thống kê là
để tổng hợp và mô tả dữ liệu, làm cho thông tin được trình bày rõ
ràng hơn
- Thống kê mô tả được chia thành đo lường xu hướng tập trung và
đo lường biến động. Đo lường xu hướng tập trung có giá trị trung
bình, trung vị và yếu vị, trong khi các đo lường biến động gồm độ
lệch chuẩn, phương sai, giá trị nhỏ nhất và giá trị lớn nhất, độ
nhạy và độ lệch.
Đo lường trong thống kê mô tả
- Biến Định lượng:
+ Đo lường độ tập trung: Trung bình( Mean), trung vị( medium) và
yếu vị( mode).
+ Đo lường độ phân tán: Khoảng( Range), phương sai( Variance) và
độ lệch chuẩn( Standard devitation).
- Biến Định tính:
+ Tần số( frequency)
+ Tỷ lệ( proportion/ percentage)
+ Đo lường độ phân tản: Giá trị IQV
- Dữ liệu thô:
2. PHƯƠNG PHÁP THỐNG KÊ MÔ TẢ DƯỚI DẠNG BẢNG:
- Bảng Phân phối tần suất liên hệ:
- 1 bảng trình số lần xuất hiện của một hay nhiều giá trị được quan sát
trong mẫu hoặc tổng thể
- Các kiểu phân phối tần suất
+ Thô( raw)
+ Liên hệ(relative): tỉ lệ( proportion) và phần trăm( percent)
+ Lũy tiền( cumulative)
- Một số ký hiệu sử dụng trong tính toán phân phối tần suất
+ n= tổng số mẫu quan sát
+ X= biến
+ i= giá trị( thành phần) của biến X
+ fi= tần suất quan sát của giá trị i
2.1. Bảng phân phối tần suất thô
2.2. Bảng phân phối tần suất liên hệ
2.3. Bảng phân phối tần suất lũy tiền
★ 21/12/2022
2.1. Bảng phân phối tần suất thô
2.2. Bảng phân phối tần suất liên hệ
- Khi N là số lẻ, giá trị trung vị là giá trị nằm ở vị trí thứ (N+1)/2 trong tập dữ liệu
- Trong trường hợp n là số chẵn: giá trị trung vị là giá trị trung bình cộng của 02 quan sát
nằm ở vị trí chính giữa tập dữ liệu
- Đối với biến có thang đo thứ bậc: sử dụng bảng phân phối tần suất lũy
tiến để xác định giá trị trung vị
- Giá trị trung vị chính là giá trị có phần trăm lũy tiến lớn hơn và gần kề tỉ lệ
50%
3. Trung bình cộng( Mean): được tính bằng cách cộng tất cả các giá trị của
mỗi quan sát trong tập dữ liệu rồi chia cho tổng số quan sát
- Công thức:
NOTE: KHOẢNG CÁCH, TỶ LỆ=> ĐỊNH LƯỢNG
cách tính bảng trên
- Giá trị trung vị không bị ảnh hưởng bởi các giá trị ngoại biên
- Mean dễ bị tác động bởi các giá trị ngoại lệ
- Nếu 1 tập dữ liệu phân bố đều, độ tập trung cao thì ba giá trị trung vị,
yếu vị, trung bình gần nhau. Ngược lại, nếu các giá trị trung vị, yếu vị và
trung bình bị lệch nhau nhiều thì có nghĩa là độ tập trung yếu, giá trị
trung bình không được tin cậy cao.
- Mặc dù giá trị trung bình thường xuyên được sử dụng, nhưng còn phải
xem lại trung vị, nếu lệch nhiều quá, thì trung vị lại được xem là điểm
giữa tin cậy nhất.
LƯU Ý:
- Mean( TB cộng) dễ bị tác động bởi các giá trị ngoại lệ. Tuyệt đối không
tính trung bình cộng cho thang đo định danh
- Trong thang đo định tính, loại thứ bậc thì vẫn có khả năng xác định
được giá trị trung bình, bằng cách gán cho các giá trị thành các con số,
làm tròn con số giá trị ban đầu để tìm được giá trị trung vị-> nhưng
không có ý …..
- Đại lượng cách độ( R) bị ảnh hưởng rất nhiều bởi các giá trị
ngoại lệ-> đại lượng đo lường độ phân tán yếu nhất và ít được
sử dụng
3. Phương sai:
- Một phương pháp khác để đo lường độ biến thiên của một tập dữ liệu
định lượng là sử dụng giá trị trung bình cộng như là một điểm để so
sánh với từng giá trị quan sát
- Cách đơn giản nhất để tính đại lượng này là lấy giá trị của từng quan
sát trừ đi giá trị trung bình cộng của tất cả các quan sát này, sau đó
cộng tất cả các kết quả lại thành độ lệch trung bình( mean deviations)
- Ví dụ: Tính phương sai khoảng cách đến trường của sinh viên
- Vấn đề đặt ra đối với phương pháp này là tổng các độ lệch của dữ liệu
luôn bằng 0. Trong khi đó, giá trị 0 thì không có ý nghĩa trong việc đo
lường độ phân tán
- Để khắc phục vấn đề này, các giá trị lệch giữa giá trị quan sát và giá trị
trung bình sẽ được bình phương( làm cách này, những giá trị âm sẽ
không còn nữa), sau đó cộng tất cả các giá trị bình phương này lại.
- Phương sai là giá trị đo lường độ biến thiên xung quanh giá trị trung
bình. Phương sai được tính bằng lấy tổng các biến thiên giữa từng quan
sát với giá trị trung bình đã được bình phương chia cho tổng số quan
sát
=> S bình phương= 448/( 15-1) = 32,0
- Mặc dù phương sai được xem như là một trong những phép tính
thống kê để đo lường độ phân tán, tuy nhiên nó không có ý nghĩa
nhiều
- Giá trị này chỉ thực sự có ý nghĩa khi nó được chuyển hóa thành
một giá trị khác gọi là độ lệch chuẩn( Standard Deviation
=> Thang đo thứ bậc
BẢNG TÓM TẮT THỐNG KÊ MÔ TẢ
NOTE: GTTB-> TẤT CẢ THANG ĐO( CHỈ PHÂN TÍCH DỮ LIỆU-> KHOẢNG CÁCH
VÀ TỈ LỆ)