Download as xlsx, pdf, or txt
Download as xlsx, pdf, or txt
You are on page 1of 19

Chú ý: Để công cụ Data Analysis xuất hiện trong thẻ DATA, làm tương tự cách kích hoạt công

cụ Solver, ở bước
3.1. Thống kê mô tả: Cho bảng dữ liệu nghiên cứu về lúa:
Dài bông P1000 Số bông Năng suất
25 24 184 4
26 25 186 4.5
27 26 188 5
27 26 166 3.8
26 25 165 4
25 27 164 4.3
26 22 164 3.7
27 23 165 4
28 24 166 4.2
26 25 163 3.9
27 26 164 4.2
28 27 165 4.5
25 21 158 3.6
26 22 159 3.8
27 23 157 4
Yêu cầu: Tính các giá trị thống kê mô tả cho nhân tố Dài bông sau đó phân tích kết quả thu được.
- Bố trí dữ liệu: Dữ liệu của 1 nhân tố chỉ bố trí trên 1 cột hoặc 1 dòng, không bố trí trên miền gồm nhiều cột và nhiề
- Vào thẻ DATA --> Data Analysis --> Chọn Descriptive Statistics --> OK.
Dài bông

Mean 26.4 Giá trị trung bình


Standard Error 0.2544836 Sai số chuẩn
Median 26 Trung vị
Mode 26 Trị số ứng với phân bố tập trung nhất (giá trị xuất hiện nhiều lần nhất)
Standard Deviation 0.98561076 Độ lệch chuẩn
Sample Variance 0.97142857 Phương sai mẫu
Kurtosis -0.81048709 Độ nhọn
Skewness 0.06197779 Độ lệch (độ bất đối xứng)
Range 3 Khoảng biến thiên
Minimum 25 Giá trị nhỏ nhất
Maximum 28 Giá trị lớn nhất
Sum 396 Tổng
Count 15 Số quan sát (Dung lượng mẫu)
Largest(1) 28 Số lớn thứ k (k=1)
Smallest(1) 25 Số nhỏ thứ k (k=1)
Confidence Level(95.0%) 0.54581305 Nửa khoảng tin cậy cho giá trị trung bình
* Phân tích kết quả:
1. Vì Mean = 26.4 xấp xỉ Median = 26 nên số liệu Dài bông là cân đối.
2. Vì hệ số biến động CV = 0.03733374 <0.3
nên số liệu Dài bông là tập trung.
3. Vì Kurtosis = - 0.81 thuộc đoạn [-2,2] nên độ nhọn xấp xỉ chuẩn.
Vì Kurtosis < 0 nên đường mật độ phân phối của số liệu Dài bông tù hơn so với đường mật độ phân phối chuẩn.
Vì Skewness = 0.062 thuộc đoạn [-2,2] nên độ lệch xấp xỉ chuẩn.
Vì Skewness > 0 nên đường mật độ phân phối của số liệu Dài bông lệch phải so với đường mật độ phân phối chuẩn.
4. Khoảng tin cậy cho giá trị trung bình: (25.85,26.95).
Cận dưới: 25.854187
Cận trên: 26.945813
công cụ Solver, ở bước cuối chọn Analysis ToolPak thay vì Solver Add-in.

n gồm nhiều cột và nhiều dòng.


Thiết lập các tham số trong hộp thoại Descriptive Statistics như hình dưới đây:

xuất hiện nhiều lần nhất)

Nguyên tắc nhận xét:


1. Số liệu có cân đối hay không?
Khi Mean và Median xấp xỉ nhau --> số liệu cân đối, ngược lại --> số liệu không cân đối.
2. Tính hệ số biến động CV = Standard Deviation/Mean
Nếu CV <=0.3 --> số liệu là tập trung, ngược lại --> số liệu là phân tán.
ộ phân phối chuẩn. 3. Kiểm tra tính chuẩn:
- Nếu Kurtosis thuộc đoạn [-2,2] (hay |Kurtosis|<=2 ) --> độ nhọn xấp xỉ chuẩn, ngược lại -->
mật độ phân phối chuẩn. xấp xỉ chuẩn. Nếu Kurtosis > 0 --> đường mật độ phân phối của số liệu nhọn hơn so với đường
phối chuẩn, ngược lại --> đường mật độ phân phối của số liệu tù hơn so với đường mật độ phân
- Nếu Skewness thuộc đoạn [-2,2] (hay |Skewness|<=2) --> độ lệch xấp xỉ chuẩn, ngược lại -->
xấp xỉ chuẩn. Nếu Skewness > 0 --> đường mật độ phân phối của số liệu lệch phải so với đường
phân phối chuẩn, ngược lại --> đường mật độ phân phối của số liệu lệch trái so với đường mật
chuẩn.
4. Khoảng tin cậy cho giá trị trung bình Mean: (Cận dưới, Cận trên)
Cận dưới: =Mean-Confidence Level
Cận trên: =Mean+Confidence Level
hình dưới đây:

-> số liệu không cân đối.


ọn xấp xỉ chuẩn, ngược lại --> độ nhọn không
số liệu nhọn hơn so với đường mật độ phân
hơn so với đường mật độ phân phối chuẩn.
ệch xấp xỉ chuẩn, ngược lại --> độ lệch không
a số liệu lệch phải so với đường mật độ
iệu lệch trái so với đường mật độ phân phối
3.2. Tổ chức đồ:
Cho bảng số liệu khảo sát thu nhập của người lao động dưới đây:
14 21 27
25 27 34
17 16 37
20 11 35
35 19 40
38 22 26
40 49 26
25 30 34
32 24 19
31 29 20
Yêu cầu: Xây dựng tổ chức đồ cho số liệu trên.
- Bố trí dữ liệu: Dữ liệu của 1 nhân tố có thể bố trí trên 1 miền gồm nhiều cột và nhiều dòng.
- Tạo miền phân tổ Bin:
Max (giá trị lớn nhất): 49
Min (giá trị nhỏ nhất): 11
R (khoảng biến thiên): 38
k (số tổ): 7
h (khoảng cách tổ): 5
Bin
11
16
21
26
31
36
41
46
- Vào thẻ DATA --> Data Analysis --> Histogram --> OK.
Bin Frequency
11 1 Histogram
16 2
6
21 6
Frequency

26 6 4
Frequency
31 5 2
36 5
0
41 4 11 16 21 26 31 36 41 46 More
46 0 Bin
More 1
* Phân tích kết quả:
1. Tần số xuất hiện (cột Frequency) của số liệu thu nhập của người lao động được đặt ngang hàng với cận trên của kh
Ví dụ, tần số xuất hiện của số liệu thu nhập của người lao động trong khoảng (31,36] là 5.
2. Số liệu thu nhập của người lao động tập trung nhiều nhất trong các khoảng (16,21] và (21,26] với tần số xuất hiện l
3. Dựa vào tổ chức đồ, ta thấy số liệu thu nhập của người lao động trên là tuân theo phân phối chuẩn (do đồ thị có dạn
Thiết lập các tham số trong hộp thoại Histogram như hình dưới

Frequency

1 46 More

gang hàng với cận trên của khoảng (trong miền Bin).
à (21,26] với tần số xuất hiện là 6.
ân phối chuẩn (do đồ thị có dạng hình chuông).

Nguyên tắc nhận xét:


- Ý 1, 2: Cách nhận xét giống như trong ví dụ
- Ở ý 3: Số liệu là tuân theo phân phối chuẩn (xấp xỉ chuẩn) nế
qua các đỉnh của đồ thị) có dạng hình chuông úp xuống.
togram như hình dưới đây:
huẩn (xấp xỉ chuẩn) nếu đồ thị (đường đi
ông úp xuống.
3.3. Hồi quy tuyến tính:
Cho bảng dữ liệu nghiên cứu về lúa:
Dài bông P1000 Số bông Năng suất
25 24 184 4
26 25 186 4.5
27 26 188 5
27 26 166 3.8
26 25 165 4
25 27 164 4.3
26 22 164 3.7
27 23 165 4
28 24 166 4.2
26 25 163 3.9
27 26 164 4.2
28 27 165 4.5
25 21 158 3.6
26 22 159 3.8
27 23 157 4
Yêu cầu: Hãy tìm đường hồi quy tuyến tính của Năng suất phụ thuộc vào các nhân tố còn lại.
- Bố trí dữ liệu: Dữ liệu của các nhân tố chỉ được phép bố trí theo cột (mỗi nhân tố là một cột), không được bố trí th
- Vào thẻ DATA --> Data Analysis --> Regression --> OK.
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.8589009196
R Square 0.7377107897
Adjusted R Square 0.6661773687
Standard Error 0.2105961087
Observations 15

ANOVA
df SS MS F
Regression 3 1.3721420688 0.4573806896 10.31281293967
Residual 11 0.4878579312 0.044350721018
Total 14 1.86

Coefficients Standard Error t Stat P-value


Intercept -4.063643362 1.844184813825 -2.20349030703 0.049781665842
Dài bông 0.1116078037 0.060811856562 1.835296766712 0.093620816337
P1000 0.0756835086 0.03378769901 2.239972263109 0.046703533418
Số bông 0.0201104996 0.006123394723 3.284207618317 0.007279191466
* Phân tích kết quả:
1. Hệ số tương quan bội Multiple R = 0.86 > 0.7 nên mô hình hồi quy tuyến tính được coi là thích hợp.
2. Vì hệ số tương quan bội bình phương R Square = 0.7377 nên 73.77% sự biến động của Năng suất là do các yếu tố
3. Vì Significance F = 0.00158 < mức ý nghĩa 0.05 nên phương trình hồi quy tuyến tính được chấp nhận.
4. Phương trình hồi quy tuyến tính:
Năng suất = 0.02 Số bông + 0.076 P1000 + 0.112 Dài bông - 4.064.
Vì P-value = 0.09 > mức ý nghĩa alpha = 0.05 nên hệ số của nhân tố Dài bông trong phương trình trên là không đáng
và tìm lại phương trình hồi quy.

Nếu đề bài có yêu cầu dự báo giá trị của Năng suất khi giá trị (Dài bông, P1000, Số bông) là (30,20,200) --> thay
Năng suất = 4.8184
tố là một cột), không được bố trí theo dòng.

Thiết lập các tham số trong h

Significance F
0.001582207343

Lower 95% Upper 95% Lower 95.0% Upper 95.0%


-8.12266676933 -0.004619953941 -8.12266676933 -0.004619953941
-0.022238190125 0.245453797576 -0.022238190125 0.245453797576
0.001317284502 0.150049732732 0.001317284502 0.150049732732
0.006632998685 0.033588000516 0.006632998685 0.033588000516

ược coi là thích hợp. Nguyên tắc nhận xét:


ng của Năng suất là do các yếu tố Dài bông, P1000, Số bông gây ra. 1. Nếu hệ số tương quan bội M
n tính được chấp nhận. 2. Quy đổi R Square quy đổi s
3. Nếu Significance F <= mứ
4. Viết phương trình dựa vào
g phương trình trên là không đáng tin cậy, nên lược bỏ nhân tố Dài bông Nếu tồn tại giá trị P-value > m
tự do) và tìm lại phương trình

Số bông) là (30,20,200) --> thay giá trị vào phương trình ta được:
Thiết lập các tham số trong hộp thoại Regression như hình dưới đây:

Nguyên tắc nhận xét:


1. Nếu hệ số tương quan bội Multiple R >= 0.7 --> mô hình hồi quy tuyến tính là thích hợp, ngược lại --> mô hình hồi quy tuyế
2. Quy đổi R Square quy đổi sang tỉ lệ % --> phản ánh % sự biến động của biến phụ thuộc là do các biến độc lập gây ra.
3. Nếu Significance F <= mức ý nghĩa alpha (= 1-mức độ tin cậy) --> Phương trình HQTT được chấp nhận, ngược lại là không
4. Viết phương trình dựa vào các hệ số trong cột Coefficients.
Nếu tồn tại giá trị P-value > mức ý nghĩa alpha --> hệ số tương ứng trong phương trình không đáng tin cậy --> nên lược bỏ biế
tự do) và tìm lại phương trình hồi quy, ngược lại thì kết luận: tất cả các hệ số trong phương trình đã viết đều đáng tin cậy.
> mô hình hồi quy tuyến tính là không thích hợp.
độc lập gây ra.
ận, ngược lại là không được chấp nhận.

ậy --> nên lược bỏ biến độc lập tương ứng (cũng có thể là lược bỏ hệ số
đều đáng tin cậy.

You might also like