R

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 33

I.

Giải thích ý nghĩa

- Count: Số lượng thuộc tính hoặc số lượng dòng dữ liệu


- Min: Giá trị nhỏ nhất
- Max: Giá trị lớn nhất
- Mean: Giá trị trung bình
- Median: là số trung vị chỉ số nằm giữa trong một tập dữ liệu có các số
được sắp xếp
- Mode: Giá trị xuất hiện nhiều nhất
- Quantile: là giá trị bằng số phân chia một nhóm các kết quả quan sát bằng
số thành bốn phần.
- Range: khoảng giá trị của cột
- Variance: phương sai là phép đo mức chênh lệch giữa các số liệu
trong một tập dữ liệu trong thống kê.
- Standard Deviation: Độ lệch chuẩn là một phép đo lường trong thống kê
và trong tài chính được áp dụng cho tỉ lệ hoàn vốn hàng năm của một khoản
đầu tư, để làm sáng tỏ những sự biến động trong lịch sử khoản đầu tư đó. 
- Coefficient of variation: Hệ số biến thiên là một thước đo thống kê độ
phân tán của các dữ liệu trong một chuỗi dữ liệu so với giá trị trung bình.
- Skewness: Độ lệch được coi là một đại diện cho mức độ khác biệt của một
phân phối nhất định so với phân phối chuẩn.
- Kurtosis: Giống như độ lệch, độ nhọn là một biện pháp thống kê được sử
dụng để mô tả các phân phối. Trong khi độ lệch phân biệt các giá trị cực trị
ở một đuôi so với đuôi kia, thì độ nhọn đo lường các giá trị cực trị ở một
trong hai đuôi. 
II. Ngôn ngữ R
1. GDP
-Đọc file

- Length

- Min và Max

- Mean
- Median

- Mode

- Range

- Variance

- Standard Deviation

- Coefficient of variation

- Skewness

- Kurtosis
- Quantile

- Box Plot
- Histogram

2. Purchase Orders
-Đọc file
- Length(po) và Length(Cost.per.order): Số lượng cột dữ liệu và số lượng
dòng dữ liệu theo thuộc tính Cost.per.order

- Min và Max

- Mean

- Median

- Mode

- Range

- Variance

- Standard Deviation

- Coefficient of variation

- Skewness

- Kurtosis
- Quantile

- Box Plot

- Histogram
3. Computer Repair Times
- Đọc file

- Length(rt) và Length(RT): Số lượng cột dữ liệu và số lượng dòng dữ liệu


theo thuộc tính RT

- Min và Max

- Mean

- Median
- Mode

- Range

- Variance

- Standard Deviation

- Coefficient of Deviation

- Skewness

- Kurtosis

- Quantile
- Box Plot

- Histogram
III. Ngôn ngữ Python
1. GDP:
-Đọc file

- Length: Số lượng dữ liệu theo thuộc tính GDP

- Min và Max
- Mean

- Median

- Mode

- Range
- Variance

- Standard Deviation

- Coefficient of Deviation

- Skewness

- Kurtosis
- Quantile

- Box Plot

- Histogram
2. Purchase Orders
-Đọc file

- Length: Số lượng dữ liệu theo thuộc tính Cost_per_order


- Min và Max

- Mean

- Median

- Mode

- Range
- Variance

- Standard Deviation

- Coefficient of Deviation

- Skewness

- Kurtosis
- Quantile

- Box Plot

- Histogram
3. Computer Repair Times
- Đọc file

- Length: Số lượng dòng dữ liệu theo thuộc tính RT


- Min và Max

- Mean

- Median

- Mode
- Range

- Variance

- Standard Deviation

- Coefficient of Deviation

- Skewness

- Kurtosis
- Quantile

- Box Plot
- Histogram

III. Excel
1. GDP

Các giá trị Kết quả Hàm Excel

Count 30 COUNT(B4:B253)

Min 14 MIN(B4:B253)

Max 2679 MAX(B4:B253)

Mean 989.2333333 AVERAGE(B4:B253)

Median 581 MEDIAN(B4:B253)

Mode 261 MODE(B4:B253)

First Quartile 261 QUARTILE.INC(B4:B253,1)


Second Quartile 580.5 QUARTILE.INC(B4:B253,2)

Third Quartile 1846.25 QUARTILE.INC(B4:B253,3)

Fourth Quartile 2679 QUARTILE.INC(B3:B96,4)

Range 2665 MAX(B4:B253)-MIN((B4:B253))

Mode 261 MODE.SNGL(B4:B253)

Variance 781358.8747 VAR.S(B4:B253)

Standard Deviation 883.9450632 STDEV.S(B4:B253)

Coefficient of Deviation 0.893565788 STDEV.S(B4:B253)/AVERAGE(B4:B253)

Skewness 0.662815443 SKEW((B4:B253))

Kurtosis -1.068303301 KURT(B4:B253)

- Histogram
- Box plot

2. Purchase Order
CÁC GIÁ TRỊ KẾT QUẢ HÀM EXCEL

Count 94 COUNT(B2:B95)

Min $ 68.75 MIN(B2:B95)

Max $ 127,500.00 MAX(B2:B95)

Mean $ 26,295.32 AVERAGE(B2:B95)

Median $ 15,656.25 MEDIAN(B2:B95)

Mode 23625 MODE.SNGL(B2:B95)

First Quartile 6757.8125 QUARTILE.INC(B2:B95,1)

Second Quartile 15656.25 QUARTILE.INC(B2:B95,2)

Third Quartile 27593.75 QUARTILE.INC(B2:B95,3)


Fourth quartile 127500 QUARTILE.INC(B3:B96,4)

Range 127431.25 MAX(B2:B95)-MIN(B2:B95)

Mode 23625 MODE.SNGL(B2:B95)

Variance 890594573.8 VAR.S(B2:B95)

Standard Deviation 29842.8312 STDEV.S(B2:B95)

Coefficient of Deviation 1.134910401 STDEV.S(B2:B95)/AVERAGE(B2:B95)

Skewness 1.664271519 SKEW(B2:B95)

Kurtosis 2.079637302 KURT(B2:B95)

- Histogram

- Box plot
3. Computer Repair Times:

CÁC GIÁ TRỊ KẾT QUẢ HÀM EXCEL

Count 250 COUNT(B4:B253)

Min 5 MIN(B4:B253)

Max 40 MAX(B4:B253)

Mean 14.912 AVERAGE(B4:B253)

Median 14 MEDIAN(B4:B253)

Mode 15 MODE(B4:B253)

First Quartile 11 QUARTILE.INC(B4:B253,1)

Second Quartile 14 QUARTILE.INC(B4:B253,2)


Third Quartile 17 QUARTILE.INC(B4:B253,3)

Fourth Quartile 40 QUARTILE.INC(B4:B253,4)

Range 35 MAX(B4:B253)-MIN((B4:B253))

Mode 15 MODE.SNGL(B4:B253)

Variance 35.50226506 VAR.S(B4:B253)

Standard Deviation 5.958377721 STDEV.S(B4:B253)

Coefficient Of Deviation 0.399569321 STDEV.S(B4:B253)/AVERAGE(B4:B253)

Skewness 1.695275575 SKEW((B4:B253))

Kurtosis 4.079023409 KURT(B4:B253)

- Histogram

- Box plot
IV. 1C
a) Null hypothesis và Alternative hypothesis

- Null hypothesis: Giả thuyết rỗng là giả thuyết có giá trị nhất
đối với phương pháp khoa học vì nó là giả thuyết dễ kiểm tra
nhất bằng cách sử dụng phân tích thống kê.

- Alternative hypothesis: Một giả thuyết thay thế chỉ đơn giản là
nghịch đảo, hoặc ngược lại của giả thuyết rỗng.

- Ví dụ:
+ Giả thuyết rỗng: Nếu một cây được tưới bằng nước ngọt
có ga trong một tháng và cây khác được tưới nước bình thường,
sẽ không có sự khác biệt về tốc độ phát triển giữa hai cây.

+ Giả thuyết thay thế: Nếu một cây được tưới bằng nước
ngọt có ga trong một tháng và cây khác được tưới nước thường,
cây được tưới bằng nước ngọt sẽ phát triển tốt hơn cây được
tưới nước thường.
b) Type I error và Type II error

- Type I error: Trong thống kê, lỗi loại I được định nghĩa là lỗi xảy ra
khi kết quả mẫu gây ra việc bác bỏ giả thuyết rỗng, mặc dù thực tế là
đúng. Nói một cách dễ hiểu, lỗi khi đồng ý với giả thuyết thay thế, khi
kết quả có thể được coi là may rủi.
- Type II error: Lỗi loại II là sự thất bại của nhà nghiên cứu trong việc
đồng ý với một giả thuyết thay thế, mặc dù nó đúng. Nó xác nhận một
mệnh đề; điều đó nên bị từ chối. Nhà nghiên cứu kết luận rằng hai
quan sát là giống hệt nhau trong khi thực tế không phải vậy.
- Sự khác biệt:
1. Lỗi loại I là lỗi xảy ra khi kết quả là sự bác bỏ giả thuyết vô hiệu,
trên thực tế, là đúng. Lỗi loại II xảy ra khi kết quả mẫu chấp nhận
giả thuyết rỗng, giả thuyết này thực tế là sai.
2. Về bản chất, kết quả dương tính tương đương với việc bác bỏ giả
thuyết vô hiệu. Ngược lại, lỗi Loại II còn được gọi là âm tính giả,
tức là kết quả âm tính, dẫn đến việc chấp nhận giả thuyết không.
3. Khi giả thuyết vô hiệu là đúng nhưng bị bác bỏ một cách nhầm lẫn
thì đó là lỗi loại I. Ngược lại, khi giả thuyết vô hiệu là sai nhưng
được chấp nhận một cách sai lầm, thì đó là lỗi loại II.
4. Lỗi loại I có xu hướng khẳng định điều gì đó không thực sự hiện
diện, tức là đó là một lần truy cập sai. Ngược lại, lỗi loại II không
xác định được thứ gì đó đang tồn tại, tức là lỗi bị bỏ sót.
5. Xác suất phạm lỗi loại I là mẫu là mức ý nghĩa. Ngược lại, khả
năng mắc lỗi loại II giống như khả năng của phép thử.
6. Chữ cái Hy Lạp ‘α’ chỉ ra lỗi loại I. Không giống như, lỗi loại II
được ký hiệu bằng chữ cái Hy Lạp ‘β’.

c) Giá trị: α và p-value

- α: Số α là giá trị ngưỡng mà chúng ta đo lường giá trị p . Nó


cho chúng ta biết kết quả quan sát cực đoan phải ở mức nào để
bác bỏ giả thuyết vô hiệu của kiểm định ý nghĩa.
- p-value: Số còn lại là một phần của phép thử mức độ ý nghĩa là
giá trị p. Giá trị p cũng là một xác suất, nhưng nó đến từ một
nguồn khác với alpha. Mọi thống kê thử nghiệm đều có xác suất
hoặc giá trị p tương ứng. Giá trị này là xác suất mà thống kê
được quan sát chỉ xảy ra một cách tình cờ, giả sử rằng giả
thuyết vô hiệu là đúng.
- Để xác định xem một kết quả quan sát có ý nghĩa thống kê

hay không, chúng tôi so sánh giá trị của alpha và giá trị p.

Có hai khả năng xuất hiện:

+ Giá trị p nhỏ hơn hoặc bằng alpha. Trong trường hợp này,
chúng tôi bác bỏ giả thuyết không. Khi điều này xảy ra, chúng
tôi nói rằng kết quả có ý nghĩa thống kê. Nói cách khác, chúng
tôi chắc chắn một cách hợp lý rằng có điều gì đó ngoài cơ hội
đơn thuần đã cho chúng tôi một mẫu quan sát.
+ Giá trị p lớn hơn alpha. Trong trường hợp này, chúng tôi không
thể bác bỏ giả thuyết vô hiệu . Khi điều này xảy ra, chúng tôi
nói rằng kết quả không có ý nghĩa thống kê. Nói cách khác,
chúng tôi chắc chắn một cách hợp lý rằng dữ liệu quan sát của
chúng tôi có thể được giải thích một cách tình cờ.

You might also like