Melnyk Llaba5

Міністерство освіти і науки України
Національний університет «Львівська політехніка»

Інститут комп’ютерних наук та інформаційних технологій
Кафедра інформаційних систем та мереж
Звіт
до лабораторної роботи №5
з дисципліни «Інтелектуальний аналіз даних»
Виконала :
Команда групи ФЛ-35
Микулинська Марта
Мельник Лоліта
Перевірив: ст. викл. каф. ІСМ
Андруник В.А.
Львів 2021
Тема: дисперсійний одно- та двофакторний аналіз в Rstudio.
Мета роботи: набути практичних навичок роботи з дисперсійними (ANOVA)
моделями, виконати одно- та двофакторний аналіз в середовищі Rstudio,
оцінити виконані припущення, що є основою ANOVA-моделей.
Ми ознайомились з теоретичними відомостями та лекційним матеріалом.
1. Приклад 1 в MS Excel. Однофакторний дисперсійний аналіз.
Доведення припущення про те, що фактор швидкості пред’явлення слів

впливає на показники їх відтворення.
Введені позначення:
n=6 – кількість спостережень (рядків);
k=3 – кількість факторів (стовпчиків);
n*k =6*3 = 18 – загальна кількість індивідуальних
значень; j – індекс рядків змінюється від 1 до n ( j = 1,2,
…..,n)
i – індекс стовпчиків змінюється від 1 до k ( i = 1,2,
…..,n) Математичні розрахунки у таблицях:
- Розраховано суми в комірках B13:B15 за формулами:
𝑘 𝑛
𝑄1 = ∑ ∑ 𝑥2 𝑖𝑗
𝑖=1 𝑗=1
1 𝑘
𝑄 = ∑ 𝑋2
2 𝑖
𝑛 𝑖=1
𝑘 2
1
𝑄3 = (∑ 𝑋𝑖)
𝑘𝑛 𝑖=1
А
саме:
𝑄1 = 62 + 72 + 62 + 52 + ⋯ + 52 + 52 = 432
1
𝑄2 = (342 + 292 + 232) = 421
6
1
𝑄3 = (34 + 29 + 23)2 = 410.89
3∗
6
- розраховано емпіричний критерій 𝐹емп в комірці B16 за формулою:
2 𝐴
𝐹емп 𝑠= 𝑘(𝑛−1) ,тобто 3(6−1) ≈ 6.89
= 𝑄2−𝑄3 𝐹емп = 421−410.89
𝑠02 𝑘−1 𝑄1−𝑄2 3−1 432−421
Рис.1. Таблиця з розрахунками
Висновки: відмінності в обсязі відтворення слів (фактор швидкості) є більш

вираженим, аніж випадковим. Графічне представлення (рис. 2):
Рис.2. Залежність середнього обсягу відтворених слів від швидкості пред’явлення
Розрахунки одно факторної моделі можна провести за допомогою пакета

"Аналіз даних" (розділ "Однофакторний дисперсійний аналіз").
Після введення відповідних параметрів (рис.3) можна отриматирезультати

одно факторного дисперсійного аналізу (рис.3).
Рис.3. Введення параметрів та результати одно факторного дисперсійного аналізу

2. Приклад 2 в MS Excel. Двофакторний дисперсійний аналіз.
Чотирьом групам по чотири випробовуваних у різних комбінаціях

швидкості пред’явлення і довжини слова було запропоновано завдання з
десяти слів для відтворення їх через деякий час. (рис.4)
Рис.4. Кількість відтворених слів різної довжини і швидкості їх пред’явлення
Доведено значущість припущення про те, що між факторами довжини слова

(А) і швидкістю їх представлення (В) спостерігається взаємодія: при великій
швидкості представлення краще запам’ятовуються короткі, а при низькій
швидкості – довгі слова (рис. 5)
6
5.5
5
4.5
4
Висока(В1)
Низька(В2)
3.5
3
Короткі(А1) Довгі(А2)
Рис.5. Залежність середньої кількості відтворених слів від їх довжини і швидкості

пред’явлення
Введені позначення:
n = 4 – кількість об’єктів (рядків у групі
випробувань) l = 2 – кількість факторів А
m = 2 – кількість факторів В
n*l*m = 2*2*4=16 – загальна кількість значень
k – індекс об’єктів змінюється від 1 до n (i =1,…n)
I – індекс факторів А змінюється від 1 до l (j = 1,…l)
j – індекс факторів В змінюється від 1 до m (k = 1,..m)

Розрахунки критеріїв F наведені в таблиці MS Excel (рис. 6)
Рис.6. Результати двофакторного дисперсійного аналізу
Розраховано середні значення:
У комірках В11:В12 для кожної вибірки

𝑛
1 1
𝑥̅𝑖𝑗 = ∑ 𝑥𝑖𝑗𝑘 (наприклад, 𝑥11 = (7 + 5 + 4 + 7) = 5.75 )
𝑘=1 𝑛 4
У комірках D3:E10 повторено значення для кожної
вибірки У комірках В13:С13 по фактору А (по стовпчику)

𝑙
1 1
𝑥̅∗𝑗 = ∑ 𝑥𝑖𝑗 (наприклад, 𝑥̅∗1 = (5.75 + 3.50) = 4.63 )
𝑙
𝑗=1 2
У комірках D11:E12 по фактору В (по рядках)
𝑚
1 1
𝑥𝑗̅ ∗ = ∑ 𝑥𝑖𝑗 (наприклад, 𝑥̅1∗ = (5.75 + 4.00) = 4.88 )
𝑖=1 𝑚 2
У комірках D13:E13 для всіх вибірок

𝑙 𝑚
1 1
𝑥̅∗𝑗 = ∑ ∑ 𝑥𝑖𝑗𝑘 (𝑥̅ = (5.75 + 4.00 + 3.50 + 5.50) ≈ 4.69 )
𝑖=1 𝑗=1𝑙 ∗𝑚 2∗2
Розраховано суми квадратів різниць у комірках B18:B22 за допомогою
формул і відповідних виразів:
𝑄 = ∑𝑛 (𝑥𝑖𝑗𝑘 − 𝑥̅)2 = ДИСП(В3:С10)*(В17-1);
∑𝑙 0 𝑚 ∑
𝑖=1 𝑗 𝑘=1
=1
𝑄1 = 𝑙 ∗ 𝑛 ∑𝑙 (𝑥̅∗𝑖 − 𝑥̅)2 = В14*В15*СУММКВРАЗН(D11:D12;D13:E13);

𝑖=1
𝑄 =𝑚∗𝑛
∑𝑚
2
B14*B16*CУММКВРАЗН(В13:С13;D13:E13);
2 𝑗 =1(𝑥𝑗̅ ∗ − 𝑥̅ ) =
𝑄 = ∑𝑛 (𝑥𝑖𝑗𝑘 − 𝑥𝑖̅ 𝑗)2 = СУММКВРАЗН(В13:С10;D3:E10);
∑𝑙 4 𝑚
∑
𝑖=1 𝑗 𝑘=1
=1
𝑄3 = 𝑄0 − 𝑄1 − 𝑄2 − 𝑄4 = B18-B19-B20-B22.
Розраховано середні квадрати у комірках В23:В26 за допомогою формул і

відповідних виразів:
𝑄1 𝑄2 𝑄3 𝑄3
𝑠2 = ; 𝑠2 = ; 𝑠 =
2
; 𝑠 =
2
1
(𝑙 − 1) 2
(𝑚 − 1) 3
(𝑙 − 1)(𝑚 − 1) 4
𝑙 ∗ 𝑚 ∗ (𝑛 − 1)
Розраховано емпіричні критерії у комірках В23:В25:

0.5 0.0 14.0
𝐹𝐴 2 𝑠 6 ≈ 0.46; 2 𝑠 6 ≈ 0.05; 2 𝑠 6 ≈ 11.44
=1 = =2 = =3 =
𝐹 𝐹
2 𝑠4 1.2 𝐵 2 𝑠4 1.2 𝐴𝐵 2 𝑠4 1.23
3 3
Рис.7. Результати двофакторного дисперсійного аналізу
Висновки: відмінності в обсязі відтворення слів, що обумовлені окремо

факторами А і В, не є більш вираженими, ніж випадкові. Проте вплив фактора
А на обсяг відтворення слів є різним при різних градаціях фактора В і навпаки.
Висновки прийнято на рівні значущості 0,05. Фактори довжини слів і
швидкості
їх пред’явлення окремо не впливають значуще на обсяг відтворення слів.
Значущою являється взаємодія факторів: короткі слова краще
запам’ятовуються при великій швидкості пред’явлення, а довгі – при повільній
швидкості пред’явлення.
Приклад 3. Для реалізації однофакторного дисперсійного аналізу, на

прикладі даних про вагу томатів, спершу було встановлено датасет tomato.
Рис.8. Виведення набору даних tomato
Томати вирощені в різних умовах (trt, від treatment) – на воді (water), в

середовищі з додаванням добрива (nutrient), а також в середовищі з додаванням
добрива та гербіциду 2,4-D (nutrient + 24D).
Рис.9. Створення data.frame
Щоб краще зрозуміти властивості даних, потрібно їх візуалізувати за

допомогою одновимірної діаграми розсіювання (функція stripchart).
Рис.10. Демонстрація результатів виконання функції stripchart()
З отриманих результатів слід відмітити, що виміряні значення ваги рослин

досить близькі для всіх трьох експериментальних умов, проте є деяка тенденція
до зниження ваги в групі "Nutrient + 24D". Це візуальне враження
підтверджується також відповідними груповими середніми:
Рис.11. Демонстрація результатів виконання функції tapply()
Можна зауважити, що рядок trt відповідає джерелам дисперсії в даних,

пов'язаних з дією досліджуваного експериментального фактору (умови
вирощування рослин). Рядок Residuals характеризує внутрішньогрупову
дисперсію (вона не може бути пояснена впливом експериментального фактора).
Рис.12. Результати однофакторного дисперсійного аналізу з даними tomato
Приклад 4. Реалізація однофакторного коваріаційного аналізу на прикладі

набору даних litters з пакету multcomp.
Для виконання цього прикладу було встановлено пакет multcomp. Також
було завантажено набір даних litters.
Рис.13. Виведення набору даних litters
За допомогою функції table () можна дізнатись, що миші з різних груп

отримували різні дози препарату: 20 тварин не отримували ліків, 19 – 5
одиниць препарату, 18 – 50, а 17 мишей отримали 500 одиниць препарату.
Рис.14. Демонстрація результатів виконання функції table ()
На підставі середніх значень по групах можна сказати, що для тих мишей,

які не отримували ліки, в цілому є характерна найбільша вага потомства (32.3).
Рис.15. Демонстрація результатів виконання функції aggregate ()
Результати F-тесту показують, що термін вагітності пов'язаний з вагою

мишенят при народженні, а також те, як кількість ліків впливає на вагу
мишенят при постійних значеннях терміну вагітності. Середня вага мишенят з
різних експериментальних груп є неоднаковою при постійних значеннях
терміну вагітності.
Рис.16. Демонстрація результатів виконання функції summary ()
Для обчислення скоригованих середніх значень використаємо функцію effect

()
з пакету effects:
Рис.17. Демонстрація результатів виконання функції effect ()
Визначимо контраст, що означає порівняння першої групи з усередненими

по трьох інших групах значеннями:
contrast<-rbind("no drug vs. drug"=c(3,-1,-1,-
1)) summary(glht(fit,
linfc=mcp(dose=contrast)))
Рис.18. Демонстрація результатів виконання функції contrast() та summary ()
На основі отриманих результатів, можемо зробити висновок, що група, яка

не отримувала ліків, характеризується більшою вагою новонароджених
мишенят, ніж всі інші експериментальні групи.
Візуалізуємо результати за допомогою функції ancova () з пакету HH, що
дозволяє графічно відобразити залежність між залежною змінною, коваріатою і
фактором (незалежною змінною):
library(HH)
ancova(weight~gesttime+dose,
data=litter)
ancova(weight ~ gesttime*dose, data=litter)
Рис.19. Візуалізація результатів
З отриманих результатів бачимо, що зі збільшенням тривалості вагітності

зростає вага мишенят. Крім того, можна бачити, що в групі, де препарат не
застосовувався, вільний член максимальний, а в групі з найбільшою дозою
препарату вільний член мінімальний.
Приклад 5. Реалізовано двофакторний дисперсійний аналіз на прикладі

даних пакету HSAUR2 про приріс ваги у мишей у відповідності до вмісту
білка у їх кормі.
Рис.20. Структура даних для графічного аналізу
Встановлено програмний пакет для вишуканої візуалізації (ggplot2) і

проведено графічний аналіз та розглянуто дані на графіку:
Рис.21. Проведено графічний аналіз та розглянуто дані на графіку
Також познайомились з описовою статистикою на основі пакету doBy.

Рис.22. Описова статистика на основі пакету doBy
На основі отриманих даних ми побачили, що приріст ваги мишей, яких

годували кормом з низьким вмістом білку значно нижчий, ніж в групі "High -
Beef".
Щоб краще зрозуміти аналізовані нами ефекти, було побудувано «графік

дизайну експерименту». На такому графіку відображаються середні значення
змінної-відгуку відповідно до кожного рівня досліджуваних факторів.
Використано фунцію plot.design(weightgain)
Рис.23. Отриманий графік
З отриманого графіка видно, що найбільша різниця в середніх приростах

ваги мишей пов'язана з рівнем вмісту білка в кормі, тоді як ефект джерела
походження білка виражений в меншій мірі.
Також побудували "Графік взаємодій" (interaction plot), який в R реалізується

за допомогою базової функції interaction.plot ().
Рис.24. Графік взаємодій
Реалізувано розкладання загальної дисперсії в даних на окремі складові,

реалізований функцією aov ():
Рис.25. Розкладання загальної дисперсії
Можемо зробити висновок про відсутність статистично значущого зв'язку

між приростом ваги мишей і джерелом білка в кормі (P = 0.3269), тоді як вплив
рівня вмісту білка виявився значущим (Р = 0.0211). Взаємодія між джерелом
походження білка і рівнем його вмісту незначима (P = 0.0545).
Застосовано також функцію lm () щодо даних про приріст ваги:
Рис.26. Демонстрація результатів виконання функції lm ()
Представлено також результати дисперсійного аналізу у вигляді класичної

ANOVA-таблиці. Для цього відповідну модель необхідно застосувати функцію
anova ().
Рис.27. Демонстрація результатів виконання функції anova ()
Змінено порядок , у якому вказували фактори.
Рис.28. Зміна порядку з вказаними факторами
Спостерігаємо, що результати ідентичні до тих, що були отримані для моделі M2.

Різниця полягає лише в тому, що рядки "type" і "source" помінялися місцями.
Спробуємо також змінити вихідні дані шляхом видалення,
наприклад,перших 6 спостережень і останніх 7 спостережень.
Рис.29. Отримані результати для моделі М4
Рис.30. Отримані результати для моделі М5
Продемонстровано результати у вигляді таблиці з оцінками параметрів

такої моделі, а також за допомогою графіку.
Рис.31. Результати для моделі М4
Рис.32. Результати для моделі М5

Рис.33. Фінальний результат роботи двофакторного дисперсійного аналізу
Висновок: В ході виконання лабораторної роботи №5 ми набули практичних

навичок роботи з дисперсійними (ANOVA) моделями, виконали
однофакторний дисперсійний аналіз на прикладі набору даних tomato та
двофакторний дисперсійний аналіз на прикладі даних пакету HSAUR2 Також
виконали однофакторний коваріаційний аналіз на прикладі набору даних litter
з пакету multcomp. Попрацювали в середовищах Rstudio та Excel з різними
прикладами, оцінили виконані припущення, що є основою ANOVA-моделей.

Melnyk Llaba5

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Melnyk Llaba5

Uploaded by

Copyright:

Available Formats

Міністерство освіти і науки України

Національний університет «Львівська політехніка»

Ми ознайомились з теоретичними відомостями та лекційним матеріалом.

1. Приклад 1 в MS Excel. Однофакторний дисперсійний аналіз.

Доведення припущення про те, що фактор швидкості пред’явлення слів

Рис.1. Таблиця з розрахунками

Висновки: відмінності в обсязі відтворення слів (фактор швидкості) є більш

Рис.2. Залежність середнього обсягу відтворених слів від швидкості пред’явлення

Розрахунки одно факторної моделі можна провести за допомогою пакета

Після введення відповідних параметрів (рис.3) можна отриматирезультати

Рис.3. Введення параметрів та результати одно факторного дисперсійного аналізу

Чотирьом групам по чотири випробовуваних у різних комбінаціях

Рис.4. Кількість відтворених слів різної довжини і швидкості їх пред’явлення

Доведено значущість припущення про те, що між факторами довжини слова

Рис.5. Залежність середньої кількості відтворених слів від їх довжини і швидкості

n = 4 – кількість об’єктів (рядків у групі

випробувань) l = 2 – кількість факторів А

n*l*m = 2*2*4=16 – загальна кількість значень

k – індекс об’єктів змінюється від 1 до n (i =1,…n)

I – індекс факторів А змінюється від 1 до l (j = 1,…l)

j – індекс факторів В змінюється від 1 до m (k = 1,..m)

Рис.6. Результати двофакторного дисперсійного аналізу

Розраховано середні значення:

У комірках В11:В12 для кожної вибірки

вибірки У комірках В13:С13 по фактору А (по стовпчику)

У комірках D13:E13 для всіх вибірок

𝑄1 = 𝑙 ∗ 𝑛 ∑𝑙 (𝑥̅∗𝑖 − 𝑥̅)2 = В14*В15*СУММКВРАЗН(D11:D12;D13:E13);

Розраховано середні квадрати у комірках В23:В26 за допомогою формул і

Розраховано емпіричні критерії у комірках В23:В25:

Висновки: відмінності в обсязі відтворення слів, що обумовлені окремо

Приклад 3. Для реалізації однофакторного дисперсійного аналізу, на

Рис.8. Виведення набору даних tomato

Томати вирощені в різних умовах (trt, від treatment) – на воді (water), в

Щоб краще зрозуміти властивості даних, потрібно їх візуалізувати за

Рис.10. Демонстрація результатів виконання функції stripchart()

З отриманих результатів слід відмітити, що виміряні значення ваги рослин

Рис.11. Демонстрація результатів виконання функції tapply()

Можна зауважити, що рядок trt відповідає джерелам дисперсії в даних,

Рис.12. Результати однофакторного дисперсійного аналізу з даними tomato

Приклад 4. Реалізація однофакторного коваріаційного аналізу на прикладі

Рис.13. Виведення набору даних litters

За допомогою функції table () можна дізнатись, що миші з різних груп

Рис.14. Демонстрація результатів виконання функції table ()

На підставі середніх значень по групах можна сказати, що для тих мишей,

Рис.15. Демонстрація результатів виконання функції aggregate ()

Результати F-тесту показують, що термін вагітності пов'язаний з вагою

Для обчислення скоригованих середніх значень використаємо функцію effect

Рис.17. Демонстрація результатів виконання функції effect ()

Визначимо контраст, що означає порівняння першої групи з усередненими

Рис.18. Демонстрація результатів виконання функції contrast() та summary ()

На основі отриманих результатів, можемо зробити висновок, що група, яка

Рис.19. Візуалізація результатів

З отриманих результатів бачимо, що зі збільшенням тривалості вагітності

Приклад 5. Реалізовано двофакторний дисперсійний аналіз на прикладі

Рис.20. Структура даних для графічного аналізу

Встановлено програмний пакет для вишуканої візуалізації (ggplot2) і

Рис.21. Проведено графічний аналіз та розглянуто дані на графіку

Також познайомились з описовою статистикою на основі пакету doBy.

На основі отриманих даних ми побачили, що приріст ваги мишей, яких

Щоб краще зрозуміти аналізовані нами ефекти, було побудувано «графік

Рис.23. Отриманий графік

З отриманого графіка видно, що найбільша різниця в середніх приростах

Також побудували "Графік взаємодій" (interaction plot), який в R реалізується

nlm = 224=16 – загальна кількість значень

𝑄1 = 𝑙 ∗ 𝑛 ∑𝑙 (𝑥̅∗𝑖 − 𝑥̅)2 = В14В15СУММКВРАЗН(D11:D12;D13:E13);