Download as pdf or txt
Download as pdf or txt
You are on page 1of 48

Research Methods in Health

Эрүүл мэндийн судалгааны арга зүй

Chapter 5. Measurement and Validity

Бүлэг 5. Хэмжилт ба Баталгаат байдал

Young Moon Chae, Ph.D.


Honorary Professor, MNUMS
Professor Emeritus, Yonsei University

1
Table of Contents Агуулга

I Measurement Хэмжилт

1. Scales Хэмжээс
2. Measurement and statistics Хэмжилт ба
статистик

II Validity and Reliability


Баталгаат ба Найдварт байдал
1. Validity Баталгаат байдал
2. Threats to validity Баталгаат байдалд саад
болох зйүлс
3. Reliability Найдварт баыдал
Measurement in Research Судалгааны хэмжилт
•Measurement Хэмжилт

- The process observing and recording the observations that are collected as
part of a research effort.
Хэмжилт гэдэг нь судалгааны явцын салшгүй нэгэн хэсэг бөгөөд судалгаанд
ажиглагдаж буй үзэгдэлд ажиглалт хийн, бичиж тэмдэглэх цуглуулах үйл явц
юм.

- Rules for assigning numbers/symbols to objects in such a way as to represent


quantities or properties of attributes

•Two major issues in measurement Хэмжилтийн хоѐр гол зүйл

- Levels of measurement: nominal, ordinal, interval and ratio.


Хэмжилтийн түвшин: нэрлэсэн, дараалсан, интервал, харьцаат
-Validity and Reliability of measurement
Хэмжилтийн найдварт байдал

3
Rules of Measurement
• Guidelines established by the researcher for assigning numbers or
scores to different levels of the concept (or attribute) that different
individuals (or objects) possess
• The process is facilitated by the operational definition.
 For example, if you operationalized brand loyalty as ―purchase

sequences‖ (conceptual definition # 1), then you may establish the


following rules for assigning scores:
 If consumer purchased brand A:

- 90% or more –> loyalty for brand A = 1 (Extremely loyal)


- 80 - 89% –> loyalty for brand A = 2 (Very loyal)
- 70 - 79% –> loyalty for brand A = 3 (Loyal)
In this case, we have assigned the numbers 1, 2, 3 to
different levels of loyalty toward brand A. We have
measured loyalty for brand A.
4
Measurement Scales

• To effectively carry out any measurement (whether in the


physical or social sciences) we need to use some form of a scale.
• A scale is any series of items (numbers) arranged along a
continuous spectrum of values for the purpose of quantification
(i.e. for the purpose of placing objects based on how much of an
attribute they possess)
• e.g. the thermometer consists of numbers arranged in a
continuous spectrum to indicate the magnitude of ―heat‖
possessed by an object.

5
Three Meanings of “Scale”
There are three ways in which the word ―scale‖ is used in research
• The level at which a variable is measured (level of scale
measurement)
- the arithmetical properties implied by the numbers
assigned to levels of an attribute possessed by an object
(i.e. the unit of analysis)
• An index, indicator, or composite measure of a construct
- Multiple statements used to measure a construct (also
called a multi-item measure of the construct)
• The response categories provided for a close-ended
question in a questionnaire,
- e.g. Subjects expressed their agreement /
disagreement on a 5-point category scale
such as 5-point Likert scale.

6
Scale Types Хэмжээсийн төрөл
Nominal scale Нэрлэсэн хэмжээс
• Identify, Determination of equality
Ижилсүүлсэн, Тэнцүү байдлыг илэрхийлсэн
• Mutually exclusive
Харилцан үгүйсгэсэн
• Male-Female, User-Nonuser, Industry type
Эрэгтэй-Эмэгтэй, Хэрэглэгч-Хэрэглэгч бус, Үйлдвэрлэлийн төрөл
• No statistical power, still useful for exploratory purpose
Статистикийн хүчгүй, нээлтийн зорилгод ашигтай
• Nominal categories are not hierarchical, one
category is not ―better‖ or ―higher‖ than another

7
Scale Types Хэмжээсийн төрөл
Ordinal scale Дэс дарааллын хэмжээс
• Nominal scale + order Нэрлэсэн хэмжээс+ Дэс дараалал
• Exists in a rank order, hierarchy, or sequence
• Greater than, superior to, happier than
Нэг нь нөгөөсөө давамгай, Нэг нь нөгөөсөө илүү, Нэг нь нөгөөсөө
илүү аз жаргалтай
• Allows for comparisons along some dimension
• Median, Used in Non-parametric statistical methods
Медиан, Параметрийн бус статистик аргууд

8
(cont.) үргэлжлэл

Interval scale Интерваль хэмжээс


• Comparison of intervals, equality of interval
Интервалийн харьцуулалт, Интервалийн тэнцүүлэлт
• Scores can be compared to one another, but in relative, rather
than absolute terms.
• e.g.: Temperature, GPA
Температур, Дүнгийн голч, Барааны төрөлд өгөх хандлага
• Mean, parametric statistical methods
•Дундаж, Параметрийн статитистик арганууд

9
(cont.) үргэлжлэл
Ratio scale Нормт хэмжээс
• The most sensitive, powerful type of data
• Allows for comparison of absolute magnitudes
Туйлын магнитудын харьцуулалт
• Absolute zero or origin, universal agreement
Туйлын тэг буюу эх үүсэл, юниверсал хүлээн зөвшөөрөлт
• Weight, height, unit sold, number of users
Биеийн жин, өндөр, барааны нэгж ширхэг, хэрэглэгчийн
тоо
• Only the proportionate transformation of the scale
Хэмжээсийн зөвхөн пропорционал хувиргалт

10
Weaknesses of rating scales
Үнэлгээт хэмжээсийн сул тал
• Error of severity: Хэт ширүүн чанга хандах алдаа
- General tendency to rate all individuals too low on all characteristics
Бүхий л зүйлсийн бүх шинж чанарыг хэт доогуур хэт үнэлэх ерөнхий
хандлага
- Example: Nobody gets an A in my class Жич: Манай ангид А дүн авдаг
хүүхэд нэг ч байхгүй
• Error of leniency: Хэт зөөлөн хандах алдаа
- Opposite general tendency to rate too high.
Хэт өндөр үнэлэх ерөнхий хандлага
- Example: Everybody gets an A in my class Жич: Манай
ангийн бүх хүүхэд А авдаг.
• Central tendency: Дунджыг барих хандлага
- People tends to rate middle category in the Likert scale
Likert хэмжээсийн дандаа дунд хэсгийн ангиллаар
үнэлгээ өгөх
11
Summary of Different Levels of Scale Measurement

Type of Data Numerical Descriptive


Examples
Scale Characteristics Operation Statistics
Nominal Classification but Counting Frequency in Gender (1=Male, Note:
no order, each category 2=Female)
distance, or origin Percent in each All statistics appropriate
category for lower-order scales
Mode (nominal being lowest)
are appropriate for
Ordinal Classification and Rank Median Academic status higher-order scales
order but no ordering Range (1=Freshman, (ratio being the highest)
distance or Percentile 2=Sophomore,
unique origin ranking 3=Junior,
4=Senior)
Interval Classification, Arithmetic Mean Temperature in
order, and operations Standard degrees
distance but no that preserve deviation Satisfaction on
unique origin order and Variance semantic
magnitude differential scale
Ratio Classification, Arithmetic Geometric mean Age in years
order, distance operations Coefficient of Income in Saudi
and unique origin on actual variation riyals
quantities
12
Measures in Epidemiology
EPIDEMIOLOGY
Scientific basis of public health

Measure of mortality and morbidity

Risk (Cumulative incidence) / Prevalence / Incidence

Rates Ratio Proportion

13
Ratio, Proportion, and Rate
• Ratio is one number divided by another number (numerator doesn’t have to
be included in denominator—and vice versa)
• Proportion is a ratio in which the numerator is included in the denominator
-It has no dimension because the unit of the numerator cancels out the unit of
the denominator
• Rate is a ratio
-The numerator is the number of events
The unit is event (i.e., number of cases)
-The denominator is the sum of follow-up time contributed by the people at
risk of the event
The unit is time or, more accurately, person-time to
account for duration of time of follow-up

14
Risk/Cumulative Incidence

No. of new cases


Risk = Proportion
No. of people at risk

Relative risk or risk ratio (RR):


the ratio of the probability of an event occurring (for
example, developing a disease, being injured) in an
exposed group to the probability of the event
occurring in a comparison, non-exposed group

RR = P (events when exposed) /


P (events when non-exposed)

15
Prevalence Rate

• The number of affected persons present in the population divided


by the number of people in the population

• Example: In 2010, a US state reported an estimated 253,040


residents over 20 years of age with diabetes. The US Census
Bureau estimated that the 2010 population over 20 in that state
was 5,008,863.
# of cases
Prevalence rate =
# of people in the population

= 253,040 = 0.05

5,008,863

16
Incidence Rate
• The number of new cases of a disease that occur during a specified
period of time divided by the number of persons at risk of
developing the disease during that period of time

• Example: A study is examining factors related to lung cancer


community-dwelling adults. During the study period, 77,719
adults aged 50-76 were followed, and 612 developed lung cancer.

# of new cases of disease over a specific period of time


Incidence =
# of persons at risk of disease over the specified period of time

612
= = 0.0079
77,719

17
Characteristics of Risk, Prevalence,
and Incidence Rate
Characte Risk Prevalence Incidence
ristic
What is Probability of Percentage of
Rapidity of disease
measured disease population with
occurrence
disease
Units
None None Cases/person-time

Time of
Newly
disease Existing Newly diagnosed
diagnosed
diagnosis
Cumulative
Synonyms —
incidence Incidence density

18
Rates

3 main types of rates

• Crude rate

• Specific rate

• Standardized (adjusted) rate

“Rates are central to epidemiology”

19
Cancer Mortality Rates 1960–1990

20
Age-specific mortality rates per 100000 person–
years vs. median year of death

21
Standardized Mortality Ratio (SMR)

• Estimating probability of dying if observed population is same


as expected (standard)

• Expressed as ratio of observed/expected deaths


-SMR > 100: more death than expected
-SMR < 100: less deaths than expected

22
Standardization

―A set of techniques used to remove as much as possible


the effects of differences in age or other confounding variables
when comparing two or more populations.

The most common method uses weighted averaging of


rates specific for age, sex or other variables, according to some
specific distribution of these variables.‖

Last, Dictionary of Epidemiology, 2001

23
I Measurement Хэмжилт
1. Scales Хэмжээс
2. Measurement and statistics Хэмжилт ба
статистик

Validity and Reliability


II
Баталгаат ба Найдварт байдал
1. Validity Баталгаат байдал
2. Threats to validity Баталгаат байдалд саад
болох зйүлс
3. Reliability Найдварт баыдал

24
What Makes Research Good?
Судалгааг юу сайн болгодог вэ?
• Validity Баталгаат байдал
• Reliability Найдварт байдал
• Replicability Бусад судлаач давтан хийх
боломжтой байдал
• Consistent application/analysis Тогтмол ашиглалт/ анализ
• “Trustworthiness” Итгэлтэй байдал
• Rigor Нягт нямбай байдал

25
25
Validity in Research Design
Судалгааны загварын баталгаат байдал
• Validity is concerned with the soundness , the effectiveness of the
measuring instrument. Validity would raise such questions as: “What does
the test measure, and how well does it measure?”
Баталгаат байдал гэдэг нь хэмжилтийн хэрэгслийн үр дүнтэй зөв хэмжиж
чадаж байгаа эсэх байдал юм. Баталгаат байдал нь доорх асуултыг хөнддөг:
Тус туршилт нь яг юуг хэмжиж байгаа вэ? Тэрхүү зүйлээ яаж хэмжиж
байгаа вэ?
•Validity is the attempt to determine whether a type of measurement actually
measures what it is presumed to measure.
Баталгаат байдал гэдэг нь аливаа хэмжилтийн төрөл нь хэмжихийг зорьж
буй зүйлээ яг хэмжиж байгаа эсэх байдал юм.
•Refers to whether the research actually measures what
it says it’ll measure. Validity is the strength of our
conclusions, inferences or propositions.
Баталгаат байдал гэдгийг нэг үгээр хэлбэл аливаа
судалгаа нь хэмжихийг зорьж буй зүйлээ хэмжиж
чадаж байгаа эсэх байдал юм. Баталгаат байдал нь
бидний гаргасан дүгнэлт, гаргалгаа ба тааварлалын
хүчтэй тал болж өгдөг. 26
Types of Validity Баталгаа байдлын төрөл

•Internal validity Дотоод баталгаат байдал


- Internal validity is the freedom from bias in forming conclusions in view of
the data.
Дотоод баталгаа нь датаны дүгнэлтийг хийх үед алдаа гарахаас сэргийлэх юм.
- It seeks to ascertain that the changes in the dependent variable are the result
of the influence of the independent variable rather than the manner in which
the research was designed Судалгаанд анх бичигдсэнээс илүү хамаарах
хувьсагчийн үүссэн өөрчлөлт нь үл хамаарах хувьсагчийн нөлөөлөл гэдгийг
нотлохыг зорьдог.
- Internal validity is an ability to attribute the effect that
was observed to the variable and not to other factors
Дотоод баталгаа гэдэг нь ажиглагдсан нөлөө нь
хувьсагчаас үүссэн болохоос бус өөр бусад хүчин зүйлээс
болж үүсээгүй гэх баталгаа юм.
- It is concerned with integrity of the study.
Энэ нь судалгааны нэгдмэл чанарыг илтгэдэг.

27
Threats to Internal Validity – Faulty Design
Дотоод баталгаанд үзүүлэх саад- Буруу загвар
• Measurement Хэмжилт
- Effect of the measurement procedure: Can it be that the post-X measures were
influenced not by the manipulation of X but by increased sensitization due to the
pretest?
- Хэмжилтийн процедурын нөлөө: Туршилтын дараах хэмжилтэнд үүссэн нөлөө
нь Х хувьсагчийн тохируулгаас бус харин туршилтын өмнөх хэмжилтээс болж
үүссэн нөлөө байж болох уу?
• History Түүх
- Between the tests, many things can occur other than X. The
longer the period of time, the greater the chance of
extraneous variables affecting the participants
Нэг хэмжилтээс дараагийн хэмжилт хийх хооронд Х
хувьсагчийн нөлөөнөөс гадна өөр бусад нөлөөллүүд үүсэж
болдог. Тийм ч учраас нэг хэмжилтээс нөгөө хэмжилт
хүртэлх хугацаа урт байх тусам өөр бусад гадны
хувьсагчуудын нөлөөллүүд оролцогчдол нөлөөлөх
магадлал ихсэнэ гэсэн үг юм.
28
(cont.) үргэлжлэл

• Maturation Боловсрох явц


- They reflect change or growth in the organism studied
Судлагдаж буй организмын өөрчлөлт буюу өсөлтийг тусгадаг.

• Instrumentation Хэрэгсэл

- This problem occurs when the device (or questionnaire) used to measure the
dependent variable changes over time
Энэхүү асуудал нь хараат хувьсагчийг хэмжихээр ашиглагдаж буй хэрэгсэл
(асуулт) нь цаг хугацааны эрхээр хуучрах үед үүсдэг.

29
(cont.) үргэлжлэл

• Selection Сонголт
This problem occurs when the researcher could have selected participants in
each group that are very different on some characteristic, and as such could
account for a difference in the dependent variable Энэхүү асуудал нь зарим
нэгэн шинж чанараараа бусдаасаа тун их өөр оролцогчдыг туршилт болон
хяналтын бүлэгтээ сонгосон үед үүсдэг бөгөөд үүнээс болж хараат хувьсагчид
өөр үр дүн бий болгодог.
• Attrition or experimental mortality Хасагдалт болон нас баралт
This problem deals with the drop out of participants.
Энэхүү асуудал нь оролцогчид хасагдах үед үүсдэг.

(Reference: Campbell D, Stanley J. Experimental and


quasi-experimental designs for research.
Chicago: Rand McNally. 1963 )

30
External Validity Гадаад баталгаа
• This type of validity is concerned with the representativeness and generalizability
of the conclusions reached through observation of a sample to the universe; or,
more simply stated: Can the conclusions drawn from a sample be generalized to
other cases? Энэхүү төрлийн баталгаа нь юниверсалын ажиглалтаар дамжуулан
хүрсэн дүгнэлтийн төлөөлөх чадвар юм. Илүү энгийнээр хэлвэл:Түүврээс гарч
ирсэн дүгнэлт нь бусад тохиолдлуудыг төлөөлж чадахуу?

• External validity focus on the problems of collecting data that the changes in the
criterion variable observed in the study can be expected to occur in to other
situations
Гадаад баталгаа нь судалгаанд ажиглагдсан шалгуур
хувьсагчийн өөрчлөлтийг илэрхийлэн харуулагч өгөгдлийг
цуглуулах асуудал дээр төвлөрдөг бөгөөд таамаглагч
хувьсагчийн өөрчлөлт нь бусад нөхцөл байдалд үүснэ гэж
таамаглагдаж болох байдал юм.

31
Threats to External Validity Гадаад баталгааны саад
• Reactive or interaction effects of testing
Тестийн нөлөөний хэт хариу урвал ба харилцан үйлдэл
-The reference is to the use of a pretest prior to administering treatment.
Эмчилгээг хийхийн өмнөх урьдчилсан тестийн хэрэглээ
- Retesting may decrease or increase the sensitivity of the participant to the
independent variable
Дахин тестээр үзэх нь оролцогчдын хараат бус хувьсагчид хандах мэдрэг
чанарыг бууруулах юмуу нэмэгдүүлж болзошгүй.
• Interaction effects of selection biases
Сонголтын алдааны харилцан үйлдлийн нөлөө
- Selection of the participant can very well affect
generalization of the results
Оролцогчдыг сонгох байдал нь үр дүнгийн төлөөлөх
чадварт маш ихээр нөлөөлнө.

32
(cont.) үргэлжлэл
• Reactive effects of experimental arrangements
Туршилтын арга хэмжээний хэт хариу урвалт нөлөө

-The fact that one is participating in an experimental study may alter one’s
normal behavior (Hawthorn effect)

Туршилтын судалгаанд оролцож буй нэгэн нь өөр нэгнийхээ хэвийн шинж


чанарт нөлөөлж өөрчлөх

• Multiple-treatment interference Олон эмчилгээний интерференц

- If participants are exposed to more than one treatment


condition, performance on later trials is affected by
performance on earlier trials
Хэрэв оролцогч нэгээс илүү олон янзын эмчилгээний
ажилбарт оролцож байвал өмнөх сорилт нь дараагийн
сорилтондоо нөлөөлж болзошгүй байдаг.

33
Construct validity Констракт баталгаа
• A construct is any concept, such as honesty, which cannot be directly observed or
isolated. Construct validation is interested in the degree to which the construct
itself is accurately measured.
Констракт гэдэг нь ямар ч ухагдахуун байж болох бөгөөд жишээлбэл, шууд
нүдэнд харагдахгүй, барьж тусгаарлаж болдоггүй шударга зан хэмээх хийсвэр
ухагдахуун. Констракт баталгаа гэдэг нь тухайн констракт яг хэмжигдэх чадаж
байгаа эсэх түвшин юм.
• Construct validity is an assessment of how well you translated your ideas into
actual measures.

Констракт баталгаа гэдэг нь та өөрийнхөө санаа бодол ба


онолыг бодит төсөл буюу хэмжилтрүү хэрхэн сайн хөрвүүлж
өгч чадсан эсэх байдал юм.

(Reference: D. T. Campbell and D. W. Fiske, "Convergent and


discriminant validation by the multitrait-multimethod matrix,"
Psychological Bulletin, 56 (1959), 81-105)

34
Types of Construct Validity
Констракт баталгааны төрлүүд

• Translation validity Хөрвүүлгийн баталгаа

- Face validity Гадаад төрхийн баталгаа

- Content validity Агуулгын баталгаа

• Criterion-related validity Нөхцөлт хамаарал

- Convergent validity Конвергент баталгаа

- Discriminant validity Ялгаж салгах баталгаа

35
(cont.) үргэлжлэл

Face validity Өнгөн талын баталгаа


This type of validity relies basically upon the subjective judgment of the researcher.
It asks two questions which the researcher must finally answer in accordance with
best judgment:
Энэхүү төрлийн баталгаа нь судлаачийн хийсвэр үнэлэмж дээр түшиглэдэг. Энэхүү
баталгаа нь судлаачийн хамгийн сайн бодож тунгаасан үнэлэмжийн дагуу дараах
хоѐр асуултанд хариулах ѐстой
• Is the instrument measuring what it is supposed to measure?
Хэмжилт нь хэмжих гэж буй зүйлээ хэмжиж байна уу?
• Is the sample being measured adequate to be
representative of the behavior or trait being measured?
Хэмжигдэж буй түүвэр нь судлагдаж буй тухайн
шинж чанарыг хангалттай илэрхийлж чадаж байна уу?

36
(cont.) үргэлжлэл

Content validity Агуулгын баталгаа


• Content validity is the accuracy with which an instrument measures the factors
under study; i.e. the "content" being studied.
Агуулгын баталгаа нь гэдэг нь судалгаанд судлагдаж буй хүчин зүйл болон
нөхцөл байдлыг хэрэгсэл хэмжиж чадаж байгаа эсэх байдал юм, жич: судлагдаж
буй "агуулга"

• If, for example, we are interested in the content validity of questions being asked
to elicit familiarity with a certain area of knowledge, content validity would be
concerned with how accurately the questions asked tend to elicit the information
sought.
Жишээлбэл, хэрэв бид ямар нэгэн зүйлийн талаарх тодорхой
мэдлэгтэй эсэхийг илрүүлэх зорилготой асуултуудын
агуулгын баталгааг сонирхож байна гэвэл тухайн агуулгын
баталгаа нь тэдгээр асуултууд ямар нэгэн зүйлийн талаарх
тодорхой мэдлэгтэй эсэхийг нээхээр хэр үнэн зөв асууж
байна вэ эсэх байдал юм.
37
(cont.) үргэлжлэл
Criterion validity Нөхцөлт баталгаа
• Criterion validity usually employs two measures of validity; the second, as a
criterion, checks against the accuracy of the first measure.

• The essential component in criterion validity is a reliable and valid criterion -


a standard against which to measure the results of the instrument which is
doing the measuring. Нөхцөлт баталгаа нь ихэвчлэн хоѐр удаа хэмждэг; хоѐр
дахь хэмжилт нь эхний хэмжилтийнхээ үнэн зөв байдлыг дахин шалгадаг.
Нөхцөлт баталгааны хамгийн гол зүйл нь найдвартай ба баталгаат нөхцөл юм-
тухайн хэрэгслийн хэмжсэн үр дүнг хэмжих стандарт

• The data of the measuring instrument should correlate


highly with equivalent data of the criterion.

Хэмжилтийн хэрэгслийн өгөгдөл нь нөхцөлийн


эквалент өгөгдөлтэй тэнцүү байх ѐстой.

38
Content Validity and Discriminant Validity

• Convergent validity refers to the degree to which a measurement is similar


to (converges on) other measurements that it should also be theoretically
related. Convergent validity is acceptable if factor loadings from
confirmatory factor analysis (CFA) are 0.60 or higher.

• Discriminant validity tests whether measurements that are supposed to be


unrelated are, in fact, unrelated.

39
Approaches to Reliability
Найдварт байдлын аргууд
• Stability Тогтвортой байдал
- Test-retest reliability Шалгах-дахин шалгах найдварт байдал
Measure the same objects at two different points in time and to correlate the
obtained scores in order to find out how much consistency is in the data Нэг
объектийг нэгэн зэрэг хоѐр удаа хэмжээд өгөгдөл хэр ижил гарсан байна вэ
гэдгийг харьцуулах
• Equivalence Тэнцүү чанар
- Instead of assessing stability over time, researchers measure subjects with two
forms of the same instrument
Тогтвортой байдлыг дараалан хэмжихийн оронд нэг
хэрэгслийн хоѐр хувилбираар субъектүүдийг хэмжих.

- If the two forms do in fact measure the same thing, we


would expect a high degree of consistency between the
scores obtained for any examinee across the two testing
Хэрэв тухайн хоѐр хувилбар нэг зүйлийг хэмжиж байгаа
бол тухайн хоѐр хувилбарын хэмжилтийн оноо хоорондоо
тун ижилхэн гарах ѐстой.

41
(cont.) үргэлжлэл
•Internal consistency Дотоод тогтвортой байдал

– Degree to which instrument items are homogeneous and reflect the same
underlying construct Хэрэгслийн асуултууд нь нэг төрлийнх бөгөөд нэг үндсэн
констрактыг тусган харуулж чадаж байгаа эсэх байдал

– Consistency across the parts of a measuring instrument, with “parts” being


individual questions Хэмжилтийн хэрэгслийн аль нэг хэсгийн тогтвортой
байдал мөн хувийн асуултуудын хэсэг

– Measurement for internal consistency: Split-half,


Cronbach’s alpha
Дотоод тогтвортой байдлын хэмжилт: Split-half, K-R 20,
Cronbach’s alpha

42
Interrater Reliability Interrater найдвартай байдал

•Researcher sometimes collect data by having raters evaluate a set of objects. To


quantify the degree of consistency among the raters, the researcher will compute an
index of interrater reliability Судлаач заримдаа объектүүдэд үнэлгээ өгөх үнэлгээ
тогтоогчтойгоор өгөгдлийг цуглуулдаг. Үнэлгээ тогтоогчдын ижилхэн үнэлгээ өгөх
байдлын түвшинг тоогоор илэрхийлэхийн тулд судлаач interrater найдварт байдлын
индексийг тооцдог.
• Three procedures for assessing interrater reliability Interrater найдварт байдлыг
үнэлэх 3 процедур
 Kendall’s coefficient of concordance W
o Appropriate for situations where each rater is asked to
rank the things being evaluated Үнэлгээ өгөгч тус бүр
үнэлэгдэж буй зүйлсэд үнэлгээ өгч буй нөхцөлд
тохиромжтой.
o If these ranks turn out to be in complete agreement across
the various evaluators, then W = 1.0
Хэрэв тухайн үнэлгээний талаар хэд хэдэн үнэлгээ
өгөгчийн санали бүрэн нэгдвэл W = 1.0 гэж үзнэ.
43
(cont.) үргэлжлэл
 Cohen’s kappa
o Accomplishes the same purpose when the data are nominal in nature. Өгөгдөл
байгал дээр нэрлэсэн хэлбэрээр байгаа үед дээрхитэй ижил зорилгоор ашиглагдана.
o Kappa is designed for situations where raters classify the items being rated into
discrete categories. Kappa нь үнэлгээ өгч буй зүйлсийг салангид ангилалруу
оруулж байгаа нөхцөлд ашиглагддаг.
 Intraclass correlation (ICC)
o ICC is used to estimate the reliability of ratings Энэ нь үнэлгээний найдварт
байдлыг барагцаалдаг.
o Example: each of 20 job applicants might be rated by each of five
members of a hiring team. ICC could be used to estimate the
expected reliability of either the individual ratings provided by a
single rater or the mean rating provided by a group of raters
Жич: Ажилд орох хүсэлт гаргасан 20 хүн ажилчин сонгон
шалгаруулах багийн 5 гишүүн тус бүрээр үнэлэгдэж байна гэж
бодъѐ. ICC нь нэг хүнд нэг гишүүнээс өгсөн үнэлгээний найдварт
байдал болон багын бүх гишүүдээс өгсөн дундаж үнэлгээний
найдварт байдлыг барагцаалахад ашиглагдах юм.
44
Validity and Reliability Баталгаат байдал ба Найдварт байдал
• A measurement can be reliable, but not valid.
хэмжилт нь найдвартай байж мөртлөө баталгаагүй байж болзошгүй байдаг.
• However, a measurement must first be reliable before it can be valid. A measure that is
not reliable cannot be valid. Thus, reliability is a necessary, but not sufficient, condition
of validity.
Гэсэн хэдий ч хэмжилт нь баталгаатай байдалтаа байхаасаа өмнө эхлээд найдвартай
байдалтай байх ѐстой. Тийм учраас найдвартай байдал гэдэг зайлшгүй байх ѐстой зүй л
боловч заавал тийм их хангаллтай, баталгаат нөхцөл байдалтай байхгүй байж болно.
• In other words, a measurement may consistently assess a phenomena (or outcome), but
unless that measurement tests what you want it to, it is not valid.
•Өөрөөр хэлбэл, хэмжилт нь аливаа үзэгдлийг тогтмол ижил
хэмжих боловч таны яг хэмжихийг хүсэж буй зүйлийг тань
хэмжиж чадахгүй байж магадгүй гэсэн үг юм. Таны хэмжихийг
хүсэж буй зүйлийг хэмжиж чадаж байвал үүнийг баталгаат
байдал гэдэг билээ.

45
Rigor in Research Судалгааны нягт нямбай байдал

• Validity and Reliability in conducting research


Судалгааны баталгаат байдал ба найдварт байдал
• Adequate presentation of findings: consistency, trustworthiness
Үр дүнгийн хангалттай танилцуулга: ижил тогтмол байдал, итгэлтэй
байдал
• Appropriate representation of study for a particular field: disciplinary rigor
Тодорхой салбарт зориулсан судалгааны тохиромжтой дүрслэл:
салбарын нягт нямбай байдал

46
Example: Validity and Reliability of Measures
Purposes:

• To develop and validate performance indicators for


evaluating WHP programs which include both environment
and employee health based on the logic model .

• Specifically, performance indicators were developed for


each component of WHP programs: inputs, activities,
outputs, and short-term outcomes for both the WHP
environment and employee health management. Indicators
were validated in a comprehensive way including content
validation, reliability testing, and construct validation in
terms of convergent validation and discriminant validation.
(Source: Ho SH, Chae YM . Validation of Performance Indicators for
Evaluation of Workplace Health Promotion. Am J Health Promotion,
2015; 29(6):402-9)

47
(cont.) үргэлжлэл
Results:

• Two surveys were conducted to assess the reliability and


validity of performance indicators. In the first survey, we
asked 17 experts in industrial health to assess the content
validity of constructs by using the interrater agreement index
in the first survey.

• In the second survey, 58 health practitioners were asked to


assess for reliability and construct validity of 49 indicators,
which were measured on a five-point Likert scale, from 13
constructs in order to determine whether these indicators
can effectively be used at worksites. Thirty five performance
indicators out of 49 indicators from 11 constructs were finally
selected.

48
References
Campbell D and Fiske DW, "Convergent and discriminant validation by the multitrait-
multimethod matrix," Psychological Bulletin, 1959; 56: 81-105
Campbell D, Stanley J. Experimental and quasi-experimental designs for research. Chicago:
Rand McNally, 1963
Dane FC. Research methods. Brooks/Cole Publishing Company. 1990
rd
Farmer RDT, Miller DL. Lecture notes on epidemiology and public health medicine. (3 edition).
London: Blackwell Scientific Publications. 1991. pp.38-59
Huck SW, Cormier WH. Reading statistics and research. Harper Collins. 1996, pp.75-88
th
Kerlinger FN, Lee HB. Foundations of behavioral research. (4 edition). Harcourt College
Publishers, 2000
Leedy PD. Practical research. Third Edition.
Macmillan Publishing Co., 1985
Polgar S, Thomas, S.A. Introduction to research
in the health sciences. Churchill Livingston, 1991

49

You might also like