Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 8

Principles Of Language Assessment - Practicality,

Reliability, And Validity

A. Practicality
An effective test is practical. This means that it

 Is not excessively expensive,


 Stays within appropriate time constraints,
 Is relatively easy to administer, and
 Has a scoring/evaluation procedure that is specific and time-efficient.

A test that is prohibitively expensive is impractical. A test of language proficiency that


takes a student five hours to complete is impractical-it consumes more time (and money) than
necessary to accomplish its objective. A test that requires individual one-on-one proctoring is
impractical for a group of several hundred test-takers and only a handful of examiners. A test
that takes a few minutes for a student to take and several hours for an examiner too evaluate
is impractical for most classroom situations.

B. Reliability

A reliable test is consistent and dependable. If you give the same test to the same student
or matched students on two different occasions, the test should yield similar result. The issue
of reliability of a test may best be addressed by considering a number of factors that may
contribute to the unreliability of a test. Consider the following possibilities (adapted from
mousavi, 2002, p. 804): fluctuations in the student, in scoring, in test administration, and in
the test itself.

 Student-related reliability

He most common learner-related issue in reliability is caused by temporary illness, fatigue, a


“bad day,” anxiety, and other physical or psychological factors, which may make an
“observed” score deviate from one’s “true” score. Also included in this category are such
factors as a test-taker’s “test-wiseness” or strategies for efficient test taking (mousavi, 2002,
p. 804).

 Rater reliability

Human error, subjectivity, and bias may enter into the scoring process. Inter-rater reliability
occurs when two or more scores yield inconsistent score of the same test, possibly for lack of
attention to scoring criteria, inexperience, inattention, or even preconceived biases. In the
story above about the placement test, the initial scoring plan for the dictations was found to
be unreliable-that is, the two scorers were not applying the same standards.
 Test administration reliability

Unreliability may also result from the conditions in which the test is administered. I once
witnessed the administration of a test of aural comprehension in which a tape recorder played
items for comprehension, but because of street noise outside the building, students sitting
next to windows could not hear the tape accurately. This was a clear case of unreliability
caused by the conditions of the test administration. Other sources of unreliability are found in
photocopying variations, the amount of light in different parts of the room, variations in
temperature, and even the condition of desks and chairs.

 Test reliability

Sometimes the nature of the test itself can cause measurement errors. If a test is too long, test-
takers may become fatigued by the time they reach the later items and hastily respond
incorrectly. Timed tests may discriminate against students who do not perform well on a test
with a time limit. We all know people (and you may be include in this category1) who
“know” the course material perfectly but who are adversely affected by the presence of a
clock ticking away. Poorly written test items (that are ambiguous or that have more than on
correct answer) may be a further source of test unreliability.

C. Validity

By far the most complex criterion of an effective test-and arguably the most important
principle-is validity, “the extent to which inferences made from assessment result are
appropriate, meaningful, and useful in terms of the purpose of the assessment” (ground, 1998,
p. 226). A valid test of reading ability actually measures reading ability-not 20/20 vision, nor
previous knowledge in a subject, nor some other variable of questionable relevance. To
measure writing ability, one might ask students to write as many words as they can in 15
minutes, then simply count the words for the final score. Such a test would be easy to
administer (practical), and the scoring quite dependable (reliable). But it would not constitute
a valid test of writing ability without some consideration of comprehensibility, rhetorical
discourse elements, and the organization of ideas, among other factors.

 Content-relate evidence

If a test actually samples the subject matter about which conclusion are to be drawn, and if it
requires the test-takers to perform the behavior that is being measured, it can claim content-
related evidence of validity, often popularly referred to as content validity (e.g., mousavi,
2002; hughes, 2003). You can usually identify content-related evidence observationally if
you can clearly define the achievement that you are measuring.
 Criterion-related evidence

A second of evidence of the validity of a test may be found in what is called criterion-related
evidence, also referred to as criterion-related validity, or the extent to which the “criterion” of
the test has actually been reached. You will recall that in chapter i it was noted that most
classroom-based assessment with teacher-designed tests fits the concept of criterion-
referenced assessment. In such tests, specified classroom objectives are measured, and
implied predetermined levels of performance are expected to be reached (80 percent is
considered a minimal passing grade).

 Construct-related evidence

A third kind of evidence that can support validity, but one that does not play as large a role
classroom teachers, is construct-related validity, commonly referred to as construct validity.
A construct is any theory, hypothesis, or model that attempts to explain observed phenomena
in our universe of perceptions. Constructs may or may not be directly or empirically
measured-their verification often requires inferential data.

 Consequential validity

As well as the above three widely accepted forms of evidence that may be introduced to
support the validity of an assessment, two other categories may be of some interest and utility
in your own quest for validating classroom test. Messick (1989), grounlund (1998),
mcnamara (2000), and brindley (2001), among others, underscore the potential importance of
the consequences of using an assessment. Consequential validity encompasses all the
consequences of a test, including such considerations as its accuracy in measuring intended
criteria, its impact on the preparation of test-takers, its effect on the learner, and the (intended
and unintended) social consequences of a test’s interpretation and use.

 Face validity

An important facet of consequential validity is the extent to which “students view the
assessment as fair, relevant, and useful for improving learning” (gronlund, 1998, p. 210), or
what is popularly known as face validity. “face validity refers to the degree to which a test
looks right, and appears to measure the knowledge or abilities it claims to measure, based on
the subjective judgment of the examines who take it, the administrative personnel who
decode on its use, and other psychometrically unsophisticated observers” (mousavi, 2002, p.
244).
Diagnotic Test Definition And Example

A. Diagnostic test definition

Diagnostic assessment is a form of pre-assessment that allows a teacher to determine


students' individual strengths, weaknesses, knowledge, and skills prior to instruction. It is
primarily used to diagnose student difficulties and to guide lesson and curriculum planning.

Diagnostic tests measure students' understanding of a subject area or skills base. Teachers
typically administer diagnostics for reading and math skills, using the results to provide
remedial instruction or place students within appropriately leveled classes. Many content
teachers, though, give formative assessments to gauge what knowledge students bring to
class. Some schools also diagnose concepts as a whole, aiming to reveal commonly held
misconceptions in specific subjects.

B. Diagnostic grammar test

The following test is meant to indicate areas of grammar and mechanics which you may
need to review. It will not be graded; your classroom or lab instructor will merely use
the results to diagnose your current state of knowledge and application in certain key
areas of usage.

Section 1 – words often confused

underline the word in parentheses that is correct.


1. I’m getting (to, too) much sleep right now.
2. I watch (alot, allot, a lot) of t.v.
3. That bear could (have, of) eaten me, but it just stared for a minute and then walked on into
the night.
4. It’s been (quiet, quite) around here tonight.
5. (their, they’re, there) is not much that we can do about the problem until the rain stops.
6. She is taller (then, than) she was last year, but she still considers herself a shrimp.

Section 2 – apostrophes

Underline the word in parentheses that has the correct use of apostrophe.
7. (i’am, i’m) afraid of running over toads with the lawn mower.
8. Here is the violin and here is (it’s, its) case.
9. Have you seen (jason’s, jasons’, jasons) hat?
10. Actually, jason doesn’t have any (hats, hat’s, hats’).
Prinsip Penilaian Bahasa - Kepraktisan, Keandalan, Dan
Validitas

A. Kepraktisan
Tes yang efektif praktis. Ini berarti bahwa
 Tidak terlalu mahal,
 Tetap dalam batasan waktu yang tepat,
 Relatif mudah untuk mengelola, dan
 Memiliki prosedur scoring / evaluasi yang spesifik dan hemat waktu.

Sebuah tes yang mahal tidak praktis. Sebuah tes kemampuan bahasa yang mengambil
mahasiswa lima jam untuk menyelesaikan tidak praktis-mengkonsumsi lebih banyak waktu
(dan uang) dari yang diperlukan untuk mencapai tujuannya. Sebuah tes yang memerlukan
individu proctoring satu-satu tidak praktis untuk sekelompok beberapa ratus peserta tes dan
hanya segelintir penguji. Sebuah tes yang membutuhkan waktu beberapa menit bagi siswa
untuk mengambil dan beberapa jam untuk pemeriksa juga mengevaluasi tidak praktis untuk
situasi kelas yang paling.

B. Keandalan
Sebuah tes yang dapat diandalkan konsisten dan dapat diandalkan. Jika anda
memberikan tes yang sama kepada siswa yang sama atau siswa cocok pada dua kesempatan
yang berbeda, tes harus menghasilkan hasil yang serupa. Masalah keandalan tes mungkin
terbaik ditangani dengan mempertimbangkan sejumlah faktor yang dapat berkontribusi pada
tidak dapat diandalkan tes. Pertimbangkan kemungkinan berikut (diadaptasi dari mousavi,
2002, hal 804.): fluktuasi siswa, dalam mencetak gol, di tes administrasi, dan dalam tes itu
sendiri.
 Keandalan mahasiswa-terkait
Dia isu terkait pelajar paling umum dalam kehandalan disebabkan oleh penyakit
sementara, kelelahan, "hari yang buruk," kecemasan, dan faktor fisik atau psikologis lainnya,
yang dapat membuat "mengamati" mencetak menyimpang dari "true" skor seseorang. Juga
termasuk dalam kategori ini adalah faktor-faktor seperti tes-taker untuk "test-wiseness" atau
strategi untuk efisien tes taking (mousavi, 2002, hal. 804).
 Rater keandalan
Kesalahan manusia, subjektivitas, dan bias dapat masuk ke dalam proses
penilaian. Reliabilitas antar penilai terjadi ketika dua atau lebih nilai menghasilkan skor yang
tidak konsisten dari tes yang sama, mungkin karena kurangnya perhatian terhadap kriteria
penilaian, pengalaman, kurangnya perhatian, atau bahkan bias terbentuk sebelumnya. Dalam
cerita di atas tentang tes penempatan, rencana gol awal untuk uraian ditemukan dapat
diandalkan-yang, dua pencetak gol tidak menerapkan standar yang sama.

 Uji administrasi keandalan


Tidak dapat diandalkan mungkin juga hasil dari kondisi di mana tes diberikan. Saya
pernah menyaksikan administrasi tes pemahaman aural yang tape recorder bermain item
untuk pemahaman, tetapi karena jalan kebisingan di luar gedung, siswa yang duduk di
sebelah jendela tidak bisa mendengar rekaman itu akurat. Ini adalah kasus yang jelas tidak
dapat diandalkan disebabkan oleh kondisi tes administrasi. Sumber-sumber lain tidak dapat
diandalkan ditemukan di fotokopi variasi, jumlah cahaya di berbagai bagian ruangan, variasi
suhu, dan bahkan kondisi meja dan kursi.
 Uji reliabilitas
Kadang-kadang sifat tes itu sendiri dapat menyebabkan kesalahan pengukuran. Jika
tes terlalu panjang, peserta tes dapat menjadi lelah pada saat mereka mencapai item kemudian
dan buru-buru menanggapi salah. Tes waktunya mungkin diskriminasi terhadap siswa yang
tidak melakukan dengan baik pada tes dengan batas waktu. Kita semua tahu orang-orang (dan
anda mungkin termasuk dalam category1 ini) yang "tahu" materi kursus sempurna tapi yang
terpengaruh oleh kehadiran jam berdetak. Yang ditulis dengan buruk item tes (yang tidak
jelas atau yang memiliki lebih dari pada jawaban yang benar) dapat menjadi sumber lebih
lanjut dari tes tidak dapat diandalkan.

C. Validitas
Sejauh kriteria yang paling kompleks yang efektif tes-dan bisa dibilang yang paling
penting prinsip-adalah validitas, "sejauh mana kesimpulan yang dibuat dari hasil penilaian
yang tepat, bermakna, dan berguna dalam hal tujuan dari penilaian" (ground, 1998, hal.
226). Sebuah tes yang valid dari kemampuan membaca benar-benar mengukur membaca
kemampuan-tidak visi 20/20, atau pengetahuan sebelumnya dalam subjek, atau beberapa
variabel lain relevansi dipertanyakan. Untuk mengukur kemampuan menulis, orang mungkin
bertanya siswa untuk menulis kata-kata sebanyak yang mereka dapat dalam 15 menit, maka
hanya menghitung kata-kata untuk skor akhir. Tes semacam ini akan mudah untuk mengelola
(praktis), dan skor cukup diandalkan (reliable). Tapi itu tidak akan merupakan tes yang valid
dari kemampuan menulis tanpa beberapa pertimbangan comprehensibility, elemen wacana
retorika, dan organisasi ide, antara faktor-faktor lainnya.
 Konten-berkaitan bukti
Jika tes sebenarnya sampel materi pelajaran tentang yang kesimpulan yang bisa
ditarik, dan jika memerlukan tes-taker untuk melakukan perilaku yang sedang diukur, dapat
mengklaim bukti konten terkait validitas, sering populer disebut validitas sebagai konten
(misalnya, mousavi, 2002; hughes, 2003). Anda biasanya dapat mengidentifikasi bukti terkait
konten observasional jika anda jelas dapat menentukan prestasi yang anda mengukur.
 Bukti kriteria-terkait
Sebuah kedua bukti validitas tes dapat ditemukan dalam apa yang disebut bukti terkait
kriteria, juga disebut sebagai validitas terkait kriteria, atau sejauh mana "kriteria" tes
sebenarnya sudah tercapai. Anda akan ingat bahwa dalam bab i tercatat bahwa penilaian
berbasis kelas yang paling dengan tes yang dirancang guru-sesuai dengan konsep penilaian
kriteria-referenced. Dalam tes tersebut, tujuan kelas tertentu diukur, dan tingkat yang telah
ditentukan tersirat dari kinerja diharapkan akan mencapai (80 persen dianggap minimal
kelulusan).
 Bukti membangun-terkait
Sebuah jenis ketiga bukti yang dapat mendukung validitas, tapi satu yang tidak
bermain guru kelas peran sebagai besar, adalah validitas membangun terkait, sering disebut
sebagai validitas konstruk. Sebuah membangun adalah teori, hipotesis, atau model yang
mencoba menjelaskan fenomena yang diamati di alam semesta kita persepsi. Konstruksi
mungkin atau mungkin tidak secara langsung atau secara empiris diukur-mereka verifikasi
sering membutuhkan data inferensial.
 Konsekuensial validitas
Serta di atas tiga bentuk yang diterima secara luas dari bukti yang dapat
diperkenalkan untuk mendukung keabsahan dari penilaian, dua kategori lainnya mungkin dari
beberapa bunga dan utilitas dalam pencarian anda sendiri untuk memvalidasi tes
kelas. Messick (1989), grounlund (1998), mcnamara (2000), dan brindley (2001), antara lain,
menggarisbawahi pentingnya potensi konsekuensi dari menggunakan penilaian. Validitas
konsekuensial mencakup semua konsekuensi dari tes, termasuk pertimbangan seperti
akurasinya dalam mengukur kriteria dimaksud, dampaknya terhadap persiapan peserta tes,
efeknya pada peserta didik, dan konsekuensi sosial (dimaksudkan dan tidak diinginkan)
interpretasi tes ini dan menggunakan.
 Wajah validitas
Merupakan aspek penting dari validitas konsekuensial adalah sejauh mana "siswa
melihat penilaian sebagai adil, relevan, dan berguna untuk meningkatkan pembelajaran"
(gronlund, 1998, p. 210), atau apa yang dikenal sebagai validitas wajah. "validitas wajah
mengacu pada sejauh mana tes terlihat benar, dan muncul untuk mengukur pengetahuan atau
kemampuan klaim untuk mengukur, berdasarkan pada penilaian subjektif dari meneliti yang
mengambilnya, tenaga administrasi yang memecahkan kode penggunaannya, dan lainnya
psychometrically pengamat canggih "(mousavi, 2002, hal. 244).
Diagnotic uji definisi dan contoh

A. Definisi tes diagnostik

Penilaian diagnostik adalah bentuk pra-penilaian yang memungkinkan guru untuk


menentukan individu kekuatan, kelemahan, pengetahuan, dan keterampilan siswa sebelum
instruksi. Hal ini terutama digunakan untuk mendiagnosa kesulitan siswa dan untuk
memandu pelajaran dan perencanaan kurikulum.

Tes diagnostik mengukur pemahaman siswa tentang suatu subyek atau keterampilan
dasar. Guru biasanya mengelola diagnostik untuk membaca dan matematika keterampilan,
menggunakan hasil untuk memberikan perbaikan instruksi atau tempat siswa dalam kelas
tepat diratakan. Banyak guru konten, meskipun, memberikan penilaian formatif untuk
mengukur apa yang siswa pengetahuan membawa ke kelas. Beberapa sekolah juga
mendiagnosa konsep secara keseluruhan, bertujuan untuk mengungkapkan umumnya
dipegang kesalahpahaman dalam mata pelajaran tertentu.

B. Tes tata bahasa diagnostik

Bagian 1 - kata sering bingung

menggarisbawahi kata dalam kurung yang benar.


1. Saya mendapatkan (untuk, terlalu) banyak tidur sekarang.
2. Saya menonton (banyak, membagikan, banyak) dari tv
3. Beruang itu bisa (memiliki, dari) dimakan saya, tapi itu hanya menatap selama satu menit
dan kemudian berjalan di kemalam.
4. Sudah (tenang, cukup) sekitar sini malam ini.
5. (mereka, mereka, ada) tidak banyak yang bisa kita lakukan tentang masalah sampai hujan
berhenti.
6. Dia adalah lebih tinggi (saat itu, dari) dia tahun lalu, tapi dia masih menganggap dirinya
udang.

Bagian 2 – apostrof

Menggarisbawahi kata dalam kurung yang memiliki penggunaan yang benar dari tanda
kutip.
7. (i'am, aku) takut berjalan di atas kodok dengan mesin pemotong rumput.
8. Berikut adalah biola dan di sini adalah (itu, yang) kasus.
9. Apakah anda melihat (jason, jasons ', jasons) hat?
10. Sebenarnya, jason tidak memiliki (topi, topi ini, topi ').

You might also like