Download as pdf or txt
Download as pdf or txt
You are on page 1of 9

725747

research-article 2017
EDR XXX10.3102/0013189X17725747Educational Researcher Educational Researcher

FEATURE ARTICLES

Dynamic Measurement Modeling: Using Nonlinear Growth


Models to Estimate Student Learning Capacity

Denis G. Dumas 1,2 and Daniel M. McNeish 3,4

Single-timepoint educational measurement practices are capable of assessing student ability at the time of testing but are not designed to be informative of student

capacity for developing in any particular academic domain, despite commonly being used in such a manner. For this reason, such measurement practice systematically

underestimates the potential of students from nondominant socioeconomic or ethnic groups, who may not have had adequate opportunity to develop various academic

skills but can nonetheless do so in the future. One long-standing approach to the partial rectification of this issue is dynamic assessment (DA), a technique that features

multiple testing occasions integrated with learning opportunities. However, DA is extremely resource intensive to incorporate into educational assessment practice and

cannot be applied to extant large-scale data sets. In this article, the authors describe a recently developed statistical technique, dynamic measurement modeling (DMM),

which is capable of estimating quantities associated with DAincluding student capacity for learning a particular skillfrom existing large-scale longitudinal assessment

data, allowing the core concepts of DA to be scaled up for use with secondary data sets such as those collected by Statewide Longitudinal Data Systems in the United

States. The authors show that by considering several assessments over time, student capacity can be reliably estimated, and these capacity estimates are much less

affected by student race/ethnicity, gender, and socioeconomic status than are single-timepoint assessment scores, thereby improving the consequential validity of

measurement.

Keywords: achievement gap; assessment; effect size; individual differences; longitudinal studies; psychometrics; testing

langkah-langkah psikometrik standar diskriminasi dengan cara yang sangat tidak past half-century have continually identified ways in which that trust may be
selaras dengan aspirasi dasar masyarakat modern: budaya individu yang berbeda, misplaced, especially for students from nondomi- nant socioeconomic or ethnic
termasuk imigran dari negara-negara kurang diuntungkan, kehilangan budaya minoritas, groups (Ladson-Billings, 2006).
dan rendah individu fungsi dari budaya mainstream, mewakili potensi manusia yang
For example, psychometric assessments, as they have tradi- tionally been
sangat besar. Namun, prosedur psikometri standar menulis dari potensi ini sebagai
applied in the educational setting, solely measure abilities and skills that
kerugian atau sebagai menuntut tidak diinginkan, investasi tidak menguntungkan.
students have developed prior to the occa- sion of testing and consequently
cannot tap a students capacity for developing those abilities in the future

- Reuven Feuerstein, Penilaian Dinamis (Sternberg et al.,

Pelaku dari Terbelakang ( 1979)


2002). Despite this recognized disconnect between developed abilities and developing
capacities, scores on single-timepoint edu- cational or psychological measures are
Realisasi potensi akademik siswa adalah penting raison d' etre dari sistem all too often misinterpreted as relating to student potential. For this reason, students
pendidikan kita (Alexander, 2003; Dweck, who may not have had adequate opportunity to develop a given abilityand
2015). As such, students and their parents trust that educators and educational
methodsincluding assessment and evalua- tion techniquesare effective at
identifying and fostering the potential of students to develop within and across 1 Howard University, Washington, D.C.
various aca- demic domains. However, as lamented by Reuven Feuerstein in 2 University of Denver, CO
the opening quotation, educational researchers over at least the 3 University of North CarolinaChapel Hill, NC
4 Arizona State University, Tempe, AZ

Peneliti pendidikan, Vol. 46 No 6, pp. 284 -292


DOI: 10,3102 / 0013189X17725747 2017
AERA. http://edr.aera.net
284 PENELITI PENDIDIKAN
therefore score poorly on a performance assessment may be offi- cially judged federal government to individual states (e.g., Every Student Succeeds Act).
as not having the capacity for developing that ability and as such may not be given As has been repeatedly pointed out elsewhere (e.g., Darling-Hammond,
the resources and attention they need from educators to meet their potential. This 2007; Duckworth, Quinn, & Tsukayama, 2012; Hursh, 2007), these policies
is a major issue in educational measurement and as such will not be easily solved threaten to sys- tematically fulfill the negative predictions of single-timepoint
(Lohman, 1999, 2006). ability measures across subpopulations of U.S. students.

One methodology that has been utilized to address this problem is dynamic Indeed, recent research makes it clear that the achievement gap among
assessment ( DA; Feuerstein, 1979; Tzuriel, Black and White students, Hispanic and White stu- dents, students from low-
2001). Because DA features multiple testing occasions, inte- grated with and high-income families, and stu- dents with parents who are more and less
instruction by a clinician, it is capable of estimating a students capacity for educated is a continuing and substantial issue in the U.S. school system
developing a particular skill or ability. Unfortunately, because widely applying (e.g., Magnuson & Waldfogel, 2008; Quinn, 2015). Although cer- tain of these
DA in any educational system would entail substantial time investment by gaps have moved in differing directions over the past half- century (e.g., the
trained cli- nicians, the monetary requirements of such extensive applica- tion Black-White gap has narrowed while the income-based gap has widened
are beyond that currently available to most state systems, school districts, and substantially; Reardon,
educational research groups. Because of the cost associated, DA has not
been widely applied in the United States, although some countries such as 2011), it is nonetheless apparent that race and SES far too strongly predict
Israel (Feuerstein, Kozulin, & Falik, 2005) and the Netherlands (Peltenburg, U.S. student academic achievement than they ideally would in a society that
van den Heuvel-Panhuizen, & Doig, 2009) have worked to incor- porate it into provides fully equal opportunity across groups. While hypotheses concerning
practice. the principal con- tributors to the observed achievement gaps are many, most
researchers agree that low test scores early in a students aca- demic
careerpotentially due to a lack of learning opportuni- ties prior to
However, recent advances in nonlinear growth modeling and statistical kindergartenmay cause otherwise well-meaning educators to perceive a
computing, as well as the proliferation of reliable longi- tudinal data pertaining to student to have low capacity for develop- ing particular academic skills and
the educational achievement of U.S. students, offer an alternative solution. therefore limit their efforts to teach those skills to that student (e.g., Fryer &
Specifically, a new psycho- metric modeling framework, termed here dynamic Levitt, 2006). Further, because of modern policies that tie school funding to
measurement modeling ( DMM), is capable of accomplishing many of the goals achievement test scores, low test scores on average in groups of younger
of DA through the modeling of longitudinal testing data without the need for students may unfortunately mean that their schools will consequently lack the
extensive one-on-one clinical work (McNeish & Dumas, 2017). The resources necessary to fully develop their academic abilities as they grow, thus
mathematical underpinnings of DMM are adapted and reparameterized from tragically fulfilling the prediction of the very achievement tests that caused the
their original application in biochemistry and have only recently begun to be funding decrease in the first place. Therefore, we contend that single- timepoint
applied to the social sciences (Harring, Kohli, Silverman, & Speece, 2012). assessment practices, regardless of their format (e.g., multiple choice or
constructed response) or their measurement invariance across demographic
groups, fail to tap student capac- ity for future learning and consequently are
potentially prob- lematic for students.

Single-Timepoint Psychometrics and the


Achievement Gap

The earliest published critique of psychometric testing on the grounds of


consequential validity, of which we are aware, came from W.E.B. Du Bois
(1920/2013). In his essay, Race Intelligence,
Kemungkinan Solusi: Penilaian Dinamis
Du Bois vehemently attacked the fundamental assumption, popular at the time,
that scores from single-timepoint knowl- edge tests could provide valid Segera setelah Du Bois (1920/2013) membuat argumennya awal tentang validitas
information about the capacity of an individual or group to develop that konsekuensial, Thorndike (1921) -yang akrab dengan pekerjaan Du Bois melalui
knowledge. Moreover, Du Bois especially drew attention to the fact that mentor mereka saling William James-mengakui bahwa Beberapa dari kita, aku
because current ability was assumed to be equivalent to future capacity, takut, mengklaim umum untuk langkah-langkah kami status dan jaminan inferensi
students who scored poorly on single-timepoint ability measures were dari mereka untuk kapasitas yang akan sangat sulit untuk membenarkan(p.
therefore never given the instruction necessary to actually develop the ability,
thus fulfilling the prediction of the test. In this way, psychometric testing in 125). Dalam dekade berikutnya, Vygotsky (1934/1962) dan Rey (1934) diterbitkan
schools during the 20th cen- tury not only documented an existing pernyataan serupa, dengan alasan bahwa tindakan tunggal timepoint tidak mampu
achievement gap but actu- ally helped create and perpetuate it. Although mengidentifikasi kapasitas siswa untuk belajar setiap tugas akademik yang diberikan.
nearly a century has passed since Du Bois published this essay, we contend Namun, itu mahasiswa Rey, Feuerstein (1979), yang akhirnya mengembangkan
that it remains pertinent to educational testing practice today: espe- cially kerangka ological-metodologi formal untuk mulai menangani masalah tersebut.
regarding U.S. public policies, adopted during the 21st century, that explicitly
connect school funding to achievement test scores, whether that mandate Segera setelah perang dunia kedua, Feuerstein bekerja untuk menguji
comes directly from the federal government (e.g., No Child Left Behind Act) or kemampuan kognitif korban anak Nazi concentra- kamp tion untuk
is passed by the mengurutkan mereka ke tingkat kelas (Feuerstein, Feuerstein, Falik, & Rand,
2002). Ia menemukan bahwa single timepoint tindakan kemampuan
diremehkan holocaust muda

AUGUST/SEpTEMbER 2017 285


2006; Snow, 1978), so delineating the contribution of aptitude to capacity
remains a fruitful endeavor.
Since Feuerstein published his classic 1979 book, methodol- ogy
associated with DA has continued to grow in sophistication. For example,
researchers have worked to refine the actual items used on DA measures
(Budoff, 1987) and the inter-measure- ment instructional method (Haywood &
Lidz, 2007) and have begun to develop virtual-reality means of delivering the
assess- ment and instruction (Passig, Tzuriel, & Eshel-Kedmi, 2016). Structural
equation modeling approaches have even been devel- oped specially for the
analysis of DA data (Embretson, 1987). Interested readers should see
Tiekstra, Minnaert, and Hessels (2016) for the most recent review of some
aspects of DA meth- odology. Further, DA methods are widely utilized in Israel
in conjunction with military aptitude testing (Feuerstein et al.,

FIGURE 1. Theoretical depiction of components of potential. The space below


the line is realized ability, the space above the line is unrealized availability, and 2002) and have been adopted in the Netherlands for school- based
the horizontal line at the top is the capacity psychological testing of students with possible learning disabilities (Peltenburg
et al., 2009). However, as previously mentioned, the time and monetary
investment needed to widely apply DA has meant that U.S. states and school
districts have not pushed for the extensive adoption of DA methods. For this
survivors potential to learn in school, probably because their deprived reason, methodologies capable of estimating quantities associ- ated with DA
environment in the camps had diminished their ability far below grade level but (i.e., ability, capacity, and availability) through the use of existing assessment
had not necessarily stunted their capac- ity for learning. Therefore, Feuerstein practices and educational data sets may be highly beneficial.
concluded that cognitive abilities should be tested multiple times, with
opportunities for learning integrated with measurement. As the testing and
instruction progressed, Feuerstein plotted the growth of the examinee, and
after testing was complete, he used their rate of growth as well as the
A New Innovation: Dynamic Measurement Modeling
difference between their initial and final score as evidence of their capacity. As
such, Feuersteins implicit model of ability growth and capacity resembled that
found in Figure 1, in which ability grows in a nonlinear way, eventually leveling DMM was conceived and developed to accomplish the goal of estimating
off toward the students capacity. It should be noted we have inserted a new student capacity with large-scale longitudinal data sets, like those collected by
term availability into the model to for- mally designate the difference the existing Statewide Longitudinal Data Systems (Coburn & Turner, 2011), and
between a students ability at any given timepoint and their capacity. without the need for one-on-one clinical work (McNeish & Dumas, 2017). Unlike
single-timepoint measurement models and similar to DA meth- ods, DMM uses
information about the growth in a students abil- ity over time to estimate their
eventual capacity. To do so, DMM applies a nonlinear growth model to vertically
Because this formulation of students developed ability and developing scaled longitudinal test data, modeling students growth trajectory in the
capacity takes into account learning over time and the difference between measured ability as well the asymptotic behavior of the scores. This upper
what students currently know and what they may in the future (i.e., capacity asymptote on student ability growth is modeled with a subject-specific
availability), it is conceptually related to the rich extant literature on academic random effect so that each individual student in the data set receives a unique
aptitude ( e.g., Lohman, 1999; Snow & Lohman, 1984). However, aptitude estimate. Conceptually, this upper capacity asymptote represents the maximum
and capacity differ in a fundamental way. Specifically, while aptitude is amount of the mea- sured ability that a student is predicted to develop in the
typically thought of as existing in students before a particular instruction future given their current and past growth trajectories.
occurs (although it is not considered innate or genetic; Lohman, 2006),
capacity exists only in the future from the time of instruction and
measurement. This is because capacity is defined as the maximum amount
of ability a student is predicted to be able to develop given their ability growth Though nonlinear growth models have been previously uti- lized in
trajectory, not their propensity to learn from a given educational experience. educational research (e.g., Cameron, Grimm, Steele, Castro-Schilo, &
In the DA tradition, students have been found to vary in their predicted Grissmer, 2015), DMM pushes this methodol- ogy beyond its traditional
capacity for learning based on a variety of biological and psychological implementation. For instance, build- ing on the tradition of nonlinear mixed
reasons, including intel- lectual disabilities (Lifshitz, Weiss, Tzuriel, & effects models (NLME; Cudeck & Harring, 2007), DMMs incorporate
Tzemach, 2011), cognitive strategy use (Burns, Delclos, Vye, & Sloan, individualized growth trajectories for every student in a data set. However, in
1996), motivations and goals (Tzuriel, Bengio, & Kashy-Rosenbaum, contrast to most NLMEs, the focus of DMM is placed on the subject-specific
random effect for a substantively relevant upper capacity asymptote.

2011), and many combinations thereof. Interestingly, some of these same Interestingly, the relation between DMM models and previ- ous
variables also appear to impact aptitude (Lohman, approaches to nonlinear growth modeling is analogous to

286 PENELITI PENDIDIKAN


the relation between the Rasch model and logistic regression (e.g., Kamata, Fitting a DMM 1
2001). Specifically, in formulating his model, Georg Rasch (1961) leaned
To address this critical research question, we utilized the Early Childhood
heavily on the principles of logistic regression but utilized his model specifically
Longitudinal Survey-Kindergarten (ECLS-K) 1999 cohort (Tourangeau, Nord, L,
for the measure- ment of student-specific attributes (see Strauss, 1992, for an
Sorongon, & Najarian, 2009). These data were collected at seven timepoints: fall
explanation of the relation between the Rasch model and logistic regression).
and spring of kindergarten, fall and spring of Grade 1, spring of Grade 3, spring
In a similar way, we have built on existing nonlinear growth modeling
of Grade 5, and spring of Grade 8. This publicly available data set contains
frameworks by retooling the model to estimate student-specific capacities. In
several thousand variables, including direct cognitive assessments, teacher
this way, although the mathemati- cal core of DMM is not newly derived, DMM
reports, parent reports, and a host of ques- tionnaires as well as demographic
conceptualizes nonlinear growth models in a novel way not considered hereto-
and background variables. In this analysis, we utilize mathematics assessment
fore: as a method for measuring student capacity.
scale scores (not individual items), which were vertically scaled across timepoints
(i.e., the scores across time are on a single continuous scale).

Also importantly, DMM may be flexibly applied to a number of substantive


research questions that require a diversity of growth curve shapes. This is
To fit a DMM, the functional form, or shape, of the growth trajectory of the
because the DMM nonlinear function may be specified and parameterized
ability being modeled must be chosen. To select the appropriate functional
differently depending on the needs of the researcher. For example, J-shaped
form for our DMM using ECLS-K mathematics scale scores, we identified a
growth trajectories (e.g., Michaelis-Menten, von Bertalanffy) may be appropriate
small number of model types that aligned well with our theoretical modeling
for a wide variety of educational constructs (e.g., vocabulary develop- ment)
goals (i.e., they featured an interpretable upper asymptote to estimate stu- dent
because they feature rapid monotonic growth early on, with growth slowing
capacity) and then tested their fit to the data empirically. Specifically, we
down as time progresses, eventually reaching an upper asymptote. If a lower
compared the empirical fit of three different models with differing functional
asymptote or developmental inflection point are relevant to the growth of a given
formsincluding S-shaped and J-shaped growth trajectoriesand identified
construct, DMM can incorporate S-shaped growth trajectories, such as those
the Michaelis- Menten model as the best fitting. The Michaelis-Menten model
described by Schnute curves (Schnute, 1981).
posits a J-shaped growth trajectory and was first formulated in the field of
biochemistry to estimate the rate of enzyme reactions based on the
concentration of a substrate (English et al., 2006). As such, the goals of the
Because the general framework of DMM has only recently appeared in the
Michaelis-Menten model may be appro- priate for educational data, in which
statistical literature (McNeish & Dumas, 2017), there have been no descriptions
some quantity (be it math- ematics score or chemical reaction rate) grows
of the modeling framework tar- geted to educational researchers who would
nonlinearly and eventually reaches an upper asymptote (either capacity or
actually interact with and use the model to answer substantive research
maxi- mum reaction rate). In fact, in our view, such a description matches the
questions. Additionally, there has been limited evidence presented in the
theoretical conceptualization of ability growth, capacity, and availability,
literature to show that the quantities produced by DMM improve on current
depicted in Figure 1, which is based on the DA literature.
single-timepoint assessment practice. For example, in DA methodology, the
quality of instruction that stu- dents receive from clinicians is assumed to be
consistently high (Tiekstra et al., 2016). But unfortunately, researchers who
take a big-data approach to educational research do not have control over the
quality of instruction that students in their data sets receive. Moreover, if the
Notationally, Michaelis-Menten lintasan pertumbuhan ECLS-K matematika
quality of instruction differs systemati- cally across groups of students, then
skala skor untuk saya th siswa dalam data ditetapkan pada t th timepoint dapat
their ability growth trajecto- ries, and hence their DMM capacity estimates, will
ditulis sebagai:
also differ. In this way, DMM estimates from large-scale secondary data sets
are potentially vulnerable to one of the main issues they were created to solve:
( ui - )waktu
=+
0 saya
the unduly large effect of student demographic background variables (e.g., matematika
saya t
0 saya + d saya t (1)
+ waktu
SES, race/ethnicity) on single-time- point measurements. ri

dimana

= += 0
0 saya 0 saya

Therefore, the effect of such demographic background vari- ables on ui + (2)


U ui .
DMM capacity estimates must be a critical empirical question. A major
=+
motivation for the creation of DMM is to follow in the DA tradition of estimating ri R ri

student capacities from ability growth trajectories in large-scale data sets,


thereby improving the consequential validity of measurement. However, the Pada Persamaan 1, tiga parameter dari fungsi Michaelis-Menten adalah:
efficacy of DMM to accomplish this goal has not yet been explicitly tested, and nilai awal ( b 0 saya), yang menangkap kemampuan ketika waktu 0 (TK
the empirical question still remains: How affected by demographic variables penurunan data ini); parameter tingkat ( b Ri), yang mewakili titik waktu ketika
are DMM capacity estimates? Is the consequential validity of capacity kemampuan setengah jalan antara nilai awal dan asymptote; dan asymptote
estimates better than that of single-timepoint ability assessments? ( b Ui), yang mencirikan nilai maksimum hasilnya sebagai waktu mendekati tak
terhingga (yaitu, kapasitas). d saya t adalah istilah residual

AUGUST/SEpTEMbER 2017 287


Ketersediaan: [( Sebuah U + ui) - matematika saya t], yang merupakan asymptote
atas prediksi minus kemampuan di timepoint bunga.

Setelah mengidentifikasi bentuk fungsional terbaik pas, DMM dijalankan dan


hasilnya dicatat. Seperti disebutkan sebelumnya, dalam rangka DMM, masing-masing
parameter model secara substansial relevan memiliki efek random, dan karena itu setiap
siswa memiliki perkiraan subjek khusus dari masing-masing kuantitas Model (misalnya,
nilai awal, kapasitas, dan tingkat) dan dengan demikian tunduk mereka sendiri kurva
pertumbuhan -specific. Untuk menunjukkan aspek DMM, 50 siswa dari ECLS-K
kumpulan data yang dipilih secara acak, dan lintasan pertumbuhan kemampuan mereka
serta asymptotes kapasitas mereka diplotkan pada Gambar 2. Untuk membuat setiap
kurva subjek khusus lebih mudah untuk melihat, plot pada Gambar 2 dibagi menjadi dua
kelompok dari 25 siswa masing-masing, dan sampel berarti lintasan diplot sebagai titik
perbandingan.

Sangat mudah untuk melihat bagaimana plot empiris pada Gambar 2 menyerupai
plot teoritis pada Gambar 1, dan kami berpendapat bahwa pertandingan tersebut
antara teori yang ada dan hasil empiris saat ini dapat memberikan validitas wajah
untuk kesesuaian DMM untuk kapasitas belajar modeling. Namun, kesamaan
fungsional dari plot ini tidak sepenuhnya cukup untuk memastikan validitas perkiraan
kapasitas DMM. Oleh karena itu, sebelum khusus ALAMAT ing pertanyaan penelitian
kami berkaitan dengan pengaruh variabel latar belakang demografis pada kapasitas,
kami secara empiris menguji kemampuan reli- dan validitas konvergen dari perkiraan
DMM
GAMBAR 2. Kemampuan, kapasitas, dan ketersediaan lintasan plot untuk dua
sampel acak dari 25 siswa dari Anak Usia Dini Longitudinal Survey-TK set
data, dengan sampel ditumpangkan berarti lintasan (bold)
Keandalan dan konvergen Validitas Estimasi DMM

yang menangkap perbedaan antara model tersirat dan diamati nilai-nilai pada setiap Ketika pas DMM, adalah penting untuk diingat bahwa stu- Dent kapasitas diperkirakan
timepoint untuk masing-masing siswa. dalam Persamaan melalui metode Bayes empirik (misalnya, Laird & Ware, 1982; Thissen & Steinberg,
2, dapat dilihat bahwa masing-masing dari tiga parameter beta dalam persamaan 1 2009) dan dapat menjadi terlalu menyusut untuk mean jika model adalah tidak tepat
atau terlalu kompleks untuk data. penyusutan tersebut secara efektif akan
terdiri dari efek tetap populasi rata-rata ( Sebuah) dan efek acak siswa-spesifik ( saya). Efek
random memungkinkan setiap orang dalam data (maka saya subskrip) memiliki menghasilkan perkiraan kapasitas yang secara acak diambil dari memungkinkan
kurva pertumbuhan mereka sendiri yang unik, di mana masing-masing saya menangkap terjadinya distribusi normal. Jika ini terjadi, perkiraan kapasitas akan menjadi tidak
perbedaan antara parameter pertumbuhan subjek khusus dan estimasi parameter dapat diandalkan atau valid, dan analisis lebih lanjut menggunakan kapasitas akan
populasi rata-rata. Meskipun tidak ditampilkan dalam Persamaan 1 dan 2, efek diperdebatkan. Oleh karena itu, kami melakukan analisis untuk memastikan apakah di
random juga diperbolehkan untuk covary dengan satu sama lain. Selanjutnya, DMM saat ini rekan kapasitas esti- subjek khusus yang bermakna dan tidak rumit
varians residual secara unik diperkirakan setiap timepoint (yaitu, tidak ada asumsi dihasilkan kebisingan statistik.
homoskedasticity dibuat).

Secara khusus, untuk secara empiris memastikan reliabilitas dan validitas vergent

Untuk mengikat model kembali ke konseptualisasi teoritis pada Gambar 1, yang con- dari perkiraan kapasitas dari waktu ke waktu untuk data ECLS-K, kita cocok dengan

didasarkan pada literatur DA, tiga-komponen komponen-peta sebagai berikut: mengurangi DMM hanya enam titik waktu pertama (jatuh TK sampai kelas 5 musim
semi), meninggalkan kelas 8 skor musim semi keluar dari model. Oleh karena itu kelas 8
skor musim semi menjabat sebagai hasil distal. Kami menggunakan model berkurang ini,

Kemampuan: [ matematika saya t], yang merupakan skor skala matematika untuk saya orang penuh DMM (sebelumnya cocok untuk semua tujuh titik waktu), dan ECLS-K mathemat-

th dalam data pada saat t. ics skala skor di kelas 5 dan kelas 8 untuk (a) menentukan apakah perkiraan ity capac-

Kapasitas: [ Sebuah saya + Ui], yang merupakan subjek khusus asymp- tote handal dari waktu ke waktu, (b ) menilai apakah estimasi kapasitas yang cukup terkait

untuk saya orang th dalam data. efek acak ( ui) dengan single-timepoint skor skala diamati (yaitu, untuk menunjukkan validitas

didefinisikan memiliki rata-rata 0, sehingga ui Nilai 0 berarti orang saya memiliki


konvergen antara skor skala dan perkiraan kapasitas), dan (c) memastikan bahwa nilai

kapasitas rata-rata (relatif terhadap sampel), skor tive posi- berarti atas skala dan perkiraan kapasitas tidak berkorelasi terlalu tinggi karena mereka

rata-rata, dan skor negatif berarti bawah rata-rata. skala tidak diatur ke diformulasikan untuk mengukur jumlah teoritis yang berbeda. Analisis seperti ini

standar normal karena variasi efek acak diperkirakan oleh model dan mengingatkan tapi tidak identik dengan

oleh karena itu tidak sama dengan 1.

288 PENELITI PENDIDIKAN


Tabel 1
Korelasi Matrix Estimasi Kapasitas Dari Model DMM penuh dan Mengurangi dan ECLS-K Skala Skor

Mengurangi Kapasitas Model Penuh Model Kapasitas Kelas 5 Skala Score

Kapasitas model penuh . 934 - -


Kelas skor 5 skala . 799 . 712 -
Kelas skor 8 skala . 679 . 771 . 836

Catatan. estimasi model penuh kapasitas yang dari model fit untuk semua tujuh titik waktu (musim gugur TK sampai musim semi kelas 8), dikurangi estimasi kapasitas Model adalah dari model fit untuk enam titik waktu (TK
jatuh ke Grade 5 musim semi), dan kelas 5 dan kelas 8 diamati skor adalah data nilai ujian termasuk dalam ECLS-K dari musim semi setiap tahun masing-masing. DMM = pemodelan pengukuran dinamis; ECLS-K = Anak
Usia Dini Longitudinal Survey-TK; - = entri yang sama dengan 1 atau berlebihan dengan unsur-unsur lain dalam tabel.

Metode klasik multitrait-multimethod matriks dari Campbell dan Fiske bahwa siswa jender dapat mempengaruhi baik belajar opportuni- ikatan yang
(1959). siswa menerima di sekolah (Eccles, 1986) dan efek ras dan SES pada hasil
Untuk mencapai hal ini, kita diselamatkan perkiraan kapasitas dari kedua akademik yang relevan (Riegle-Crumb & Raja, 2010). Oleh karena itu, jenis
model tujuh timepoint penuh (yang termasuk kelas 8 skor musim semi) dan kelamin juga termasuk dalam analisis GLM ini.
model enam-timepoint berkurang. Kami kemudian berkorelasi perkiraan
kapasitas model penuh, dikurangi estimasi kapasitas Model, kelas 5 musim semi Karena perkiraan kapasitas pertama kali disimpan dalam data set dan
matematika skala skor, dan Grade 8 musim semi matematika skala skor. Korelasi kemudian efek dari variabel demografis yang diuji, penelitian ini dapat
ini dilaporkan dalam Tabel 1. Dalam menafsirkan tabel ini, catatan pertama digambarkan sebagai dua langkah (Bakk, Tekle, & Vermunt, 2013; Lu &
bahwa korelasi antara perkiraan kapasitas model penuh dan mengurangi Model Thomas, 2008; Vermunt 2010). Penting, satu langkah pendekatan juga pilihan
cukup tinggi di r = . 934, menunjukkan bahwa perkiraan kapasitas handal dari metodologis, di mana variabel demografis bisa dimasukkan secara langsung di
waktu ke waktu. Bahkan, korelasi ini melebihi korelasi r = . 836 ditemukan antara DMM sebagai kovariat. Namun, kami menolak untuk menguji perbedaan
kelas 5 dan kelas 8 skor matematika dengan margin nyaman. 2 Hubungan cor- demografis dengan cara ini karena beberapa alasan. Pertama, karena ukuran
antara perkiraan kapasitas dan skor skala juga cukup tinggi (kisaran, ,679-771), sampel di ECLS-K cukup besar, model ini sangat bertenaga untuk mendeteksi
yang tampaknya memberikan bukti validitas konvergen memuaskan, bahkan ences berbeda- sepele melalui pengujian signifikansi (yaitu, p nilai-nilai).
menunjukkan bahwa kapasitas mahasiswa yang berhubungan positif dengan Oleh karena itu, culating cal- dan efek melaporkan ukuran daripada p nilai-nilai
penilaian single-timepoint. kemungkinan lebih informatif (misalnya, Sullivan & Feinn, 2012). Namun,
random efek dom model seperti DMMs tidak memiliki metode standar untuk
menghitung efek ukuran untuk kovariat. efek ukuran kesulitan tion calcula-
Yang penting Namun, korelasi antara kapasitas dan matematika skor tidak adalah karena partisi varians (McNeish, Stapleton, & Silverman, 2017; Recchia,
begitu tinggi untuk meminjamkan kecurigaan bahwa perkiraan kapasitas dan skor 2010), yang menjadikan itu dipertanyakan apakah dalam, antara, atau total
satu-timepoint adalah sinonim. pengamatan tersebut mendukung pendapat teoritis varians harus diganti menjadi formula ukuran efek. Kedua, dalam pendekatan
kami bahwa kapasitas siswa terkait dengan tetapi jauh dari setara dengan langkah satu, kami juga tidak akan mampu membandingkan efek dari variabel
kemampuan mereka saat ini. Secara bersama-sama, Tabel 1 memberikan bukti demografis pada skor skala matematika karena data ECLS-K mengandung skor
bahwa perkiraan kapasitas subjek khusus tampaknya cukup terkait dengan nilai setelah kalibrasi (yaitu, kovariat hanya akan memprediksi kapasitas).
skala matematika dan cukup stabil dari waktu ke waktu. Masukan lebih ringkas,
berdasarkan bukti ini, sangat tidak mungkin bahwa perkiraan kapasitas DMM kami
adalah hasil dari proses acak.

Ketiga dan yang paling penting, termasuk kovariat dalam DMM akan
mengubah skor menjadi proses bersyarat, berarti prosedur scoring akan
tergantung pada latar belakang grafis demografis siswa (misalnya, De Boeck &
Validitas konsekuensial Estimasi DMM
Wilson, 2004). Misalnya, jika ras / etnis dimasukkan sebagai kovariat dalam
Menyusul penilaian memuaskan kita tentang reliabilitas dan validitas vergent con- DMM, siswa dengan skor penilaian identik di semua titik waktu sured Measures
dari perkiraan kapasitas DMM, kita diselamatkan perkiraan kapasitas dari model tetapi yang berbeda latar belakang etnis akan memiliki kapasitas estimasi yang
penuh untuk setiap siswa dalam kumpulan data. Seperti dibahas sebelumnya, tujuan berbeda. Meskipun ini adalah desir- mampu di beberapa bidang psikologi di
utama dari DMM adalah untuk meningkatkan validitas konsekuensial pengukuran mana skor bersyarat telah terbukti untuk menghasilkan subjek khusus yang
dengan memperkirakan kapasitas mahasiswa yang kurang dipengaruhi oleh latar lebih akurat perkiraan (misalnya, persediaan depresi; Cole & Bauer, 2016; PJ
belakang demografis variabel- ables dari puluhan single-timepoint. Untuk menyelidiki Curran, Cole, Bauer, Hussong, & Gottfredson 2016 ), ini tidak biasanya
apakah DMM berhasil dalam hal ini, kita cocok urutan model linear umum (GLMS) dianggap sebagai prosedur yang tepat dalam educa- penilaian tional karena
yang menguji pengaruh ables variabel- demografi pada perkiraan kapasitas model konstruksi terkait bidang pendidikan (yaitu, kemampuan matematika) biasanya
penuh dan single-timepoint skor matematika. Untuk alasan sudah dibahas, kami diduga sama sama di seluruh kelompok demografis (Reardon, 2011). Dengan
antar ested dalam pengaruh status sosial ekonomi (SES) dan ras / etnik yang nicity demikian, penyelidikan perbedaan demografi pada penilaian pendidikan
pada variabel hasil tersebut. Namun, ada juga bukti biasanya

Agustus / September 2017 289


GAMBAR 3. Plot dari omnibus R 2 nilai-nilai yang menunjukkan jumlah total variasi GAMBAR 4. Efek ukuran (Cohen f) status sosial ekonomi pada skor skala
dijelaskan dalam skor skala dan penuh perkiraan kapasitas model yang berdasarkan Anak Usia Dini Longitudinal Survey-TK dan penuh perkiraan kapasitas Model.
gender, ras / etnis, status sosial ekonomi, dan semua dua dan tiga-cara interaksi garis horizontal putus-putus di
. 10 merupakan cutoff untuk efek kecil, dan garis putus-putus di
. 25 merupakan cutoff untuk efek media

dilakukan pada skor tanpa syarat (misalnya, Rogers & Swaminathan, 1993;
Swaminathan & Rogers, 1990). Oleh karena itu, kami melakukan analisis dua langkah variabel pada skor penilaian single-timepoint serta kapasitas DMM.
yang konsisten dengan praktik terbaik dalam literatur penilaian tional educa-.
Pada Gambar 3, diketahui bahwa untuk nilai matematika ECLS-K,
Juga mengikuti praktek yang didirikan (FC Curran & Kellogg, omnibus R 2 nilai-nilai jatuh antara 15,8% dan 22,8%. Di sisi lain, R 2 nilai
2016), kami menggunakan analisis komponen utama (PCA) untuk kapasitas 9,9%: sekitar setengah dari GLMS skor ECLS-K. Jadi meskipun
membuat variabel kontinu tunggal untuk mahasiswa SES. Berikut sebagian non-diabaikan variasi dalam perkiraan kapasitas dijelaskan oleh
variabel ECLS-K yang digunakan dalam PCA: pendapatan keluarga, variabel demografis, persentase tersebut terasa berkurang dibandingkan
bebas / mengurangi Status siang, tingkat tertinggi pendidikan ibu, dengan nilai tunggal timepoint.
tingkat tertinggi ayah pendidikan, jumlah buku anak memiliki, apakah
ada komputer di rumah, dan apakah ent par- telah sukarela di sekolah
anak. Yang penting, beberapa variabel-variabel ini merupakan Status sosial ekonomi
pendapatan moneter atau kekayaan, sementara ers oth- (misalnya,
status relawan) merupakan investasi orangtua waktu. Dengan cara ini, Dengan masing-masing prediktor serta dua dan tiga-arah mereka interaksi di GLMS,

gambaran yang lebih lengkap dari SES ditangkap oleh ponent com- ini satu-satunya prediktor demografis yang memiliki efek konsisten non-diabaikan pada

daripada yang oleh tunggal salah satu variabel. Seperti yang ECLS-K mathemat- ics skala skor adalah SES. Oleh karena itu, kami menyajikan

diharapkan, ada perbedaan yang signifikan dalam SES nen-komponen efek ukuran terkait dengan SES pada Gambar 4. Efek ukuran digambarkan dalam

antara kelompok-kelompok ras / etnis, Gambar 4 adalah Cohen f, yang jatuh pada skala berikut: 0,10, 0,25, dan 0,40 untuk
kecil, menengah, dan besar efek, masing-masing (Cohen, 1992). efek ukuran di
bawah 0,10 dianggap diabaikan.

Secara khusus, kami berlari urutan GLMS dengan masing-masing ECLS-K skor
skala matematika dan penuh model kapasitas subjek khusus sebagai hasil (delapan Seperti dapat dilihat pada Gambar 4, efek dari SES pada ECLS-K skor skala

model total) dengan jenis kelamin, ras / etnis, dan komponen SES sebagai prediktor. matematika akan diklasifikasikan pada sisi yang tinggi dari efek yang kecil, pada

Setiap model termasuk semua interaksi dua arah dan interaksi tiga arah antara waktu mendekati efek media. Namun, efek ukuran untuk SES pada kapasitas

prediktor. Oleh karena itu efek yang dilaporkan adalah perkiraan tional menderita terasa lebih kecil dari masing-masing nilai skala dan pendek dari efek cutoff kecil

penyakit yang mencoba untuk mewakili efek dari masing-masing prediktor di dunia (yaitu, diabaikan) dengan margin yang wajar. Secara khusus, Cohen f

nyata, di mana variabel-variabel ini tidak beroperasi secara independen. Berikut


adalah diskusi tentang pengaruh variabel-variabel ini skor penilaian single-timepoint nilai efek SES pada kapasitas kurang dari setengah (50% pengurangan) dari

serta kapasitas DMM diperkirakan. efek terendah SES pada skor tunggal timepoint di kelas 1 musim semi dan
kurang dari sepertiga (pengurangan 66%) dari efek terbesar di TK jatuh.

Dalam pandangan kami, temuan ini menunjukkan bahwa siswa miskin, meski telah
dikembangkan kemampuan kurang rata-rata dari rekan-rekan yang lebih istimewa mereka
bis penumpang R 2
dengan kelas delapan, tetap mempertahankan kapasitas praktis sama untuk belajar di
Gambar 3 menunjukkan plot dari omnibus GLM R 2 nilai-nilai, yang mewakili total masa depan. Jenis kesimpulan tidak mudah dicapai dengan sebagian besar jenis lain
proporsi varians dalam skor skala ECLS-K dan kapasitas DMM dijelaskan oleh yang tersedia dari metode chometric psy-. Oleh karena itu, kami berpendapat bahwa
semua prediktor dan interaksi di GLM. Karena model R 2 menangkap varian yang DMMs menjanjikan stantial sub untuk menginformasikan praktek pengukuran dan
dikombinasikan menjelaskan di masing-masing prediktor dalam model, itu penelitian pendidikan hanya dengan mengubah cara data penilaian yang ada dilihat dan
adalah ukuran penting dari pengaruh latar belakang demografis diinterpretasikan.

290 PENELITI PENDIDIKAN


Janji Dinamis Model Pengukuran Coburn, CE, & Turner, EO (2011). Praktek menggunakan data: Sebuah
pengantar. American Journal of Education, 118, 99-111. Cohen, J. (1992). Sebuah
Pada artikel ini, kami telah menunjukkan bahwa, setelah tions prediktif dari primer kekuasaan. Psychological Bulletin, 112 ( 1), 155-159.
Feuerstein (1979) dan lain-lain yang berpendapat untuk pendekatan dinamis
untuk penilaian (misalnya, Sternberg et al., 2002), ketika fokus pengukuran Cole, VT, & Bauer, DJ (2016). Sebuah catatan tentang penggunaan campuran mod-

dialihkan dari kemampuan atau nilai prestasi perkiraan kapasitas mahasiswa, els untuk prediksi individu. Structural Equation Modeling, 23,
efek digabung com- ras, jenis kelamin, dan SES menurun drastis di ECLS-K 615-631.
1999 kumpulan data. Seperti temuan ini erat sejalan dengan Cudeck, R., & Harring, JR (2007). Analisis pola nonlinear
dari perubahan dengan model koefisien acak. Ulasan tahunan Psikologi, 58, 615-637.

(1920/2013) kritik asli WEB Du Bois ini praktek psikometri, di mana ia berpendapat
Curran, FC, & Kellogg, AT (2016). Memahami achieve- ilmu
bahwa perbedaan antara siswa pada tingkat kemampuan mengembangkan mereka tidak
ment kesenjangan oleh ras / etnis dan jenis kelamin di TK dan kelas pertama. Peneliti
menyiratkan perbedaan dalam kapasitas masa depan mereka siswa untuk belajar.
pendidikan, 45 ( 5), 273-282.
Curran, PJ, Cole, V., Bauer, DJ, Hussong, AM, & Gottfredson,
Meskipun single-timepoint metode penilaian pendidikan fokus pada siswa masa N. (2016). Meningkatkan skor estimasi faktor melalui penggunaan karakteristik latar
lalu atau kemampuan akademik saat dikembangkan, kami percaya bahwa fokus belakang yang diamati. Structural Equation Modeling,
bersamaan pada siswa mengembangkan kapasitas akan sangat bermanfaat. DMMs 23, 827-844.
menggeser fokus penilaian dari berapa banyak siswa saat ini tahu berapa banyak Sayang-Hammond, L. (2007). Ras, ketidaksetaraan dan pendidikan
mereka dapat tumbuh. Seperti telah ditunjukkan, pergeseran tersebut mungkin akuntabilitas: Ironi No Child Left Behind. Ras Etnis dan Pendidikan, 10 ( 3),
sangat diinginkan untuk meningkatkan validitas konsekuensial kesimpulan yang 245-260.
dibuat tentang mahasiswa dari pengujian data terutama bila siswa memiliki status Davidson, CA, Johannesen, JK, & Fiszdon, JM (2016). peran
potensi belajar di remediasi kognitif: Membangun dan validitas prediktif tive. Skizofrenia
sosial ekonomi rendah.
Penelitian, 171 ( 1-3), 117-124. De Boeck, P., & Wilson, M. (2004). model
respon butir jelas.
Catatan New York, NY: Springer. DuBois, WEB (2013). WEB DuBois pada sosiologi
dan komunitas Hitam. Chicago, IL: University of Chicago Press. (Pekerjaan Asli
1 Sementara bagian ini memberikan gambaran umum dari kerangka ing model-
diterbitkan 1920).
digunakan dalam penelitian ini, informasi lengkap mengenai metodologi-termasuk dijelaskan
kode SAS digunakan untuk menjalankan model- yang disertakan dengan artikel ini sebagai
Duckworth, AL, Quinn, PD, & Tsukayama, E. (2012). Apa
lampiran pelengkap kami (tersedia di situs jurnal) . Selain itu, informasi spesifik tentang
No Child Left Behind meninggalkan: Peran IQ dan kontrol diri dalam
sampel yang digunakan, sifat dari variabel yang diukur, dan output model yang juga
memprediksi nilai tes prestasi standar dan nilai rapor. Jurnal Psikologi
termasuk dalam lampiran ini.
Pendidikan, 104 ( 2), 439-451. Dweck, CS (2015). Pertumbuhan. British
Journal of Psikologi Pendidikan,
2 Perhatikan bahwa korelasi antara kelas 5 dan kelas 8 math- ematics skala skor
tidak harus ditafsirkan sebagai kehandalan. Ini KASIH assess- mengukur konstruk yang
85 ( 2), 242-245.
berbeda, dan itu akan diharapkan bahwa beberapa siswa dapat mengubah posisi relatif
Eccles, JS (1986). Gender peran dan prestasi perempuan. pendidikan
dari waktu ke waktu. Sebaliknya, kapasitas memiliki arti yang sama terlepas dari apakah
Peneliti, 15 ( 6), 15-19.
timepoint terminal kelas 5 atau kelas 8, sehingga definisi teoritis dari konstruk tidak
Embretson, SE (1987). Menuju pengembangan psikometri
berubah antara model berkurang dan penuh.
pendekatan. Dalam CS Lidz (Ed.), penilaian dinamis: Sebuah pendekatan interaksional
untuk mengevaluasi potensi belajar ( pp. 141-170). New York, NY: Guilford Press.

REFERENSI
Bahasa Inggris, BP, Min, W., van Oijen, AM, Lee, KT, Luo, G., Sun,
Alexander, PA (2003). Pengembangan keahlian: Perjalanan H.,. . . Xie, XS (2006). Selalu berfluktuasi enzim tunggal ecules mol: persamaan
dari aklimatisasi ke kemahiran. Peneliti pendidikan, 32 ( 8), 10-14. Michaelis-Menten ditinjau kembali. Nature Chemical Biology, 2 ( 2), 87-94.

Bakk, Z., Tekle, FB, & Vermunt, JK (2013). Memperkirakan associa- yang Feuerstein, R. (1979). Penilaian dinamis pemain terbelakang:
tion antara keanggotaan kelas laten dan variabel eksternal menggunakan adjusted The belajar penilaian potensi perangkat, teori, instrumen, dan teknik. Baltimore,
pendekatan tiga langkah bias-. Metodologi sosiologis, 43, 272-311. Budoff, M. (1987). MD: University Park Press. Feuerstein, R., Feuerstein, RS, Falik, LH, & Rand,
Validitas belajar penilaian potensi. Di Y. (2002). Itu
CS Lidz (Ed.), penilaian dinamis: Sebuah pendekatan interaksional untuk mengevaluasi penilaian dinamis modifiability kognitif: Perangkat penilaian pembelajaran
potensi belajar ( pp. 53-81). New York, NY: Guilford Press. kecenderungan: Teori, instrumen dan teknik ( Pendeta dan Exp. ed.). Jerusalem:
Publikasi ICELP. Feuerstein, R., Kozulin, A., & Falik, LH (2005). Perbedaan budaya
Burns, MS, Delclos, VR, Vye, NJ, & Sloan, K. (1996). Perubahan dalam
strategi kognitif dalam penilaian yang dinamis. Di MG Luther, E. Cole, & PJ dan perampasan budaya yang tercermin dalam penilaian dinamis anak
Gamlin, (Eds.), penilaian dinamis untuk instruksi: Dari teori ke aplikasi ( pp. imigran Ethiopia di Israel. Erdlyi Pszicholgiai Szemle, 6 ( 1), 107-129.
96-102). North York, UK: Captus Press, Inc. Cameron, CE, Grimm, KJ, Steele,
JS, Castro-Schilo, L., & Fryer, RG, & Levitt, SD (2006). The Black-White gap nilai ujian
Grissmer, DW (2015). Nonlinier Gompertz kurva els mod- prestasi melalui kelas tiga. Hukum Amerika dan Ekonomi Review, 8 ( 2), 249-281.
kesenjangan dalam matematika dan membaca. Jurnal Psikologi Pendidikan, 107,
789-804. Harring, JR, Kohli, N., Silverman, RD, & Speece, DL (2012).
Campbell, DT, & Fiske, DW (1959). Konvergen dan diskriminan Sebuah orde kedua kondisional linear efek campuran model dengan diamati
validasi oleh matriks multitrait-multimethod. Psychological Bulletin, 56 ( 2), dan laten kovariat variabel. Structural Equation Modeling, 19, 118-136.
81-105.

Agustus / September 2017 291


Haywood, HC, & Lidz, CS (2007). penilaian dinamis dalam praktek: Rogers, HJ, & Swaminathan, H. (1993). Perbandingan regres- logistik
aplikasi klinis dan pendidikan. New York, NY: Cambridge University Press. sion dan Mantel-Haenszel prosedur untuk mendeteksi barang diferensial berfungsi. Terapan
Psikologi Pengukuran, 17 ( 2), 105-116.
Hursh, D. (2007). Menilai No Child Left Behind dan bangkitnya neo Schnute, J. (1981). Sebuah model pertumbuhan serbaguna dengan statistik yang stabil

kebijakan pendidikan liberal. Amerika Penelitian Pendidikan Journal, 44 ( 3), 493-518. parameter. Canadian Journal Perikanan dan Ilmu Perairan, 38,
1128-1140.
Kamata, A. (2001). analisis item dengan linear umum hirarkis Sternberg, RJ, Grigorenko, EL, Ngorosho, D., Tantufuye, E., Mbise,
model. Jurnal Pengukuran Pendidikan, 38 ( 1), 79-93. A., Nokes, C.,. . . Bundy, DA (2002). Menilai esensial poten- intelektual pada anak-anak
Ladson-Billings, G. (2006). Dari kesenjangan prestasi untuk pendidikan sekolah Tanzania pedesaan. Intelijen, 30, 141-162. Strauss, D. (1992). Banyak wajah dari
utang: Prestasi Memahami di Sekolah AS. Peneliti pendidikan, 35 ( 7), regresi logistik. Orang Amerika
3-12. Ahli statistik, 46, 321-327.
Laird, NM, & Ware, JH (1982). -Efek acak model untuk longi- Salju, RE (1978). Teori dan metode untuk penelitian tentang pro bakat
Data tudinal. Biometrik, 38, 963-974. cesses. Intelijen, 2, 225-278.
Lifshitz, H., Weiss, I., Tzuriel, D., & Tzemach, M. (2011). Model baru Salju, RE, & Lohman, DF (1984). Menuju teori bakat
kesulitan pemetaan dalam memecahkan masalah analogi di kalangan remaja dan untuk belajar dari instruksi. Jurnal Psikologi Pendidikan, 76,
orang dewasa dengan cacat intelektual. Penelitian di Cacat Developmental, 32 ( 1), 347-376.
326-344. Sullivan, GM, & Feinn, R. (2012). Menggunakan ukuran-atau efek mengapa
Lohman, DF (1999). Mengurus kami p dan q ini: On menemukan eratnya p nilai tidak cukup. Journal of Graduate Pendidikan Kedokteran, 4,
tionships antara belajar dan kecerdasan. Dalam PL Ackerman, 279-282.
PC Kyllonen, & RD Roberts (Eds.), Belajar dan individu perbedaan: Swaminathan, H., & Rogers, HJ (1990). mendeteksi diferensial
penentu Proses, sifat, dan konten ( pp. 55-76). Washington, DC: APA. Item berfungsi menggunakan prosedur regresi logistik. Jurnal Pengukuran
Pendidikan, 27 ( 4), 361-370.
Lohman, DF (2006). Keyakinan tentang perbedaan antara kemampuan dan Thissen, D., & Steinberg, L. (2009). teori respon butir. Di R. Millsap
prestasi: Dari teori rakyat untuk ilmu kognitif. Roeper Review, 29 ( 1), & A. Maydeu-Olivares (Eds.), Sage handbook dari metode kuantitatif dalam
32-40. psikologi ( pp. 148-177). London: Sage Publications. Thorndike, EL (1921).
Lu, IR, & Thomas, DR (2008). Menghindari dan mengoreksi bias dalam Kecerdasan dan pengukurannya. Jurnal dari
berdasarkan skor-variabel regresi laten dengan item manifest diskrit. Psikologi Pendidikan, 12 ( 3), 124-127.
Structural Equation Modeling, 15 ( 3), 462-490. Tiekstra, M., Minnaert, A., & Hessels, MGP (2016). ulasan ini
Magnuson, K., & Waldfogel, J. (2008). keuntungan stabil dan terhenti prog- meneliti keabsahan konsekuensial penilaian dinamis.
ress: Ketimpangan dan kesenjangan nilai ujian Hitam-Putih. New York, NY: Russell Sage Psikologi Pendidikan, 36, 112-137. Tourangeau, K., Nord, C., L, T., Sorongon, AG,
Foundation. & Najarian, M. (2009).
McNeish, D., & Dumas, D. (2017). model pertumbuhan non-linear sebagai Measures Anak Usia Dini Longitudinal Study, TK Kelas 1998-1999 (ECLS-K): user Gabungan
model surement: Sebuah orde kedua pertumbuhan Model kurva potensi ing measur-. Multivariat pengguna untuk ECLS-K kelas delapan dan k-8 penuh file data sampel dan buku
Behavioral Research, 52 ( 1), 61-85. kode elektronik ( NCES 2009-004). Washington, DC: Pusat Nasional untuk Statistik
McNeish, D., Stapleton, LM, & Silverman, RD (2017). di Pendidikan. Tzuriel, D. (2001). penilaian yang dinamis dari anak-anak. New York,
ubiquity tidak perlu pemodelan linier hirarkis. Metode psikologis, 22 ( 1),
114-140. NY: Kluwer Academic.
Passig, D., Tzuriel, D., & Eshel-kedmi, G. (2016). Meningkatkan anak-anak Tzuriel, D., Bengio, E., & Kashy-Rosenbaum, G. (2011). kognitif
modifiability kognitif oleh penilaian dinamis dalam 3D Immersive lingkungan modifiability, faktor emosional-motivasional, dan karakteristik perilaku di kalangan
Virtual Reality. Komputer & Pendidikan, 95, 296-308. Peltenburg, M., van den berbakat dibandingkan anak-anak tidak berbakat. Jurnal Pendidikan Kognitif dan
Heuvel-Panhuizen, M., & Doig, B. (2009). Psikologi, 10 ( 3), 253-279.
kekuatan matematika khusus-kebutuhan murid: Sebuah format penilaian dinamis berbasis ICT Vermunt, JK (2010). pemodelan kelas laten dengan kovariat: Dua
untuk mengungkapkan pembelajaran murid yang lemah poten- esensial. British Journal of peningkatan pendekatan tiga langkah. Analisis politik, 18, 450-469. Vygotsky, LS
Technology Pendidikan, 40 ( 2), 273-284. (1962). Pemikiran dan bahasa. Cambridge, MA: MIT
Quinn, DM (2015). TK Hitam-Putih kesenjangan nilai ujian: Tekan. (Pekerjaan Asli diterbitkan 1934).
Meneliti ulang peran status sosial ekonomi dan kualitas sekolah dengan data baru. Sosiologi
Pendidikan, 88 ( 2), 120-139. penulis
Rasch, G. (1961). Pada hukum umum dan makna pengukuran
DENIS G. DUMAS, PhD, asisten profesor metode penelitian dan statistik di The University
dalam psikologi. Di Prosiding Berkeley simposium keempat pada statistik
of Denver Morgridge College of Education, 1999 East Evans Avenue, Denver CO, 80.208;
matematika dan probabilitas ( Vol. 4, pp. 321-333). Berkeley, CA: University of
denis.dumas@du.edu. Dalam penelitiannya, ia bekerja untuk memahami lintasan belajar
California Press.
siswa melalui pengembangan dan penerapan model pertumbuhan nonlinier.
Reardon, SF (2011) The pelebaran kesenjangan prestasi antara
kaya dan miskin: Bukti baru dan penjelasan yang mungkin. Di G.
J. Duncan & RJ Murnane (Eds.), kesempatan Ke mana ?: Meningkatnya ketimpangan, DANIEL M. McNEISH, PhD, asisten profesor psikologi kuantitatif di Arizona State
sekolah, dan kehidupan peluang anak-anak ( pp. 91-115). New York, NY: Russell Sage University, PO Box 871.104, Departemen Psikologi, Tempe, AZ, 85.287; dmcneish@asu.edu.
Foundation. Dia berfokus pada metode statistik untuk data berkorelasi dan menantang struktur
Recchia, A. (2010). langkah-langkah R-squared untuk dua tingkat hirarki linier data seperti sampel kecil dan data yang hilang.
model menggunakan SAS. Journal of Software statistik, 32 ( 2), 1-9.
Rey, A. (1934). Sebuah metode untuk menilai educability. arsip de
Psychologie, 53, 297-337.
Naskah diterima November 1, 2016
Riegle-Crumb, C., & King, B. (2010). Menanyai seorang laki-laki Putih
Revisi menerima 20 Maret 2017
keuntungan dalam STEM: Meneliti perbedaan di perguruan tinggi besar dengan jenis
Diterima 16 Mei 2017
kelamin dan ras / etnis. Peneliti pendidikan, 39 ( 9), 656-664.

292 PENELITI PENDIDIKAN

You might also like