- 相關(guān)推薦
基于聯(lián)結(jié)主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計
1 問題的提出與經(jīng)典測驗理論相比,項目反應(yīng)理論(簡稱IRT)由于具有參數(shù)不變性、能進(jìn)行計算機(jī)化自適應(yīng)測驗等優(yōu)點而受到歡迎[1,2],但是也存在著不少問題,首先是目前比較成熟的、得到廣泛應(yīng)用的IRT軟件,如BILOG、MicroCAT等,主要是運用極大似然法或貝葉斯方法進(jìn)行項目參數(shù)和被試能力估計[3],一般都只能處理二值記分的項目,也有少數(shù)軟件可以處理等級記分的項目,例如MULTILOG,但對于連續(xù)記分的項目還缺少估計方法和工具;其次是在運用BILOG、MicroCAT和MULTILOG等軟件時往往需要數(shù)百人的大樣本,而對于小樣本則缺少有效的估計方法,因此需要另尋途徑來解決這些問題。
2 聯(lián)結(jié)主義理論中的級連相關(guān)模型
聯(lián)結(jié)主義理論(或稱人工神經(jīng)網(wǎng)絡(luò))是近年來得到廣泛關(guān)注的認(rèn)知心理學(xué)理論[4,5,6],它一方面可以用來模擬人的認(rèn)知活動,探討人類的信息加工機(jī)制[7],另一方面可以作為一種工具來分析系統(tǒng)的輸入和輸出之間的關(guān)系,特別是當(dāng)系統(tǒng)的輸入和輸出之間難以用顯性的數(shù)學(xué)方程表示時,聯(lián)結(jié)主義模型就可以通過其本身的學(xué)習(xí)功能,在用一組已知的輸入和輸出數(shù)據(jù)對它進(jìn)行訓(xùn)練以后,就可以在一定程度上掌握了該系統(tǒng)內(nèi)部的輸入和輸出之間的關(guān)系,即建立了某種模型。如果我們再給這個經(jīng)過訓(xùn)練的網(wǎng)絡(luò)模型以新的輸入,那么它就可以給出相應(yīng)的輸出值。因此,人們可以利用聯(lián)結(jié)主義模型的這種性質(zhì)來進(jìn)行預(yù)測和參數(shù)估計等活動[8]。
聯(lián)結(jié)主義模型通常由一個輸入層、一個輸出層和若干個隱含層組成,每一層中含有若干個結(jié)點,一個模型中所含的隱含層數(shù)目和各層所含結(jié)點數(shù)目,是由具體問題的性質(zhì)和復(fù)雜程度來確定的。各個結(jié)點之間的聯(lián)結(jié)具有一定的權(quán)重,它的大小反映了相鄰兩個結(jié)點之間相互影響的程度,在模型被訓(xùn)練的過程中,各結(jié)點間的權(quán)重得到了調(diào)整。
聯(lián)結(jié)主義模型通?梢苑譃殪o態(tài)型和動態(tài)型兩種,靜態(tài)型模型的拓?fù)浣Y(jié)構(gòu)是實驗者在一開始的時候就設(shè)計好的,它的訓(xùn)練過程就是調(diào)節(jié)各結(jié)點之間的權(quán)重。動態(tài)型模型的拓?fù)浣Y(jié)構(gòu)是在訓(xùn)練過程中不斷變化的,它能夠隨著訓(xùn)練的進(jìn)行,自動地加入新的隱含結(jié)點,同時也調(diào)整各結(jié)點間的聯(lián)結(jié)權(quán)重,這樣就可以更快地減少訓(xùn)練誤差。
級連相關(guān)模型是動態(tài)型聯(lián)結(jié)主義模型中的一種[9],它的計算精度較高,運算速度較快。在開始訓(xùn)練時,該模型只有輸入層和輸出層,處于最小拓?fù)浣Y(jié)構(gòu)。隨著訓(xùn)練過程的進(jìn)行,它能夠根據(jù)需要自動地逐個加入隱含結(jié)點。該模型的訓(xùn)練分為輸出和輸入兩個階段交替進(jìn)行,首先是輸出階段,在這一階段,模型對聯(lián)結(jié)隱含結(jié)點和輸出結(jié)點間的各權(quán)重進(jìn)行調(diào)整,直到誤差不再減少為止;然后轉(zhuǎn)至輸入階段,在這一階段,模型對于聯(lián)結(jié)輸入結(jié)點和候選隱含結(jié)點間的各個權(quán)重進(jìn)行調(diào)整,并從中選出其輸出變量和網(wǎng)絡(luò)的誤差變量間相關(guān)為最大的候選隱含結(jié)點,把它裝入網(wǎng)絡(luò),這樣使得每次裝入的新隱含結(jié)點都能最大程度地影響誤差的變化。然后再轉(zhuǎn)至輸出階段,這個過程不斷重復(fù),直到達(dá)到預(yù)定的訓(xùn)練精度。在本研究中,由于無法事先確定模型的拓?fù)浣Y(jié)構(gòu),以及為了較快地對模型進(jìn)行訓(xùn)練和達(dá)到較好的訓(xùn)練和測試效果,采用了級連相關(guān)模型作為研究的工具。
3 連續(xù)記分IRT模型
連續(xù)記分IRT模型是二值記分IRT模型的擴(kuò)展,即它的記分不是按照二值邏輯的全對或全錯的方式來進(jìn)行,而是根據(jù)被試答對項目的程度來進(jìn)行記分,如果全對該題目就得滿分。由于各題目的滿分值不一樣,有的是3分、5分、6分或更高的分?jǐn)?shù),為了統(tǒng)一起見,可以對它們進(jìn)行歸一化處理,全部轉(zhuǎn)化為0至1的值。這樣就可以和下面的三參數(shù)邏輯斯諦模型中的P(θ)相一致。Samejima[10]、Muller[11]和Mullenbergh[12]等都對連續(xù)記分IRT模型進(jìn)行過研究,它和二值記分模型一樣,可以用正態(tài)卵形模型和邏輯斯諦模型表示。對于常用的三參數(shù)邏輯斯諦模型,它的表示式為:
P(θ)=c[,i]+(1-c[,i])exp[1.7a[,i](θ-b[,i])]/{1+exp[1.7a[,i](θ-bi)]}
在該模型中,式中的ai、bi和ci分別為第i個項目的區(qū)分度、難度和猜測參數(shù),θ為某個被試的能力,P(θ)為該被試答對第i個項目的概率,它的值為0至1,這是一個連續(xù)的值。
雖然有些學(xué)者對于該模型進(jìn)行了一些研究,但是他們的研究還只是涉及該模型的性質(zhì)、信息函數(shù)的定義、參數(shù)不變性等方面,在具有實用意義的參數(shù)和被試能力估計方面還沒有成熟的結(jié)果。
為了對連續(xù)記分IRT模型的參數(shù)估計問題進(jìn)行研究,作者對目前常用的幾個IRT軟件的算法進(jìn)行分析[13,14],發(fā)現(xiàn)它們的共同特點都是運用統(tǒng)計的方法來進(jìn)行參數(shù)估計,都無法對小樣本情況下的IRT連續(xù)記分模型進(jìn)行參數(shù)估計,于是作者就決定另辟捷徑,在本研究中采用了和常用統(tǒng)計技術(shù)完全不同的聯(lián)結(jié)主義模型(人工神經(jīng)網(wǎng)絡(luò))方法。運用統(tǒng)計方法不能完全解決的問題,并不意味著用其它方法就不能解決,其關(guān)鍵問題是常用的統(tǒng)計參數(shù)估計方法大多是建立在線性模型的基礎(chǔ)上的,而被試的反應(yīng)和IRT中參數(shù)之間的關(guān)系是非線性的,因此在運用統(tǒng)計方法進(jìn)行參數(shù)估計時,要采用大樣本才能得到較好的結(jié)果。而人工神經(jīng)網(wǎng)絡(luò)的輸出和輸入之間的關(guān)系本身就是非線性的,特別值得一提的是,本研究把人工神經(jīng)網(wǎng)絡(luò)的激活函數(shù)設(shè)計為S型的Sigmoid函數(shù),它的表達(dá)式為
f(x)=exp(x)/[1+exp(x)]
它和上述的三參數(shù)邏輯斯諦模型的表示式非常相似,仔細(xì)比較一下,就可以看出它實際上就是IRT模型在c[,i]=0,b[,i]=0,1.7a[,i]=1,θ=x時的特例,因此聯(lián)結(jié)主義模型(人工神經(jīng)網(wǎng)絡(luò))的這種輸出和輸入之間的非線性結(jié)構(gòu)就可以較好地處理IRT中相類似的數(shù)據(jù)關(guān)系。
4 計算機(jī)模擬實驗的設(shè)計和實施
該實驗的基本思想是:把一組被試對于一組項目的反應(yīng)矩陣作為級連相關(guān)模型(以下簡稱為神經(jīng)網(wǎng)絡(luò))的輸入,這組被試的能力θ或該組項目的參數(shù)a、b和c作為該模型的輸出,并且用這些輸入和對應(yīng)的輸出值對該神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,經(jīng)過訓(xùn)練的網(wǎng)絡(luò)就具備了估計θ,a,b或c的能力。當(dāng)輸入一組新的反應(yīng)矩陣時,該網(wǎng)絡(luò)就可以輸出所需的被試能力或項目參數(shù)估計值。本實驗是用計算機(jī)模擬方法來考察運用這種方法得到的估計值和真實值之間的誤差是否能夠達(dá)到相當(dāng)小的程度。
4.1 實驗步驟的設(shè)計
整個實驗分以下幾個步驟進(jìn)行:
(1)運用蒙特卡羅方法產(chǎn)生一組均勻分布的被試能力值θ,一組均勻分布的項目參數(shù)值(包括項目區(qū)分度a、項目難度b和項目猜測參數(shù)c)。被試能力值θ的分布范圍為[-3,+3],項目區(qū)分度a的分布范圍為[0,2],項目難度b的分布范圍為[-3,+3],項目猜測參數(shù)c的分布范圍為[0,0.25]。
(2)根據(jù)項目反應(yīng)模型,讓各個模擬的被試回答各個模擬的項目,產(chǎn)生反應(yīng)矩陣。
(3)將該反應(yīng)矩陣作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練模式的輸入部分,用所要學(xué)習(xí)的項目參數(shù)或被試能力作為訓(xùn)練模式的輸出部分。若要估計被試的能力,就把反應(yīng)矩陣中的每一行作為一個模式,因為它恰好是一個被試對于一組項目的反應(yīng);若要估計項目參數(shù),就把反應(yīng)矩陣中的每一列
作為一個模式,因為它反映了每一個項目被解答的情況。
(4)用上述訓(xùn)練模式對一組神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,直至達(dá)到預(yù)定的精確度為止。在本研究中為了統(tǒng)計上的方便,對30個神經(jīng)網(wǎng)絡(luò)進(jìn)行了訓(xùn)練,預(yù)定的精確度為網(wǎng)絡(luò)的目標(biāo)值和實際輸出值之間的誤差小于0.001。
(5)用經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來估計被試能力和項目參數(shù)。在本研究中需要估計的被試能力和項目參數(shù)的真實值實際上是用蒙特卡羅方法產(chǎn)生的,因此可以計算出估計值(實際輸出值)和真實值的誤差,稱為測試誤差,并用下式表示:
附圖
式中,T[,p.o]為每個測試模式的每個輸出結(jié)點的目標(biāo)值。N[,p.o]為每個測試模式的每個輸出結(jié)點的實際輸出值。p是測試模式的數(shù)目,o是輸出結(jié)點的數(shù)目。根據(jù)測試誤差E的大小,可以看出經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)是否真正可以對項目參數(shù)和被試能力進(jìn)行很好的估計。
4.2 預(yù)備實驗
由于在正式對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練以前,對于要用什么樣的模式來訓(xùn)練沒有任何先驗的知識,為此先進(jìn)行預(yù)備實驗。和正式實驗的步驟一樣,首先運用蒙特卡羅方法產(chǎn)生25個被試對15個項目的反應(yīng)矩陣,用這一矩陣和相應(yīng)的被試能力或項目參數(shù)組成4組訓(xùn)練模式,分別用以估計θ,a,b和c。在對被試能力進(jìn)行估計時,將矩陣的行作為一組神經(jīng)網(wǎng)絡(luò)訓(xùn)練模式的輸入部分,因為矩陣的一行數(shù)據(jù)就代表了一個被試對所有項目的反應(yīng);相應(yīng)被試的θ值作為訓(xùn)練模式的輸出部分,因為它代表了被試的能力值。在對項目參數(shù)進(jìn)行估計時,將矩陣的列作為一組神經(jīng)網(wǎng)絡(luò)訓(xùn)練模式的輸入部分,因為矩陣的一列數(shù)據(jù)就代表了所有被試對一個項目的反應(yīng);相應(yīng)項目的a,b或c值作為訓(xùn)練模式的輸出部分,因為它代表了項目的參數(shù)值。就用這些訓(xùn)練模式分別對4組神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,這4組神經(jīng)網(wǎng)絡(luò)分別對應(yīng)于被試能力和項目的三個參數(shù),每組有30個網(wǎng)絡(luò)。然后,再用蒙特卡羅方法產(chǎn)生另外25個被試對另外15個項目的反應(yīng)矩陣,并用已經(jīng)訓(xùn)練過的網(wǎng)絡(luò)對這個反應(yīng)矩陣估計θ,a,b和c,記錄下測試誤差。其結(jié)果表明,雖然可以進(jìn)行被試能力和項目參數(shù)的估計,但誤差較大,無法達(dá)到實際應(yīng)用的精確度。根據(jù)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的一般規(guī)律,估計出現(xiàn)這一情況的原因有兩條,一是訓(xùn)練模式太少,二是訓(xùn)練模式和測試模式之間沒有任何聯(lián)系,即沒有用“錨題”或“錨人”把它們聯(lián)系起來,改進(jìn)的方法可以是增加訓(xùn)練模式,或運用一定的“錨題”或“錨人”方法,在本研究中先用“錨題”的方法進(jìn)行試驗(具體方法在進(jìn)行正式實驗時詳述),試驗的效果很好,然后進(jìn)行下面的正式實驗。
4.3 正式實驗
(1)步驟1:產(chǎn)生訓(xùn)練矩陣和測試矩陣
運用蒙特卡羅方法產(chǎn)生25個被試(稱為第一組被試)對45個項目(稱為第一組項目)的反應(yīng)矩陣(稱為第一矩陣),這一矩陣在下面的實驗中將作為測試矩陣;從該45個項目中隨機(jī)取出15個項目(稱為第二組項目),再用蒙特卡羅方法產(chǎn)生另外25個被試(稱為第二組被試),令它們和上述隨機(jī)取出的第二組項目起反應(yīng),產(chǎn)生另一個反應(yīng)矩陣(稱為第二矩陣),用它作為訓(xùn)練模式的一部分,由此可見,訓(xùn)練矩陣和測試矩陣之間有15個項目作為“錨題”,如下面圖1所示。
附圖
圖1 被試、項目和反應(yīng)矩陣
圖1中的第三組項目和第三矩陣將在下面作解釋。
(2)步驟2:建立能力訓(xùn)練模式
用“第二矩陣”中的每一行作為一個模式的輸入,其相應(yīng)的25個第二組被試的能力值作為輸出,組成能力訓(xùn)練模式,對一組神經(jīng)網(wǎng)絡(luò)(共30個,稱為第一組神經(jīng)網(wǎng)絡(luò))進(jìn)行訓(xùn)練。
(3)步驟3:建立能力測試模式并進(jìn)行測試
將“第一矩陣”中的每一行作為一個模式的輸入,相應(yīng)的第一組被試的25個能力值作為輸出,組成能力測試模式,用上述經(jīng)過訓(xùn)練的第一組神經(jīng)網(wǎng)絡(luò)對其進(jìn)行測試。這時,實際上是神經(jīng)網(wǎng)絡(luò)對第一組被試的能力值進(jìn)行估計。然后,將估計值和真實值進(jìn)行比較,記錄下測試誤差,如表1左邊第1列所示,要注意的是,表中記錄的是30個網(wǎng)絡(luò)的測試誤差實際值,根據(jù)公式可見,它是所有輸出結(jié)點和所有測試模式的誤差總和。由于本研究中只有一個輸出結(jié)點,有25個測試模式(因為有25個被試),因此要將表中的測驗誤差實際值除以25,得到對單個測試模式的測試誤差,然后,再計算其平均數(shù)M和標(biāo)準(zhǔn)差SD,結(jié)果如表2所示,可以看出測試誤差是比較小的。由此可見,當(dāng)測試模式中有部分項目(本例中為15個項目)和訓(xùn)練模式相同時,經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以對被試的θ進(jìn)行很好的估計。應(yīng)該指出的是,測試模式和訓(xùn)練模式中沒有被試是重復(fù)相同的,這說明經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)確實可以對新的被試進(jìn)行能力估計。
表1 測試誤差
θ a b c
0.129 2.239 2.982 0.065
0.084 1.843 2.976 0.056
0.243 2.016 2.798 0.069
0.324 1.804 2.133 0.058
0.126 2.159 2.556 0.027
0.201 2.224 2.399 0.067
0.288 2.246 2.617 0.043
0.114 1.741 2.834 0.065
0.189 1.937 2.347 0.076
0.249 2.295 2.745 0.092
0.264 2.319 2.433 0.065
0.321 2.382 2.030 0.044
0.105 2.136 2.231 0.093
0.132 2.061 2.244 0.023
0.153 2.019 2.868 0.068
0.279 2
.270 2.042 0.044
0.204 2.196 1.850 0.099
0.102 1.950 2.597 0.059
0.105 1.732 1.709 0.089
0.282 1.764 2.328 0.072
0.228 2.281 2.556 0.114
0.256 2.089 1.961 0.071
0.222 2.445 2.002 0.093
0.210 1.666 2.243 0.035
0.138 1.743 2.441 0.075
0.201 2.438 2.034 0.080
0.171 1.740 2.100 0.106
0.246 2.307 2.594 0.069
0.195 1.577 2.535 0.057
0.213 2.436 2.199 0.057
(4)步驟4:建立項目參數(shù)訓(xùn)練模式
當(dāng)估計項目參數(shù)時,將“第一矩陣”中的每一列作為一個模式的輸入,因為每一列都代表所有被試對一個項目的反應(yīng)情況,于是可以將與各列相應(yīng)項目的a、b或c作為輸出,組成項目參數(shù)訓(xùn)練模式,用該模式對一組神經(jīng)網(wǎng)絡(luò)(共30個,稱為第二組神經(jīng)網(wǎng)絡(luò))進(jìn)行訓(xùn)練。
(5)步驟5:建立項目參數(shù)測試模式并進(jìn)行測試
用蒙特卡羅方法產(chǎn)生15個項目(稱為第三組項目)的參數(shù)a、b、c,并用原先已經(jīng)產(chǎn)生的第一組被試的θ值對它們起反應(yīng),產(chǎn)生反應(yīng)矩陣(稱為“第三矩陣”)。然后,將“第三矩陣”中的每一列作為模式的輸入,相應(yīng)的15個項目的參數(shù)a、b或c作為輸出,組成測試模式。用經(jīng)過訓(xùn)練的第二組神經(jīng)網(wǎng)絡(luò)對其進(jìn)行測試,也就是由神經(jīng)網(wǎng)絡(luò)對第三組項目進(jìn)行參數(shù)估計,然后將估計值和真實值進(jìn)行比較,記錄下測試誤差,如表1的2、3、4列所示。和對θ估計的測試誤差一樣,它是所有測試模式的誤差之和。這里共有15個測試模式(即上述的第三組項目)。因此要把表1中的的2、3、4列數(shù)字除以15,再求平均數(shù)M和標(biāo)準(zhǔn)差SD,得到結(jié)果在表2中。
表2 單個模式測試誤差的平均數(shù)和標(biāo)準(zhǔn)差
統(tǒng)計項 θ a b c
M 0.0027 0.1379 0.1586 0.0045
SD 0.0009 0.0174 0.0227 0.0015
4.4 減少項目參數(shù)的測試誤差的實驗
從表2的數(shù)據(jù)可以看出,上述方法對于θ的估計已經(jīng)達(dá)到了較好的精度,但對于a、b和c的估計誤差仍然比較大。于是再用增加訓(xùn)練模式的方法來試圖減少測試誤差。上述在訓(xùn)練第二組神經(jīng)網(wǎng)絡(luò)時,是用“第一矩陣”中的每一列作為模式的輸入,該矩陣共有45列,相應(yīng)于第一組的45個項目。現(xiàn)在將這組項目擴(kuò)大,即增加到60個,75個,90個和105個,這些項目的參數(shù)都是用蒙特卡羅方法產(chǎn)生的。然后,拿第一組25個被試的θ值和它們起反應(yīng),用產(chǎn)生的反應(yīng)矩陣和相應(yīng)的項目參數(shù)作為訓(xùn)練模式,對30個神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并重復(fù)上述步驟4和步驟5,得到在各種不同數(shù)量的訓(xùn)練模式條件下的a、b和c的單個模式測試誤差的平均數(shù)M和標(biāo)準(zhǔn)差SD,如表3所示。從表中數(shù)據(jù)可以看出,隨著訓(xùn)練項目數(shù)的增加,對項目參數(shù)a、b和c的測試誤差都有明顯降低,當(dāng)項目數(shù)達(dá)到105時,基本上已經(jīng)可以接受參數(shù)估計的結(jié)果了。
附圖
從上面的討論可以看出,在該計算機(jī)模擬實驗中,共有兩組被試,第一組被試是用于能力測試模式的,第二組被試是用于能力訓(xùn)練模式的;該實驗中有三組項目,其中的第二組項目是第一組的一部分,第一組項目用于項目參數(shù)訓(xùn)練和能力測試模式的,第三組項目是用于項目參數(shù)測試模式的,第二組項目是用于能力訓(xùn)練模式的;該實驗中有三個反應(yīng)矩陣,其中的第一矩陣又被分為左、右兩個部分,左部分是由被抽取出來的第二組項目產(chǎn)生的,右部分是由其余項目產(chǎn)生的,第二矩陣的“行”作為能力訓(xùn)練模式,第一矩陣的“行”作為能力測試模式,第一矩陣的“列”作為項目參數(shù)訓(xùn)練模式,第三矩陣的“列”作為項目參數(shù)測試模式。
4.5 實際測驗中的被試能力和項目參數(shù)估計步驟小結(jié)
上述的實驗是在計算機(jī)模擬的情況下了產(chǎn)生的各組被試能力和項目參數(shù),在實際的測驗情況中,可以按照以下步驟來進(jìn)行測驗編制以及被試能力和項目參數(shù)估計:
(1)在已知項目參數(shù)的題庫中取出若干個項目(類似于上述模擬實驗中的第二組項目,這些項目可以是二值記分的,它可以事先通過BILOG等估計得到),再加上自行編制的、未知參數(shù)的若干項目(類似于上述模擬實驗中第三組項目),混合后組成實際的測驗試卷。
(2)用這一試卷對一組真實的被試(類似于上述模擬實驗中的第一組被試)進(jìn)行測試,得到一組實際的結(jié)果。
(3)用蒙特卡羅方法產(chǎn)生一組被試的能力值(類似于上述模擬實驗中的第二組被試),令它和真實試卷中的已知項目參數(shù)的那部分項目(類似于上述模擬實驗中的第二組項目)起反應(yīng),得到反應(yīng)矩陣(類似于上述模擬實驗中的第二矩陣)。
(4)用這一矩陣和這組蒙特卡羅方法產(chǎn)生的被試能力值組成能力訓(xùn)練模式,對一組神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
(5)用真實的測驗結(jié)果矩陣的每一行作為一個模式的輸入部分,輸入上述經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò),其輸出就是真實被試的能力估計值。
(6)運用蒙特卡羅方法產(chǎn)生一組項目參數(shù),根據(jù)上述的模擬實驗,大約要有100個項
目的參數(shù),令真實被試的能力估計值和它們起反應(yīng),得到一個反應(yīng)矩陣(類似于上述模擬實驗中的第一矩陣右部分)。用這個矩陣中的每一列和相應(yīng)的蒙特卡羅方法產(chǎn)生的項目參數(shù)組成訓(xùn)練模式,對另一組神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使之具有估計項目參數(shù)的功能。
(7)將這一經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)對真實測驗中未知參數(shù)的那部分項目(類似于上述模擬實驗中的第三組項目)進(jìn)行參數(shù)估計,從而得到這些項目的參數(shù)估計值。
至此,就把實際的被試能力和項目參數(shù)估計出來了。對照上述模擬實驗的圖1,其中的第一矩陣左部分和第三矩陣是由真實測驗的數(shù)據(jù)產(chǎn)生的,第一矩陣的右部分和第二矩陣是用蒙特卡羅方法產(chǎn)生的。
5 討論
5.1 該方法的優(yōu)點
(1)提出了一種全新的IRT項目參數(shù)和被試能力的估計方法,以往的方法都是建立在統(tǒng)計基礎(chǔ)上的,而該方法則是建立在聯(lián)結(jié)主義理論(人工神經(jīng)網(wǎng)絡(luò))基礎(chǔ)上的。
(2)以往的方法多數(shù)只能對二值記分的IRT模型進(jìn)行參數(shù)估計,本研究中的方法則可以對連續(xù)記分的IRT模型進(jìn)行參數(shù)估計。由于人工神經(jīng)網(wǎng)絡(luò)有很強(qiáng)的學(xué)習(xí)功能,因此從理論上講,它也可以用于等級記分和二值記分的IRT模型,當(dāng)然,這有待于進(jìn)一步的實驗研究。
(3)本研究中用于估計被試能力的樣本只有25人,用于估計項目參數(shù)的樣本只有15個項目,都屬于比較小的樣本,這說明該方法可以用于小樣本的情況,這是以往方法所不能解決的。雖然在對神經(jīng)網(wǎng)絡(luò)訓(xùn)練時可能要用到較多的訓(xùn)練模式,但這些模式是可以用蒙特卡羅方法產(chǎn)生的,并不要擴(kuò)大實際的測驗樣本。
(4)在使用一般的統(tǒng)計方法處理小樣本的數(shù)據(jù)時,確實存在著參數(shù)估計的可靠性問題,但是本實驗的研究表明,在運用與統(tǒng)計方法完全不同的聯(lián)結(jié)主義(人工神經(jīng)網(wǎng)絡(luò))方法處理數(shù)據(jù)時,就有可能克服這一困難。這是什么原因呢?在對人工神經(jīng)網(wǎng)絡(luò)理論進(jìn)行深入探討以后[15~17],可以發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)在對IRT參數(shù)進(jìn)行估計時,并不是一開始就直接根據(jù)原始數(shù)據(jù)來估計參數(shù),而是先對一組神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使它們首先具備了這方面的知識,然后再用訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)對IRT參數(shù)進(jìn)行估計,這種參數(shù)估計的可靠性如何,并不取決于被估計的樣本的大小,而是取決于對這些神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的樣本的數(shù)量、質(zhì)量以及神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和算法。在這其中,訓(xùn)練模式是研究者運用蒙特卡羅方法產(chǎn)生的,它本身并不是一個小樣本,而是一個比較大的樣本;產(chǎn)生這些數(shù)據(jù)的模型就是IRT模型本身,因此數(shù)據(jù)本身的質(zhì)量是有保證的。關(guān)于神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),在大多數(shù)情況下是要通過預(yù)測和調(diào)整學(xué)習(xí)率等參數(shù)來確定隱含層的數(shù)量和其中每一層的神經(jīng)元的數(shù)量,但由于本研究采用的是級聯(lián)相關(guān)模型,它可以根據(jù)反傳誤差的大小自動地調(diào)整網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和聯(lián)結(jié)權(quán)重,因此可以自動地建立優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu),不再需要考慮學(xué)習(xí)率等問題;另外在人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,本研究的程序設(shè)計也使得只有誤差達(dá)到預(yù)定的很小的數(shù)值時,訓(xùn)練過程才停止,這就保證了被訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)是較高質(zhì)量的。由此可見,聯(lián)結(jié)主義(人工神經(jīng)網(wǎng)絡(luò))模型是采用了和一般統(tǒng)計技術(shù)完全不同的思路和方法,它對IRT參數(shù)估計的可靠性主要不是取決于被估計樣本的大小,而是依賴于經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的質(zhì)量,因此我們只要采取一定的措施將神經(jīng)網(wǎng)絡(luò)訓(xùn)練好,就有可能對小樣本的IRT數(shù)據(jù)進(jìn)行可靠的參數(shù)估計。
5.2 需要進(jìn)一步研究的問題
(1)首先是在編制測驗時,需要一部分已知項目參數(shù)的二值記分題目,這對于已經(jīng)建立題庫的學(xué)科來說是可以做到的,但對于尚未建立題庫的學(xué)科,就無法運用這一方法。雖然可以用BILOG等軟件對有關(guān)的二值記分項目進(jìn)行參數(shù)估計,但如果沒有BILOG等軟件又該怎么辦呢?要解決這個問題,需要構(gòu)造更加復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,筆者目前正在構(gòu)造“基于知識的級連相關(guān)模型”,并試圖用它解決這一困難,實驗結(jié)果將另文闡述。
(2)該方法要求實際的測驗中有一部分作為錨題的項目是已知參數(shù)的,那么這一部分錨題至少應(yīng)該是多少項目呢?它們占整個測驗的比例至少要達(dá)到多少呢?本實驗表明若錨題數(shù)量為15,它們在整個測驗中所占比例為三分之一,就可獲得良好結(jié)果,那么少于15個項目行不行?低于三分之一的比例行不行?筆者也正在作進(jìn)一步的實驗。
(3)本研究中用蒙特卡羅方法產(chǎn)生虛擬的被試能力和項目參數(shù),那么它們的分布應(yīng)該是什么形式為最好?人工神經(jīng)網(wǎng)絡(luò)的理論認(rèn)為是均勻分布為最好,因此在本研究中采用了均勻分布。但是在對實際數(shù)據(jù)的分析中,有些數(shù)據(jù)是由真實的被試和項目產(chǎn)生的,不可能保證他(它)們呈完全的均勻分布,那么這種偏離均勻分布的情況對于估計值的誤差有多大影響?另外,是否可以減少虛擬數(shù)據(jù)數(shù)量甚至取消虛擬數(shù)據(jù),而完全采用真實的數(shù)據(jù)?也需要進(jìn)一步探討。
雖然有待于進(jìn)一步研究的問題還很多,但這一實驗畢竟提出了一種新的、有一定應(yīng)用價值的方法。
【參考文獻(xiàn)】
[1] Hambleton R K.Item Response Theory:Principles and Appli-cations.Boston:Kluwer-Nijhoff Pub,1985.58~63
[2] Yu J Y.Item Response Theory and Its Application(in Chin-ese).Nanjing:Jiangsu Education Press,1992.79~84
。ㄓ嗉卧.項目反應(yīng)理論及其應(yīng)用.南京:江蘇教育出版社,1992.79~84)
[3] Baker F B.Item Response Theory:Parameter Estimation Tec-hniques.New York:M.Dekker,1992.66~71
[4] McLead P.Introduction to Connectionist Modeling of Cogn-itive Processes.New York:Oxford University Press,1998.256~261
[5] Mahwah N J,Erlbaum L L.Localist Co
nnectionist Approaches to Human
Cognition.New
York:Oxford University Press,1998,188~192
[6] Anderson,J.A.An Introduction to Neural Networks.Cambrid-ge:The MIT Press,1995,136~143.
[7] Yu J Y.Studying perceptual boundary effects with connec-tionist model(in Chinese).Acta Psychologica Sinica,2001,33(2):123~126
(余嘉元.運用聯(lián)結(jié)主義模型研究知覺邊界效應(yīng)問題,心理學(xué)報,2001,33(2):123~126)
[8] Haykin S S.Neural Networks:A Comprehensive Foundation.Upper Saddle
River,N.N.,Press Hall,1999.178~181
[9] Fahlman S E,Lebiere C.The Cascade-correlation learning architecture.In:Touretzky D S ed.Advances in Neural Informati-on Processing Systems.Los Altos,CA:Morgan Kaufmann,1990.524~532
[10] Samejima F.Homogeneous case of the continuous response
model.Psychometrika,1973,38(3):203~219
[11] Muller H.A Rasch model for continuous ratings.Psychmet-rika,1987,52(2):165~181
[12] Mellenbergh G J.A unidimensional latent trait model forcontinuous item responses.
Multivariate Behavioral Research,1994,29(3):223~236
[13] Qi S Q,Dai H Q.Ding S L.Modern Educational and Psychol-ogical Measurement(in Chinese).Nanchang:Jiangxi Education Pre-ss,1998.126~129
。ㄆ釙啵骱F,丁樹良.現(xiàn)代教育與心理測量學(xué),南昌:江西教育出版社,1998.126~129)
[14] Mislevy R J,Bock R D.Manual of BILOG 3.Scientific Soft-ware,Inc.1990.27~31
[15] Wang W.Artificial Neural Network Theory:Introduction a-nd Application(in Chinese).Beijing:Beijing Aviation and Space University Press,1995.36~41
。ㄍ鮽.人工神經(jīng)網(wǎng)絡(luò)原理——入門與應(yīng)用.北京:北京航空航天大學(xué)出版社,1995.26~41)
[16] Zhao L M,Hu H Y,Wei D H.Multilevel Forward Artificial Neural Network(in Chinese).Beijing:Huanghe Water Conservancy Press,1999.52~56
。ㄚw林明,胡浩云,魏德華等.多層前向人工神經(jīng)網(wǎng)絡(luò),
北京:黃河水利出版社,1999.52~56)
[17] Yu J Y.Modern Cognitive Psychology(in Chinese).Nanjing:Jiangsu Education Press,2001.87~98
。ㄓ嗉卧.當(dāng)代認(rèn)知心理學(xué).南京:江蘇教育出版社,2001.87~98)
【基于聯(lián)結(jié)主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計】相關(guān)文章:
CIMS環(huán)境下基于特征的產(chǎn)品模型08-06
基于XML的三層C/S模型08-06
基于XML的三層C/S模型08-06
淺談基于VaR模型的證券投資組合風(fēng)險分析08-05
基于混合推理的高血壓藥物推薦模型研究08-18
試從修辭的創(chuàng)新談如何培養(yǎng)學(xué)生的創(chuàng)新精神和實踐能力08-07
鄉(xiāng)村自治:皇權(quán)、族權(quán)和紳權(quán)的聯(lián)結(jié)08-11