- 相關(guān)推薦
潛伏語(yǔ)義分析的理論及其應(yīng)用
1.柏拉圖問(wèn)題談起從古希臘哲人柏拉圖(Plato)開(kāi)始,人們就為一個(gè)關(guān)于認(rèn)知的神秘問(wèn)題所困惑:人們?yōu)槭裁茨軌蛟谒麄兯玫降南∩傩畔⒒A(chǔ)上獲得那么多的知識(shí)?這個(gè)問(wèn)題有時(shí)被稱(chēng)為柏拉圖問(wèn)題(注:在柏拉圖對(duì)話錄里,有幾處接觸到知識(shí)來(lái)源問(wèn)題。他在Meno里指出,靈魂是不滅的,已經(jīng)學(xué)習(xí)了所有的事物,所以真正的學(xué)習(xí)無(wú)非是回憶內(nèi)在的、忘記了的事物;在Phaedo里,他又把內(nèi)在論和形式理論聯(lián)系起來(lái),例如“平等”的形式不可能來(lái)自實(shí)際的觀察,而是與生俱來(lái)的;在Cratylus里則認(rèn)為,詞語(yǔ)是天生(physis),不是約定俗成(nomos)的。),有時(shí)被稱(chēng)為“刺激的貧乏”、“缺乏負(fù)面證據(jù)”或語(yǔ)言習(xí)得的邏輯問(wèn)題。這個(gè)問(wèn)題引起了哲學(xué)家、心理學(xué)家、語(yǔ)言學(xué)家、計(jì)算機(jī)科學(xué)家的廣泛興趣,各自提出不同的解釋。Chomsky派(注:Chomsky(1965,1986,2000)在不同場(chǎng)合都以?xún)和~匯習(xí)得為例反復(fù)說(shuō)明這個(gè)問(wèn)題,因?yàn)椤柏?fù)面的證據(jù)”已成為他的語(yǔ)言共項(xiàng)論的主要支柱:Pinker(1994)從進(jìn)化、歷史、解剖、生理和兒童發(fā)育的不同角度觀察了語(yǔ)言的起源,認(rèn)為語(yǔ)言習(xí)得一定是建筑在一個(gè)強(qiáng)有力的和特殊的內(nèi)在機(jī)制,并稱(chēng)之為“語(yǔ)言天性”。)秉承了柏拉圖和笛卡兒的觀點(diǎn)提出了“天賦論”或“內(nèi)在論”,對(duì)這個(gè)問(wèn)題作出了一種回答。但是心理語(yǔ)言學(xué)家MacWhinney(注:Brian Mac Whinney最近在廣東外語(yǔ)外貿(mào)大學(xué)召開(kāi)的心理語(yǔ)言學(xué)與外語(yǔ)教學(xué)討論會(huì)上談到,在他所提出的競(jìng)爭(zhēng)模型里沒(méi)有負(fù)面的證據(jù),只有正面的證據(jù)。)、自然語(yǔ)言處理家Sampson(注:Geoffrer Sampson(1997)寫(xiě)了一本關(guān)于語(yǔ)言天性爭(zhēng)論的專(zhuān)著Educating Eve,認(rèn)為負(fù)面證據(jù)之說(shuō)是自我矛盾的。在Empirical Linguistics(2001)里,更進(jìn)一步指出,負(fù)面證據(jù)是內(nèi)省法臆想出來(lái)的。我們沒(méi)有負(fù)面證據(jù)也能歸納出萬(wàn)有引力定律,為什么要編一本故意把of of the of(負(fù)面證據(jù))排除在外的語(yǔ)法?)卻對(duì)此提出質(zhì)疑。哲學(xué)家Quine對(duì)這個(gè)問(wèn)題做出另一種回答,他舉了一個(gè)所謂"Gavagai"的有趣的例子:一個(gè)到外國(guó)訪問(wèn)的人看到一只兔子,偶然聽(tīng)到他的資料提供人說(shuō)gavagai。在這種證據(jù)貧乏的情況下,gavagai可以指“兔子”(一個(gè)完整的事物),“有皮毛的”(事物的未分離部分),或“天氣不錯(cuò),是嗎?”(事物發(fā)生的時(shí)間段),他認(rèn)為純粹以經(jīng)驗(yàn)為基礎(chǔ)的客觀真理和意義根本不存在,這簡(jiǎn)直是“歸納法的恥辱”(scandal of induction)。對(duì)田野作業(yè)的語(yǔ)言學(xué)家來(lái)說(shuō),分析和綜合的區(qū)別并不存在。進(jìn)化心理學(xué)家Shepard(1987)卻認(rèn)為柏拉圖問(wèn)題是心理學(xué)的核心問(wèn)題,關(guān)于概括和相似性的普遍理論對(duì)心理學(xué)就等于牛頓定律對(duì)物理學(xué)那樣重要。
盡管大多數(shù)人都承認(rèn)語(yǔ)言能力的遺傳性,但是這種生物機(jī)制的存在并沒(méi)有解決Shepard所提出的概括(在母語(yǔ)習(xí)得里,更成為“過(guò)度概括”)和相似性的問(wèn)題。這個(gè)歸納性難題經(jīng)常被看成是范疇化的問(wèn)題,那就是說(shuō)我們必須找出的這樣一個(gè)機(jī)制,足以把一系列刺激、語(yǔ)詞或概念(例如獵豹和老虎)看成是一類(lèi)的(相似的)事物。但是相似性以什么為基礎(chǔ)卻眾說(shuō)紛紜,有特征論、原型論,范式論、心理本質(zhì)論、心理語(yǔ)境論,等等,不一而足(桂詩(shī)春2000)。這些理論模型都旨在提出一些制約,以縮小歸納(也就是說(shuō)學(xué)習(xí))所要解決的問(wèn)題空間。就兒童詞匯習(xí)得而言,一些心理語(yǔ)言學(xué)家假設(shè)存在一些對(duì)詞語(yǔ)賦予意義的制約,兒童在早期習(xí)得詞匯時(shí)都假定:多數(shù)詞語(yǔ)在感知上都是對(duì)應(yīng)物體的名稱(chēng);兩個(gè)詞通常都有兩個(gè)不同的意義;享有共同聲音的詞語(yǔ)通常都是意義上相關(guān)的;一個(gè)不熟悉的言語(yǔ)聲音可能指一些兒童還未能掌握其對(duì)應(yīng)詞的東西。但是這也不是沒(méi)有問(wèn)題,Landauer與Dumais(1997)指出,一個(gè)問(wèn)題是我們不知道某一個(gè)制約是否真正存在;少年兒童雖然假定相同的物體只有一個(gè)名稱(chēng),但是他們所接觸的語(yǔ)言是否也是這樣呢?又如某一種制約的產(chǎn)生是逐步進(jìn)化的,還是通過(guò)認(rèn)知而起作用的一種普遍性制約?還有一個(gè)問(wèn)題是,某些制約的存在和產(chǎn)生出于邏輯的需要,但這又是不夠的,可以從3方面看:1)某一套制約是否邏輯上和語(yǔ)用上充分,也就是說(shuō)使用了它們以后是否就能解決問(wèn)題?例如兒童認(rèn)為沒(méi)有同義詞,這在多大程度上能幫助他們學(xué)習(xí)詞匯?2)和方法論有關(guān),怎樣才能獲得前一個(gè)問(wèn)題的答案?怎樣知道某一些特定制約的組合應(yīng)用到自然環(huán)境的輸入時(shí)才能解決問(wèn)題?3)怎樣決定一個(gè)提出來(lái)的模型是否具有心理現(xiàn)實(shí)性?Landauer認(rèn)為要解決這些問(wèn)題必須使用模擬的模型。而他和其他幾個(gè)研究人員Foltz、Dumais、Deerwester、Furnas等人(Deerwester et.al.1990)所提出的,而又得到著名語(yǔ)篇研究者Kintsch支持的模型就是潛伏語(yǔ)義分析(Latent Semantic Analysis,LSA)。這是一個(gè)多維數(shù)的線性組合模型,“這個(gè)模型只是一個(gè)普遍的學(xué)習(xí)機(jī)制,本身并不體現(xiàn)人類(lèi)知識(shí),但是它通過(guò)分析一個(gè)很大的自然語(yǔ)言文本語(yǔ)料庫(kù)來(lái)生成一個(gè)足以體現(xiàn)詞語(yǔ)和文本片段的相似性的表征!
2.LSA的理?yè)?jù)
從潛伏性語(yǔ)義分析的角度看來(lái),歸納就是減少維數(shù)(reduction of dimensionality)。Landauer舉了一個(gè)形象的例子,一個(gè)人站在高原上打電話告訴他的朋友三間房子的位置,A和B、A和C的距離都是5個(gè)單位,而B(niǎo)和C的距離則是8個(gè)單位。在他的朋友腦海里就形成一個(gè)兩個(gè)維數(shù)的三角形。如果他繼續(xù)補(bǔ)充說(shuō),這三間房子是在一條直線上,他的朋友就會(huì)說(shuō),他一定是看錯(cuò)了這三個(gè)房子的距離。A和B、C的距離應(yīng)該是4.5個(gè)單位,而B(niǎo)和C的距離應(yīng)該是9個(gè)單位。因?yàn)樵谝粋(gè)兩維數(shù)的三角形里,其底邊應(yīng)該是其他兩個(gè)邊的和。這說(shuō)明,減少維數(shù)可改善估算。在研究工作中,研究人員往往通過(guò)減少維數(shù)來(lái)降低計(jì)算的復(fù)雜性,即把數(shù)據(jù)作平滑化處理:簡(jiǎn)化數(shù)據(jù)并填補(bǔ)所缺的節(jié)點(diǎn)。在東京召開(kāi)的聯(lián)合國(guó)大學(xué)主持的混沌對(duì)科學(xué)和社會(huì)的沖擊學(xué)術(shù)會(huì)議上,兩個(gè)著名的混沌學(xué)專(zhuān)家Feigenbaun和Aihara就一致認(rèn)為,人腦由100億個(gè)神經(jīng)元組成,而我們要對(duì)它的相互作用進(jìn)行觀察只能選取一個(gè)極低的維數(shù)。(注:這次大會(huì)的文集我國(guó)已由楊立、劉巨彬等譯,劉式達(dá)、杜先之等校,湖南科學(xué)技術(shù)出版社出版,題為《混沌:對(duì)科學(xué)和社會(huì)的沖擊》,兩人的對(duì)話見(jiàn)該書(shū)394-395頁(yè)。)在統(tǒng)計(jì)學(xué)中,這種減少維數(shù)的方法,例如因子分析、多維數(shù)量表也經(jīng)常被采用,Osgood(1971)在70年代所做的語(yǔ)義微分分析就用過(guò)因子分析。同樣地,我們也可以把兩個(gè)詞的語(yǔ)義相似性表示為距離:距離越近,相似性就越強(qiáng)。假定兩個(gè)詞在一個(gè)語(yǔ)篇單位(短語(yǔ)、句子或段落)中出現(xiàn)的頻率和它們的語(yǔ)義距離成反比例(頻率越多,距離越近),那它們就和語(yǔ)義相似性直接相關(guān)。我們可以通過(guò)觀察兩個(gè)
詞在同一單位中出現(xiàn)的相對(duì)頻率來(lái)估算出其語(yǔ)義相似性。因?yàn)槿藗冞M(jìn)行交際時(shí),都會(huì)使用一些基本成分(如詞),使兩個(gè)詞語(yǔ)中存在某種相對(duì)的相似性。發(fā)送者會(huì)選擇同一語(yǔ)義空間彼此相近的詞,它們就會(huì)有不同的語(yǔ)義距離;而接收者則會(huì)按照它們?cè)谕簧舷挛闹械南鄬?duì)頻率來(lái)估算這些距離。但是自然語(yǔ)言中的詞語(yǔ)數(shù)量極為龐大,而接收到的詞語(yǔ)卻數(shù)量極少,例如兩個(gè)詞的頻率都是百萬(wàn)分之一,它們雖然有相關(guān)的意義,也不大可能會(huì)一起發(fā)生?墒侨绻覀兊慕邮諜C(jī)制按照統(tǒng)計(jì)知識(shí)把接受到的詞語(yǔ)表示為相似的語(yǔ)義空間,即同一個(gè)維數(shù)的各個(gè)節(jié)點(diǎn),情況就會(huì)大大改善。
附圖
基于上述的假設(shè),潛伏性語(yǔ)義分析可以用來(lái)比較不同語(yǔ)篇的語(yǔ)義相似性。研究語(yǔ)篇理解的首要目標(biāo)是:了解有哪些足以影響讀者從文本材料中抽取和保存信息的能力的因素,例如讓受試寫(xiě)一篇文本材料的摘要,然后再看他們從文本中獲取了什么信息。這意味著把讀者的文本表征(認(rèn)知模型)和原來(lái)的文本表征加以比較,即把摘要中每一個(gè)句子的信息和文本中的句子信息加以比較。但是要對(duì)信息進(jìn)行比較并非易事,它要求掃描原文,找出信息的所在。而且受試所寫(xiě)的摘要往往并不全都采用原文中的詞語(yǔ)。所以光比較詞語(yǔ)也不成。研究人員要比較的是摘要和原來(lái)文本的語(yǔ)義內(nèi)容。Kintsch(1988,1998)所提出的構(gòu)建整合模型(construction-integration model)就是一個(gè)觀察讀者對(duì)文本表征的認(rèn)知模型,它把讀者摘要的語(yǔ)義信息表示為一些語(yǔ)義成分組合,稱(chēng)之為命題(prepositions)。文本中的每一個(gè)子句是一個(gè)命題(如the red rose和the rose is red,都屬于一個(gè)命題)。這些命題根據(jù)各種范疇連接起來(lái),例如看它們是否共享中項(xiàng)(arguments)和指稱(chēng)(referents)。一個(gè)文本的所有命題組合起來(lái)就成為文本結(jié)構(gòu)。不少實(shí)驗(yàn)都證明命題是人們的心理處理單位(如Graesser1981)。對(duì)文本和受試對(duì)它回述進(jìn)行命題分析可以對(duì)一系列語(yǔ)義基本元素加以比較,其好處是這種比較并非表層結(jié)構(gòu)的比較。但問(wèn)題是,目前還沒(méi)有生成命題的自動(dòng)化程序,因?yàn)橛?jì)算機(jī)必須對(duì)文本進(jìn)行正確的語(yǔ)法分析,并且了解詞語(yǔ)的正確意義。于是可以利用計(jì)算機(jī)來(lái)對(duì)語(yǔ)義相似性進(jìn)行比較的潛伏性語(yǔ)義分析就應(yīng)運(yùn)而生了。
LSA原來(lái)是建筑在以語(yǔ)義內(nèi)容的基礎(chǔ)上以改善信息提取的一種設(shè)計(jì),稱(chēng)為潛伏性語(yǔ)義索引(Latent Semantic Indexing,LSI)。在現(xiàn)實(shí)生活里,往往同一個(gè)語(yǔ)義概念表示為不同的詞語(yǔ),如果以原詞作為檢索單位,就費(fèi)時(shí)失事。例如“電子計(jì)算機(jī)”往往又可以簡(jiǎn)稱(chēng)為“計(jì)算機(jī)”或“電腦”,甚至“服務(wù)器”和“機(jī)器”。如果在檢索中只鍵入任何一種說(shuō)法就能查出“電子計(jì)算機(jī)”,不是方便得多嗎?這種方法還可以避免同義性的問(wèn)題。LSA的基本假設(shè)是不同文件(文件可大可小,可以是詞語(yǔ)所出現(xiàn)的整個(gè)語(yǔ)境,也可以是某些文本、段落和句子)的詞語(yǔ)使用型式存在著某種“潛伏的”結(jié)構(gòu),而使用一些統(tǒng)計(jì)的方法可以估量出這種潛伏性結(jié)構(gòu)。這些方法通過(guò)分析詞語(yǔ)和文件之間的聯(lián)系,產(chǎn)生一個(gè)在相同語(yǔ)境中使用的詞語(yǔ)將會(huì)在語(yǔ)義上更為密切聯(lián)系的表征。例如:
(1)The U.S.S.Nashville arrived in Colon harbor with 42 marines
(2)With the warship in Colon harbor,the Colombian troops withdrew.
"warship"所出現(xiàn)的語(yǔ)境(LSA稱(chēng)之為“向量”,vector)和"Nashville"所出現(xiàn)的語(yǔ)境相似,兩者的上下文都有"Colon"和"harbor"。LSA所使用的技巧可以自動(dòng)找出這些更深層的聯(lián)系的結(jié)構(gòu)。
又如我們讀到下面的句子:
(3)John is Bob's brother and Mary is Anne's mother.
(4)Mary is Bob's mother.
這兩句話里并沒(méi)有出現(xiàn)表示親屬關(guān)系的sister,daughter,father,son等詞語(yǔ),但第(4)句使我們意識(shí)到Bob和Ann是兄弟姐妹,Anne是John的女兒,John是Ann的父親,Bob是Mary的兒子。當(dāng)然LSA所推斷出的詞際關(guān)系往往并非完全符合邏輯,它所揭示的僅是相似性關(guān)系。這些關(guān)系相互牽連和制約,可以產(chǎn)生出一些模糊的間接推斷,關(guān)系上可強(qiáng)可弱,邏輯上可對(duì)可錯(cuò)。
3.怎樣做LSA?
LSA以大規(guī)模的語(yǔ)料庫(kù)為基礎(chǔ),使用了一種完全自動(dòng)化的數(shù)學(xué)/統(tǒng)計(jì)技巧來(lái)抽取和推斷詞際關(guān)系,這種技巧就是線性代數(shù)中的奇異值分解(Singular Value Decomposition,SVD)。從概念上說(shuō),LSA模型可以理解為一個(gè)具有三層的神經(jīng)網(wǎng)絡(luò)系統(tǒng)。在SVD里,一個(gè)m×n的長(zhǎng)方形矩陣{A}(m是行,n是列,m>n),被分解為三個(gè)矩陣:一個(gè)是m×n的成分矩陣{U},把原來(lái)的列的實(shí)體表示為派生的正交因子值的向量;另一個(gè)矩陣{w}用同樣的方法表示原來(lái)列N×N的實(shí)體;第三個(gè)矩陣{V}的轉(zhuǎn)置(transpose)是一個(gè)包括有標(biāo)度值的直角矩陣(N×N)。
{A}={U}{w}{V}[T]
這三個(gè)矩陣相乘就可以恢復(fù)原來(lái)矩陣。如果我們?cè)诨謴?fù)時(shí)減少維數(shù),就可以取得壓縮語(yǔ)義空間的效果。
附圖
下面是一個(gè)常被引用的例子:現(xiàn)有9條技術(shù)備忘錄的題目,其中5條是關(guān)于人和計(jì)算機(jī)交互作用的,4條是關(guān)于數(shù)學(xué)圖論的。這些題目在概念上不大相關(guān),它們構(gòu)成一個(gè)9列12行的矩陣,每一行是在這些題目中出現(xiàn)起碼兩次的實(shí)義詞(均標(biāo)為斜體),整理為表1。
c1:Human machine interface for ABC computer applications
c2:A survey of user opinio
n of computer system response time
c3:The EPS user interface management system
c4:System and human system engineering testing of EPS
c5:Relation of user perceived response time to error measurement
m1:The generation of random, binary,ordered trees
m2:The intersection graph of paths in trees
m3:Graph minors IV:Widths of trees and well-quasi-ordering
m4: Graph minors:A survey
表1
附圖
使用SVD技術(shù),就得到下列的3個(gè)矩陣,如表2:
表2
附圖
然后我們?nèi)∵@三個(gè)矩陣的頭兩列(即取其兩個(gè)維數(shù))來(lái)加以還原,便得到下面的矩陣(表3):
表3
附圖
我們可以首先看m4列的survey和trees。trees這個(gè)詞在m4題目里并沒(méi)有出現(xiàn),但是m4里有Graph minors,而m3里也有Graph minors,且出現(xiàn)了trees,所以在原來(lái)矩陣?yán)餅?的值被變?yōu)?.66,它表示在有g(shù)raph和minors的題目的無(wú)限樣本中,trees可能出現(xiàn)0.66倍。相反地,survey在原來(lái)矩陣中的m4中為1,但是卻變?yōu)?.42,反映了它在這樣的上下文里并非人們所期望的,不足以表示這個(gè)題目的特征。我們還可以比較human和user,human和minors在原來(lái)矩陣和后來(lái)矩陣的相關(guān)系數(shù):前者原為-.38,后者原為-.29,現(xiàn)分別提高到.94和-.83。而在原來(lái)的矩陣?yán),human并沒(méi)有和user或minors一起出現(xiàn)。減少了維數(shù)后顯示human和user是更為相似,而human和minors則相反,更為不相似。
LSA可以用來(lái)揭示一些隱含的內(nèi)部關(guān)系。讓我們?cè)倏戳硪粋(gè)例子。中國(guó)學(xué)生英語(yǔ)語(yǔ)料庫(kù)(桂詩(shī)春、楊惠中,2002)是一個(gè)有100萬(wàn)詞的作文語(yǔ)料庫(kù),對(duì)5種不同水平——中學(xué)生(st2)、大學(xué)英語(yǔ)4級(jí)(st3)、大學(xué)英語(yǔ)6級(jí)(st4)、專(zhuān)業(yè)英語(yǔ)低年級(jí)(st5)、專(zhuān)業(yè)英語(yǔ)高年級(jí)(st6)——的寫(xiě)作失誤進(jìn)行了標(biāo)注(共有61種)。最常見(jiàn)的失誤有21種,占全部失誤的87%。根據(jù)Landauer等人的意見(jiàn),在進(jìn)行SVD之前,必須對(duì)這些數(shù)據(jù)作預(yù)處理:1)把每個(gè)頻數(shù)+1,然后轉(zhuǎn)換成對(duì)數(shù);2)把每一列的數(shù)值計(jì)算為-plog p,然后除以每列的平均信息量(即熵,entropy)。其公式(Maletic et al.1999)為:
附圖
這樣做的目的是通過(guò)估算每一個(gè)詞項(xiàng)在每一個(gè)語(yǔ)篇的重要性(即該詞項(xiàng)與它所出現(xiàn)的語(yǔ)篇所提供的信息量的程度成反比例),對(duì)它的出現(xiàn)率加權(quán)。在信息提取中經(jīng)常使用這種轉(zhuǎn)換,可獲顯著效果。限于篇幅,我們略去了計(jì)算的中間數(shù)據(jù)和經(jīng)SVD處理后(包括將維數(shù)減為2個(gè))結(jié)果(注:我們使用的工具是Excel的“數(shù)據(jù)分析”和國(guó)際牲畜研究院Greg Hood所編制的,可在Excel上運(yùn)轉(zhuǎn)的Poptools2.4版。),只報(bào)告幾個(gè)有意義的變化,這些變化說(shuō)明,由于減少了維數(shù),幾種學(xué)習(xí)者的言語(yǔ)失誤的關(guān)系都有所微調(diào),趨于更為合理。例如第一種失誤是拼寫(xiě)失誤(Fml)。轉(zhuǎn)換值并沒(méi)有改變?cè)瓉?lái)的次序,大學(xué)英語(yǔ)4級(jí)和6級(jí)學(xué)習(xí)者的拼寫(xiě)失誤比中學(xué)學(xué)習(xí)者略多,因?yàn)樗鼈兊恼Z(yǔ)源來(lái)自CET考試的命題寫(xiě)作,而中學(xué)生則是自由作文的居多。命題寫(xiě)作有特定的用詞要求,往往成為拼寫(xiě)失誤的來(lái)源(如要求學(xué)習(xí)者用pollution)。現(xiàn)在的分析并沒(méi)有把特定用詞要求考慮在里面,而僅就失誤的頻數(shù)和其他失誤的關(guān)系而言,經(jīng)過(guò)SVD處理后,這種失誤的發(fā)生率呈現(xiàn)為逐步略有降低的趨勢(shì),較符合中國(guó)英語(yǔ)學(xué)習(xí)者的實(shí)際。和寫(xiě)作用詞有很大聯(lián)系的是用錯(cuò)了詞(wd3),經(jīng)過(guò)SVD處理后的變化如下:
Fm1 St2 St3 St4 St5 St6
原始頻數(shù) 1929 2877 2113 1827 1687
轉(zhuǎn)換值 3.30 3.47 3.34 3.27 3.24
處理后值 3.52 3.46 3.36 3.25 3.00
Wd3 St2 St3 St4 St5 St6
原始頻數(shù) 1102 1635 1815 757 360
轉(zhuǎn)換值 3.27 3.45 3.50 3.09 2.75
處理后值 3.30 3.49 3.44 2.99 2.84
經(jīng)處理后,St3仍然是最高的,但St4的絕對(duì)頻數(shù)雖然是最高的,處理后則比St3略低。St6的絕對(duì)頻數(shù)比St5的少一半,但處理后的值為2.84并沒(méi)有比2.99少一半,僅低0.15倍,這說(shuō)明用錯(cuò)詞在St6中仍然是一個(gè)常犯的失誤。句法結(jié)構(gòu)(Sn8)的失誤也是中國(guó)學(xué)習(xí)者常見(jiàn)的失誤,下面是另一個(gè)SVD處理后的變化:
Sn8 St2 St3 St4 St5 St6
原始頻數(shù) 1104 446 862 493 232
轉(zhuǎn)換值 3.27 2.85 3.16 2.90 2.55
處理后值 3.14 3.06 2.97 2.90 2.68
從絕對(duì)頻數(shù)來(lái)看,St3似乎比St2和St4、St5都少,處理后則顯得較為合理,趨于逐步降低。
一般來(lái)說(shuō),在SVD處理后還可以比較處理前后的余弦cosine(θ)(注:余弦Cosine(θ)為兩個(gè)向量的夾角,比相關(guān)系數(shù)更能表示相似性的程度。其公式為:),有時(shí)亦用相關(guān)系數(shù)來(lái)表示。經(jīng)過(guò)計(jì)算,相關(guān)系數(shù)從處理前的0.604增至0.728。拼寫(xiě)失誤是中國(guó)學(xué)習(xí)者最容易犯的失誤,和各種失誤都有密切的關(guān)系。經(jīng)處理后,它的平均相關(guān)系數(shù)從0.614提高到0.817。
4.LSA的應(yīng)用
LSA以矩陣代數(shù)的SVD為依托,而SVD在信息處理,如圖象壓縮、噪音過(guò)濾、開(kāi)發(fā)軟件的源代碼等方面都得到較廣泛的使用。LSA在語(yǔ)篇處理和語(yǔ)義的分析和提取方面均有廣闊應(yīng)用前景。
第一、我們要看LSA模型是怎樣回答我們柏拉圖問(wèn)題。需要證明的是通過(guò)大量接觸自然文本,人們能否獲得語(yǔ)義相似性的知識(shí)?Landauer等人先對(duì)一個(gè)有代表性的英語(yǔ)語(yǔ)料庫(kù)(包括美聯(lián)社的新聞、給學(xué)生看的Grolier's美國(guó)大百科詞典和有代表性的兒童讀物)做SVD分析,然后用這個(gè)模型來(lái)做一次TOEFL同義詞測(cè)試(共80個(gè)項(xiàng)目)。為了模擬人的行為,他們把題目中的測(cè)試詞和每個(gè)選項(xiàng)的余弦都計(jì)算出來(lái),然后讓LSA模型來(lái)選擇意義最接近的詞。LSA的答對(duì)率為65%,相當(dāng)于在美國(guó)的來(lái)自非英語(yǔ)國(guó)家的考生的平均答對(duì)率。但是要進(jìn)一步回答兒童怎樣在“負(fù)面的證據(jù)”的情況下習(xí)得詞匯,還要考慮效率問(wèn)題。Landauer等人認(rèn)為,歸納方法取決于重建一個(gè)處于高維數(shù)空間的多重相似性系統(tǒng),這樣出現(xiàn)在局部上下文的事件也就可以反映高層次語(yǔ)義空間的相似性。因?yàn)樗姆种脑~語(yǔ)知識(shí)都是來(lái)自間接歸納,即接觸一些那些詞語(yǔ)并不在其中出現(xiàn)的文本。他們進(jìn)一步完善其語(yǔ)料庫(kù)的選詞辦法,并對(duì)照Carroll等人的Word Frequency Book(1971)所提供的數(shù)據(jù),推斷出每一段文本后的詞匯增長(zhǎng)率為0.20。如果一般學(xué)生每天平均讀50段文字,就可每天增長(zhǎng)10個(gè)新詞。
第二、在信息提取方面,出現(xiàn)了LSI技術(shù),以取代一般的主題詞檢索。早在80年代,Dumais等人(1982)對(duì)一個(gè)包括有1033個(gè)醫(yī)學(xué)文獻(xiàn)的摘要和題目的數(shù)據(jù)庫(kù),自動(dòng)檢索到出現(xiàn)兩次以上的詞語(yǔ)5823個(gè),經(jīng)過(guò)SVD處理取得100個(gè)因子,然后對(duì)數(shù)據(jù)庫(kù)提出30個(gè)問(wèn)題,LSI比原來(lái)的主題詞檢索改善了13%。后來(lái)技術(shù)有所提高,據(jù)Berry等人(1994)對(duì)幾個(gè)系統(tǒng)的檢驗(yàn),LSI的改善程度已達(dá)30%。Deerwester等人(1990)認(rèn)為,LSI的優(yōu)點(diǎn)是,它可以解決同義性、多義性和詞語(yǔ)依賴(lài)性(term dependency)三方面的問(wèn)題。LSI的研究還在發(fā)展,一些令人興奮的進(jìn)展是信息過(guò)濾、增加檢索問(wèn)題的長(zhǎng)度(TREC系統(tǒng)可以提出長(zhǎng)達(dá)50個(gè)詞的問(wèn)題來(lái)進(jìn)行檢索)和進(jìn)行跨語(yǔ)種檢索(Rosario 2000)。
第三、文本相似性研究。在語(yǔ)篇理解方面,F(xiàn)oltz,Kintsch和Landauer(1993)等人用LSA來(lái)自動(dòng)化處理語(yǔ)篇連貫(以心臟科學(xué)文獻(xiàn)為試驗(yàn)樣本),把一個(gè)句子或片段和接著的句子或片段的連貫性來(lái)分析比較,其相關(guān)系數(shù)高達(dá).90。在他們所建立的網(wǎng)站http://LSA.colorado.edu上面提供了一些已經(jīng)根據(jù)心理學(xué)、百科全書(shū)、文學(xué)成語(yǔ)、心臟科學(xué)的語(yǔ)料庫(kù)給讀者進(jìn)行網(wǎng)上比較文本相似性研究。例如我們隨機(jī)從一本認(rèn)知心理學(xué)教科書(shū)里找了兩段在詞語(yǔ)上沒(méi)有多大聯(lián)系的話:
"These findings indicate a considerable degree of functional equivalence of
perception
and imagery.However,it is possible that subjects in the imagery condition merely
made
plausible guesses about the fields of resolution,and did not actually rely on
imagery
at a11."
"While it is very straightforward to see that previous learning can facilitate
problem
solving by supplying well-practiced skills and strategies,it is perhaps less obvious that knowledge acquired
in the past can sometimes disrupt,and interfere with,subsequent attempts to solve
problems."
這兩段話在用詞方面沒(méi)有太多相同之處,但是和心理學(xué)語(yǔ)料庫(kù)的維數(shù)比較以后,它們的相關(guān)是.82。
第四、使用LSA來(lái)進(jìn)
行寫(xiě)作質(zhì)量評(píng)估。Landauer,Laham和Foltz(1998)試驗(yàn)使用5種不同的方法來(lái)應(yīng)用LSA對(duì)作文題目的答案進(jìn)行評(píng)分,如讓評(píng)分員對(duì)一些作文樣本進(jìn)行評(píng)分,然后計(jì)算出評(píng)了分的作文和未評(píng)分的作文的余弦,再根據(jù)相似性權(quán)重把最相似的作文分?jǐn)?shù)的平均分賦予未評(píng)分的作文,等等。這5種方法所評(píng)出的分?jǐn)?shù)的相關(guān)程度接近于它們和專(zhuān)家評(píng)分的相關(guān)程度。在另一項(xiàng)研究中,他們還用這方法來(lái)評(píng)估8個(gè)考試,題目從心臟解剖和生理學(xué)到心理學(xué)概念,美國(guó)歷史,當(dāng)前社會(huì)問(wèn)題和市場(chǎng)問(wèn)題。通過(guò)元分析發(fā)現(xiàn)LSA和專(zhuān)業(yè)評(píng)分員(來(lái)自教育考試服務(wù)公司或其他專(zhuān)業(yè)機(jī)構(gòu)或課程導(dǎo)師)的相關(guān)高于專(zhuān)業(yè)評(píng)分員之間的相關(guān)。LSA評(píng)分的可靠性說(shuō)明一個(gè)篇章的全面的語(yǔ)義表征主要決定于詞的選擇,而對(duì)句法使用則要求不高。
第五、使用LSA來(lái)模擬心理語(yǔ)言學(xué)試驗(yàn)。語(yǔ)義啟動(dòng)是一種常用的試驗(yàn),Landauer用LSA方法來(lái)模擬Till等人(1988)的判斷多義詞的試驗(yàn),結(jié)果完全一致。這些結(jié)果顯示在語(yǔ)篇理解中,忽略了詞序、句子結(jié)構(gòu)、非線性的詞與詞的相互作用的詞義關(guān)系也能夠預(yù)測(cè)人類(lèi)的行為。Kintsch等人(1999)還通過(guò)LSA所獲得的信息提出長(zhǎng)時(shí)工作記憶(Long-term Working Memory,LTWM)的理論。他認(rèn)為人類(lèi)的記憶系統(tǒng)包括了感知特征、語(yǔ)言特征、命題結(jié)構(gòu)、宏結(jié)構(gòu)、語(yǔ)境模型、控制結(jié)構(gòu)、目標(biāo)、詞匯知識(shí)、框架、一般知識(shí)、情節(jié)記憶等等成分。它們對(duì)理解語(yǔ)篇至為重要,遠(yuǎn)遠(yuǎn)超過(guò)短時(shí)記憶。LTWM認(rèn)為在某些條件下工作記憶可以大大延伸,LSA在某種程度模擬了這種機(jī)制,實(shí)際上也模擬了人類(lèi)的知識(shí)系統(tǒng)。大部分人類(lèi)知識(shí)都體現(xiàn)為語(yǔ)言,而LSA通過(guò)減少維數(shù)來(lái)篩選它所處理的信息,從而保留了它所處理的文本的主要語(yǔ)義關(guān)系。例如在LSA處理的文件中,mountain和mountains的相關(guān)系數(shù)可能很低,但是通過(guò)減少維數(shù)后,它們的相關(guān)卻是.81。它的推斷是這兩個(gè)詞在語(yǔ)義上有密切聯(lián)系。同樣地,圍繞mountain還可以找到peaks,rugged,ridges和climber,而圍繞mountains又可以找到peaks,rugged,plateaus和foothills。我們所需要的正是這些信息,以認(rèn)識(shí)人們?cè)诶斫膺^(guò)程中是怎樣通過(guò)LTWM來(lái)激活知識(shí)的。又如"The band played a waltz."(樂(lè)隊(duì)奏了一曲華爾茲)和"Mary loved to dance." (瑪麗喜歡跳舞)這兩句話雖然無(wú)甚直接聯(lián)系,但它們都分別激活了一些第三方的互有聯(lián)系的語(yǔ)詞,故其余弦為.45。
第六、在LSA的基礎(chǔ)上,Kintsch等(2000)及Steinhart(2001)又開(kāi)發(fā)了訓(xùn)練學(xué)生寫(xiě)作的軟件。這個(gè)軟件是一個(gè)在線的輔導(dǎo)學(xué)生寫(xiě)摘要的軟件,叫做Summary Street。Steinhart認(rèn)為,寫(xiě)摘要是一種比較難的技能,低年級(jí)學(xué)生(如初中生)往往依靠“抄和減”的策略來(lái)寫(xiě)摘要,而高年級(jí)的學(xué)生(如高中生)則使用較復(fù)雜的壓縮規(guī)則,如重建和歸納。寫(xiě)摘要訓(xùn)練不僅僅是一種寫(xiě)作技巧的訓(xùn)練,它可以提高學(xué)生的閱讀理解、獲取知識(shí)和思維能力。這個(gè)軟件首先讓學(xué)生看一些文章如能源科學(xué)、古代文明、血液循環(huán)系統(tǒng)等,然后提出寫(xiě)摘要的一些要求,如找出主題句、找出支持主題句的兩三個(gè)重要思想和細(xì)節(jié),把它們組成一句話,用一個(gè)概括性的詞語(yǔ)來(lái)代替具體的項(xiàng)目和事件,避免煩瑣的信息和細(xì)節(jié),避免重復(fù)信息等等。學(xué)生根據(jù)這些要求把閱讀的文章寫(xiě)成摘要,在網(wǎng)上輸入到Summary Street系統(tǒng)里,系統(tǒng)就能分析摘要,告訴學(xué)生摘要在多大程度上反映原文,長(zhǎng)度是否合乎要求,等等。學(xué)生可以通過(guò)系統(tǒng)提供的反饋信息(包括指出拼寫(xiě)錯(cuò)誤和用詞不當(dāng),信息覆蓋面是否足夠等),不斷改寫(xiě)摘要。他在Boulder縣中學(xué)試驗(yàn)的結(jié)果說(shuō)明,運(yùn)用Summary Street訓(xùn)練學(xué)生所寫(xiě)出的摘要比使用傳統(tǒng)的文字處理器寫(xiě)出的摘要要好,特別是處理難度比較大的文章更是如此。
5.啟發(fā)和問(wèn)題
LSA直逼哲學(xué)上的認(rèn)識(shí)論問(wèn)題,卻又開(kāi)拓了廣闊的應(yīng)用前景,惹人深思。一是人們認(rèn)識(shí)世界從意義開(kāi)始,語(yǔ)篇里隱含著許多錯(cuò)綜復(fù)雜的語(yǔ)義關(guān)系,是了解語(yǔ)義的鑰匙。二是現(xiàn)代科學(xué)技術(shù)為建立、儲(chǔ)存和提取包括了大量語(yǔ)篇的語(yǔ)料庫(kù)創(chuàng)造了條件,也為人們認(rèn)識(shí)這些錯(cuò)綜復(fù)雜的語(yǔ)義關(guān)系創(chuàng)造了條件,使我們有可能解決許多與文本有關(guān)的問(wèn)題。三是認(rèn)識(shí)問(wèn)題的一個(gè)有效途徑是減少維數(shù),提高概括力。和維數(shù)匹配的歸納可以大大改善知識(shí)的提取和表征。四是LSA要解決的語(yǔ)篇中的語(yǔ)義關(guān)系,它既依賴(lài)于計(jì)算機(jī)技術(shù),又利用了奇異值分解的線性代數(shù)模型,充分體現(xiàn)了文理互相滲透的特點(diǎn)。
但是LSA也留下了一些有待我們繼續(xù)探索的問(wèn)題。最主要的是它只考慮語(yǔ)詞,而不考慮句法信息,甚至不考慮詞序的信息。而且它完全依賴(lài)于數(shù)學(xué)模型,所得到的結(jié)果有時(shí)不好解釋。
【參考文獻(xiàn)】
1 Berry,M.,S.Dumais,& G.O'Brien[M].1994.Using linear algebra for Intelligent Information Retrieval [M].Boston:
Houghton
Mifflin Company.
2 Carroll,J.,et al.1971.Word Frequency Book.Houghton Mifflin Company & American
Heritage
Publishing Co.,Inc.
3 Chomsky,N.1965.Aspects of the Theory of Syntax [M].Cambridge,MA:
MIT Press.
4 Chomsky,N.1986.Knowledge of language:Its nature,origin,and use [M].
Westport:
Greenwood
Publishing  
;Group.
5 Chomsky,N.2000.New horizons in the study of language and mind[M].Cambridge:Cambridge University Press.
6 Deerwester,S,S.Dumais,G.Fumas,T.Landuauer,& R.Harshman.1990.Indexing by latent
semantic analysis [J]
.Journal of the American Society for Information Science 41:391-407.
7 Dumais,S.et al.1982.Using semantic analysis to improve access to textual
information [J].Machine Studies 17:87-107.
8 Foltz,P.W.,W.Kintsch & T.K.Landauer.1993 (Jan). An analysis of textual coherence
using Latent Semantic Indexing [A].Paper presented at the meeting of the Society
for Text and Discourse,Jackson,WY.
9 Geoffrey sampson.2001.Empirical Linguistics [M].London:Continuum.
10 Graesser,A.1981.Prose Comprehension beyond the word [M].New York:Springer.
11 Kintsch,W.,D.Steinhart,G.Stahl & LSA Research Group.2000. Developing summarization
skills through the use of LSA-Based Feedback [J].Interactive learning environments 8 (2):87-109.
12 Kintsch,W.1988.The role of knowledge in discourse comprehension:A construction-integration model [J].Psychological Review 95:163-182.
13 Kintsch,W.1998.Comprehension [M].Cambridge University Press:86-91.
14 Kintsch,W.,L.Vimla,K.Patel & A.Ericsson.1999.The role of long-term working memory in text comprehension [J].Psychologia 42:186-198.
15 Landauer,T.& S.Dumais.1997.A solution to Plato's problem:The Latent Semantic
Analysis theory of the acquisition,induction,and representation of knowledge
[J].Psychological Review &nbs
p;104:211-240.
16 Landauer,T.K.,D.Laham & P.W.Foltz.1998.Computer-based grading of the conceptual content of essays.Unpublished manuscript.
17 Landauer,T.,P.W.Foltz & D.Lanham.1998 An introduction to latent semantic
analysis [J]. Discourse Processes 25:259-284.
18 Maletic,J.et al.1999.14[th]IEEE ASE'99 [A].Cocoa Beach FL.12-15[th][C].pp.251-254.
19 Osgood,C 1971.Exploration in semantic space:A personal diary [J].Journal of Social
Issues 27:5-64.
20 Pinker.1994.The Language Instinct.[M].New York:William
Morrow Company,Inc.
21 Rosario,B.2000.Latent Semantic Indexing:An overview
[A].INFOSYS
240 Spring 2000.
22 Shepard,R.1987.Towards a universal law of generalization
for psychological
science [J].Science 237:1317-1323.
23 Steinhart,D.2001.Summary Street:an intelligent tutoring system
for improving student writing through
the use of latent semantic analysis [D].Unpublished doctoral
dissertation,Institute of Cognitive
Science,University of Colorado,Boulder.
24 Till,R,E.Mross & W.Kintsch.1988.Time course of priming for
associate and inference
words in discourse
context [J].Memory and Cognition 16:283-299.
25 van Dijk,T.,& W.Kintsch.1983.Strategies of discourse
comprehension
[M].New York:Academic Press.
26 桂詩(shī)春,2000,《新編心理語(yǔ)言學(xué)》[M]。上海:上海外語(yǔ)教育出版社,308-329。
【潛伏語(yǔ)義分析的理論及其應(yīng)用】相關(guān)文章:
透鏡及其應(yīng)用教材分析08-17
實(shí)物期權(quán)理論及其應(yīng)用前景研究08-07
基于應(yīng)用寫(xiě)作語(yǔ)言失當(dāng)現(xiàn)象的語(yǔ)義學(xué)分析08-16
產(chǎn)業(yè)組織理論及其研究范式的演化分析08-05
現(xiàn)代漢語(yǔ)語(yǔ)義場(chǎng)分析初探08-07
護(hù)理勝任力本位教育的應(yīng)用現(xiàn)狀的理論分析08-05
透鏡及其應(yīng)用08-17
膠體的性質(zhì)及其應(yīng)用08-17
電解原理及其應(yīng)用08-17