- 相關(guān)推薦
數(shù)字圖書館體系結(jié)構(gòu)的發(fā)展
【內(nèi)容提要】首先介紹了目前大多數(shù)數(shù)字圖書館所遵循的基本的數(shù)字圖書館體系結(jié)構(gòu),該結(jié)構(gòu)在功能上可劃分為四個(gè)邏輯組件:資源庫、命名系統(tǒng)、索引/搜索系統(tǒng)、用戶界面。然后介紹了NSDL、NCSTRL兩個(gè)最大的數(shù)字圖書館項(xiàng)目在體系結(jié)構(gòu)的關(guān)鍵問題方面的實(shí)踐,最后,作者提出了數(shù)字圖書館體系結(jié)構(gòu)發(fā)展的看法。【摘 要 題】專題探討
【【關(guān) 鍵 詞】體系結(jié)構(gòu)/互操作
1 介紹
世界上有許多國家進(jìn)行數(shù)字圖書館的建設(shè),但到目前為止,并不存在一個(gè)通用的數(shù)字圖書館體系結(jié)構(gòu),這是由于信息技術(shù)和相關(guān)標(biāo)準(zhǔn)不斷發(fā)展的結(jié)果,怎樣基于現(xiàn)有的技術(shù)并考慮到未來技術(shù)的發(fā)展,構(gòu)筑一個(gè)靈活強(qiáng)大的數(shù)字圖書館體系結(jié)構(gòu),對于數(shù)字圖書館的建設(shè)是至關(guān)重要的,這需要我們了解相關(guān)技術(shù)和標(biāo)準(zhǔn)以及數(shù)字圖書館體系結(jié)構(gòu)的發(fā)展變化。
數(shù)字圖書館要為用戶提供各種簡單易用、功能強(qiáng)大的知識服務(wù),通常從功能上可將數(shù)字圖書館劃分為:用戶界面、命名服務(wù)、搜索系統(tǒng)、資源庫等部分。數(shù)字圖書館的建設(shè)涵括各種數(shù)字資源的創(chuàng)建、管理、查詢、利用、存儲的整個(gè)過程。自從 william Y.Arms等于1997年提出了數(shù)字圖書館的信息體系結(jié)構(gòu)以來[1],數(shù)字圖書館的體系結(jié)構(gòu)在不斷完善和發(fā)展,通過許多試驗(yàn)項(xiàng)目仍在不斷改進(jìn)。圖1代表了數(shù)字圖書館的基本體系結(jié)構(gòu)。
附圖
圖1 數(shù)字圖書館的基本體系結(jié)構(gòu)
資源庫
資源庫的功能包括存儲和管理各種數(shù)字對象,通常是由關(guān)系型數(shù)據(jù)庫來管理。應(yīng)用程序通過資源庫提供的庫訪問協(xié)議(RAP)來訪問資源庫。可實(shí)現(xiàn)存儲、訪問、復(fù)制、移動和刪除數(shù)字對象等操作。
與web上的信息所不同,數(shù)字圖書館中數(shù)字資源是以數(shù) 字對象的形式進(jìn)行封裝的,一個(gè)數(shù)字對象包括:
、僖粋(gè)全球唯一的獨(dú)立于地址的長期標(biāo)識符;
、跀(shù)字資料,存儲數(shù)字圖書館的資料,也就是最終用戶需要獲取的信息內(nèi)容,如經(jīng)XML置標(biāo)后的文本、一本電子圖書等,
、墼獢(shù)據(jù),關(guān)于數(shù)字資料的數(shù)據(jù)。一般情況下,元數(shù)據(jù)有三種:a.描述性元數(shù)據(jù),用于發(fā)現(xiàn)和標(biāo)識一個(gè)對象,如MARC和Dublin Core。b.結(jié)構(gòu)性元數(shù)據(jù),為用戶顯示和導(dǎo)航一個(gè)對象(包括該對象的內(nèi)部組織信息),如一本書由章節(jié)組成。c.管理性元數(shù)據(jù),描述該對象的管理信息;創(chuàng)建日期、文件的格式、訪問權(quán)限、知識產(chǎn)權(quán)問題等。
命名系統(tǒng)
命名系統(tǒng)是針對長期標(biāo)識符的分配、管理及解析的一個(gè)綜合系統(tǒng),CNRI為數(shù)字圖書館提出了完整的命名系統(tǒng)“調(diào)度系統(tǒng)(Handle System)”,它是一個(gè)獨(dú)立的系統(tǒng),其職能是負(fù)責(zé)數(shù)字資源的全球唯一的、長期的、獨(dú)立于地址的命名的分配、管理和解析。在調(diào)度系統(tǒng)中,本地名稱空間通過獲取一個(gè)調(diào)度系統(tǒng)的命名授權(quán),就可以納入到全球調(diào)度名稱空間,這樣所有的本地名稱在全球調(diào)度名稱空間中將是唯一的。
索引與搜索系統(tǒng)
索引的創(chuàng)建可能是由機(jī)器的自動掃描、手工錄入和干預(yù),或者是這兩者的結(jié)合?蛻魴C(jī)把查詢式提交給索引服務(wù)器,將返回相匹配的數(shù)字對象的URN(統(tǒng)一資源命名,如調(diào)度碼)。索引服務(wù)還提供被索引信息的元數(shù)據(jù)和查詢機(jī)制。
用戶界面
用戶界面是用戶與數(shù)字圖書館的接口,數(shù)字圖書館向用戶提供的最終服務(wù)都是通過用戶界面來實(shí)現(xiàn)的。一般情況下,數(shù)字圖書館借助通用的Web瀏覽器作為其用戶界面工具。此外,用戶界面的內(nèi)容編排和服務(wù)方式問題是很復(fù)雜的,不同的用戶需求是不同的,用戶對數(shù)字圖書館的簡單靈活的需求首先就表現(xiàn)在用戶界面上。
2 NSDL項(xiàng)目的體系結(jié)構(gòu)介紹
NSDL(National STEM Digital Library,STEM—Science,Technology,Engineering and Mathematics)是NSF資助的、由多家單位來實(shí)施數(shù)字圖書館項(xiàng)目,它包括64個(gè)子項(xiàng)目,其目的是支持科學(xué)、技術(shù)、工程和數(shù)學(xué)教育,提供廣泛接入和方便使用的分布式資源網(wǎng)絡(luò)和學(xué)習(xí)機(jī)制,NSDL一期工程已于2002年底為公眾提供服務(wù),它是目前規(guī)模最大的數(shù)字圖書館項(xiàng)目。
由于NSDL的內(nèi)容和用戶的多樣性,為讓各種用戶共享不同的信息,最初的體系結(jié)構(gòu)設(shè)計(jì)就是通過共享元數(shù)據(jù),并利用元數(shù)據(jù)開發(fā)核心服務(wù)(如,搜索和發(fā)現(xiàn))。其體系結(jié)構(gòu)(見圖2),包括以下幾個(gè)基本概念:[2][3]
附圖
圖2 NSDL體系結(jié)構(gòu)
·采用公共的核心元數(shù)據(jù)實(shí)現(xiàn)異構(gòu)系統(tǒng)間的資源發(fā)現(xiàn)。
·核心元數(shù)據(jù)與具體領(lǐng)域的擴(kuò)展元數(shù)據(jù)相結(jié)合。
·以元數(shù)據(jù)為基礎(chǔ)實(shí)現(xiàn)跨庫搜索并創(chuàng)建更豐富的服務(wù)。
·采用自動索引和檢索系統(tǒng)來減少編目工作。
元數(shù)據(jù)庫—NSDL體系結(jié)構(gòu)的關(guān)鍵部分是元數(shù)據(jù)庫。元數(shù)據(jù)庫存儲所有藏品集的元數(shù)據(jù),并通過OAI協(xié)議把它們提供給服務(wù)商,服務(wù)商通過元數(shù)據(jù)可以開發(fā)出各種服務(wù)。在NDSL中,元數(shù)據(jù)庫可能分布在多個(gè)服務(wù)器上,并有多個(gè)鏡像。NSDL早期采用分布式元數(shù)據(jù)庫,現(xiàn)在改成集中式。這是因?yàn)榉植际皆獢?shù)據(jù)庫在檢索時(shí)會因?yàn)槠渲械囊粋(gè)元數(shù)據(jù)庫的查詢失敗或響應(yīng)較慢,而造成整個(gè)檢索的失敗或長時(shí)間的響應(yīng),而集中式元數(shù)據(jù)庫可以避免這種現(xiàn)象。
NSDL的互操作性問題
NSDL的互操作性采用三種方式來實(shí)現(xiàn):[4]
·聯(lián)合:這是一種傳統(tǒng)的方法,其所有的成員組織都遵從某些標(biāo)準(zhǔn)規(guī)范,如通過Z39.50協(xié)議共享在線目錄。
·OAI采集:以O(shè)AI元數(shù)據(jù)采集為基礎(chǔ)。每個(gè)數(shù)字圖書館藏品的元數(shù)據(jù)都能提供到Dublin Core的映射,并以簡單的交換格式向外提供,這樣,服務(wù)提供商就能采集這些元數(shù)據(jù),把它建入到信息發(fā)現(xiàn)系統(tǒng)中,而且這些藏品能夠?qū)崿F(xiàn)良好的互操作性。
·搜集:即使各種不同的組織之間不存在任何形式的合作,通過網(wǎng)絡(luò)爬蟲收集開放訪問的信息仍然可以實(shí)現(xiàn)一定程度上的互操作。各種網(wǎng)絡(luò)搜索引擎就是這樣。
NSDL主要通過OAI元數(shù)據(jù)采集來實(shí)現(xiàn)互操作。2001年初,NSDL確定支持8種標(biāo)準(zhǔn)元數(shù)據(jù)格式,這8種元數(shù)據(jù)之間的互換通過Dublin Core元數(shù)據(jù)核心集作為過渡。
(1)Dublin Core
。2)Dublin Core with DC—Ed Extensions
。3)LTSC(IMS)
。4)ADL(SCORM)
(5)MARC 21
。6)Content  
;Standard for Digital Geospatial Metadata(FGDC)
(7)Global Information Locator Service(GILS)
。8)Encoded Archival Description
3 NCSTRL項(xiàng)目體系結(jié)構(gòu)介紹
NCSTRL。∟etworked Computer Science Technical Reference Library)是另一個(gè)有代表性的數(shù)字圖書館項(xiàng)目,其規(guī)模僅次于NSDL,它是由DARPA資助的,來自北美、歐洲和亞洲的160多家學(xué)術(shù)研究機(jī)構(gòu)參與了該項(xiàng)目。其體系結(jié)構(gòu)以 Dienst體系結(jié)構(gòu)為基礎(chǔ),該體系結(jié)構(gòu)的一個(gè)重要特征就是分布式搜索(見圖3)[5]。
附圖
圖3 NCSTRL的體系結(jié)構(gòu)
在NCSTRL的早期項(xiàng)目中,用戶的查詢式被直接提交給所有的索引服務(wù)器,但隨著參與機(jī)構(gòu)的增多,檢索時(shí)同樣會因?yàn)槠渲械囊粋(gè)元數(shù)據(jù)庫的查詢失敗或響應(yīng)較慢,而造成整個(gè)檢索的失敗或長時(shí)間的響應(yīng),為了解決這一問題,NCSTRL引入了查詢路由器的概念[6][7]。
查詢路由器QR(Query Routers):根據(jù)一定的機(jī)制把查詢式發(fā)送到分布式的索引服務(wù)器中,并負(fù)責(zé)合并來自不同的索引服務(wù)器的查詢結(jié)果。另外,該體系結(jié)構(gòu)還引入了藏品服務(wù)(Collection Service)的概念,它是查詢路由的基礎(chǔ),提供把各種服務(wù)集成到數(shù)字圖書館中的各種機(jī)制。按照當(dāng)前的藏品服務(wù)定義,它提供以下信息:
·參與該藏品服務(wù)各單位的目錄
·每個(gè)單位的索引服務(wù)器的網(wǎng)絡(luò)地址
·索引服務(wù)器的元信息(為查詢路由提供依據(jù))
查詢路由
查詢路由器定期地與藏品服務(wù)通信,藏品服務(wù)數(shù)據(jù)包括索引信息(每個(gè)機(jī)構(gòu)的藏品)在索引服務(wù)器之間的分布情況,如斯坦福大學(xué)藏品的索引可能在I1和I2兩個(gè)索引服務(wù)器上有備份,康奈爾大學(xué)藏品的索引可能在I2和I3兩個(gè)索引服務(wù)器上有備份。通過這些信息,查詢路由器將決定查詢式被提交給哪些索引服務(wù)器來處理。
附圖
圖4 查詢路由
連通域
由于全球范圍內(nèi)的Internet的連通性差別相差巨大,為了提高數(shù)字圖書館的分布式搜索的相應(yīng)時(shí)間,NCSTRL引入了連通域的概念,連通域是指網(wǎng)絡(luò)上具有高度連通性的一組節(jié)點(diǎn)。連通域的概念是藏品服務(wù)的一部分,藏品服務(wù)分布在一組區(qū)域元服務(wù)器RMS(Regional Meta Servers)中——每個(gè)連通域一個(gè)RMS。每個(gè)RMS從主元服務(wù)器MMS(Master Meta Server)獲取特定域的信息,見圖5。
附圖
圖5 連通域
連通域之外的索引信息在連通域內(nèi)的索引服務(wù)器上有備份,這樣用戶的查詢將在連通域內(nèi)部完成,只有當(dāng)其中的索引服務(wù)器查詢失敗時(shí),查詢式就被提交給主元服務(wù)器,主元服務(wù)器再把該查詢式分配給到其它的連通域。
索引服務(wù)器的動態(tài)調(diào)整
由于考慮到單個(gè)搜索的失敗,故NCSTRL元數(shù)據(jù)在多個(gè)索引服務(wù)器中存在備份。藏品服務(wù)中的數(shù)據(jù)列出了索引服務(wù)器接受查詢式的優(yōu)先順序,有的索引服務(wù)器被設(shè)定為主索引服務(wù)器,有的被設(shè)定為次級服務(wù)器。主索引服務(wù)器首先接受查詢式,如果在一定的時(shí)間內(nèi)沒有完成查詢?nèi)蝿?wù),查詢式就會轉(zhuǎn)交給次級索引服務(wù)器。
需要說明的是,主索引服務(wù)器和次級索引服務(wù)器的順序并不是固定不變的,而是動態(tài)調(diào)整的,其中的參數(shù)可由管理員來設(shè)定。這個(gè)動態(tài)調(diào)整的過程是通過一個(gè)簡單算法來實(shí)現(xiàn)的。在索引服務(wù)器成功完成一次查詢之前,查詢路由器給每個(gè)索引服務(wù)器增加一個(gè)失敗記數(shù),如果查詢成功,失敗記數(shù)就減一。當(dāng)查詢路由器通過藏品服務(wù)提供的信息來選擇索引服務(wù)器時(shí),它進(jìn)行一個(gè)穩(wěn)定性測試:該索引服務(wù)器最近是否有N次連續(xù)響應(yīng)失敗(N是可以設(shè)定的)?如果一個(gè)索引服務(wù)器沒有通過這種穩(wěn)定性測試,它就會被降級,也就是說,如果是一個(gè)主索引服務(wù)器就降級為次級目錄服務(wù)器,而另一個(gè)次級目錄服務(wù)器就有可能升級為主目錄服務(wù)器。
4 對數(shù)字圖書館體系結(jié)構(gòu)發(fā)展的看法
由于用戶對數(shù)字圖書館的功能需求不斷發(fā)展,信息技術(shù)的迅速進(jìn)步,數(shù)字圖書館的概念和功能都在不斷發(fā)展。通過對上述兩個(gè)項(xiàng)目的體系結(jié)構(gòu)的分析,加上筆者的探索和實(shí)踐,我們認(rèn)為數(shù)字圖書館的體系結(jié)構(gòu)的設(shè)計(jì)必須事先考慮到開放性、互操作性、擴(kuò)展性以及伸縮性。
4.1 開放性
數(shù)字圖書館系統(tǒng)必須是一個(gè)開放的系統(tǒng),開放的含義包括一下幾個(gè)方面:
。1)能夠與第三方系統(tǒng)或功能模塊實(shí)現(xiàn)良好的對接和集成;
。2)能夠方便地在本系統(tǒng)內(nèi)部增加刪除或修改某些功能模塊;
。3)盡可能廣地支持各種資源格式和標(biāo)準(zhǔn);
因此在系統(tǒng)設(shè)計(jì)時(shí)需要遵循一下原則:
(1)基本體系結(jié)構(gòu)簡單化,在設(shè)計(jì)基本體系結(jié)構(gòu)時(shí)主要考慮信息的流通和管理機(jī)制,強(qiáng)調(diào)系統(tǒng)的通用性和穩(wěn)固性;
(2)功能模塊化,數(shù)字圖書館的服務(wù)功能是不斷發(fā)展的,因此數(shù)字圖書館的每一項(xiàng)服務(wù)應(yīng)該是相對獨(dú)立的,便于安裝、撤銷和維護(hù);
(3)選取成熱的通用的標(biāo)準(zhǔn)和協(xié)議。如用戶界面采用通行的Web瀏覽器,文檔表現(xiàn)采用XML定義,元數(shù)據(jù)采用Dublin Core、中文元數(shù)據(jù)標(biāo)準(zhǔn)等。
4.2 互操作性
通過信息資源本身實(shí)現(xiàn)互操作是最應(yīng)該受到鼓勵的方法,因?yàn)閿?shù)字圖書館建設(shè)的基礎(chǔ)是資源,用戶最終利用的也是資源,而且與信息系統(tǒng)比較起來,資源從類型上(如圖書、期刊、科學(xué)數(shù)據(jù)、地圖、檔案)要容易預(yù)見,發(fā)展變化也相對緩慢,從資源的格式上講(如標(biāo)準(zhǔn)的文件格式.txt、.html、.mpeg等),大家對通用標(biāo)準(zhǔn)的認(rèn)同更加一致。因此,通過一定的標(biāo)準(zhǔn)規(guī)范讓不同的藏品遵循相應(yīng)的元數(shù)據(jù)標(biāo)準(zhǔn),并通過元數(shù)據(jù)的共享或互換,可以實(shí)現(xiàn)資源間的共享,就如上面所介紹的NCSTRL項(xiàng)目,也已采用OAI元數(shù)據(jù)采集協(xié)議來實(shí)現(xiàn)來自不同單位的藏品的互操作?上驳氖,現(xiàn)在許多數(shù)字圖書館項(xiàng)目一般都主動遵循一定的元數(shù)據(jù)標(biāo)準(zhǔn)去創(chuàng)建元數(shù)據(jù)。并出現(xiàn)了一些工具和方案能夠?qū)崿F(xiàn)不同元數(shù)據(jù)標(biāo)準(zhǔn)的元數(shù)據(jù)元素的映射。當(dāng)然,信息系統(tǒng)之間的互操作隨著中間件和代理技術(shù)的發(fā)展也取得了很大的進(jìn)步,同時(shí)近年來,Web服務(wù)技術(shù)為網(wǎng)絡(luò)軟件的共享和互操作方面提供了新的機(jī)制,將來隨著這些技術(shù)的進(jìn)一步發(fā)展,實(shí)現(xiàn)信息系統(tǒng)間的互操作將越來越簡單。
4.3 擴(kuò)展性
NCSTRL為我們在擴(kuò)展性方面提供了很好的經(jīng)驗(yàn)。由于NCSTRL的成員單位比較分散,并且不斷有新的成員單位及新的用戶加入,最終選擇了把數(shù)字圖書館劃分成不同的區(qū)域,這
樣不但適應(yīng)了數(shù)字圖書館不斷延伸的特點(diǎn),而且還能為本地用戶提供及時(shí)的、具有本地特色的服務(wù)。在中國數(shù)字圖書館工程建設(shè)一期規(guī)劃(2000—2005)就采用了區(qū)域服務(wù)的思想。
4.4 伸縮性
由于各數(shù)字圖書館建設(shè)單位在經(jīng)濟(jì)、技術(shù)、管藏資源、用戶需求等方面都不平衡,因此不同數(shù)字圖書館的建設(shè)規(guī)模也將是不同的。一個(gè)好的體系結(jié)構(gòu)設(shè)計(jì)必須能夠適應(yīng)不同規(guī)模的系統(tǒng),使不同規(guī)模的系統(tǒng)都能夠獲取最佳的效率。
【參考文獻(xiàn)】
[1] William Y. Arms etc, An Architecture for Information in Digital Libraries,D—Lib Magazine, February 1997 http://www. dlib. org/dlib/february97/cnri/02armsl, htm
[2] C. Lagoze (ed.), W. Arms, S. Gan, D. Hillmann, C. Ingram, D. Krafft, R. Marisa, J. Phipps, J. Saylor, and C. Terrizzi. Core services in the architecture of the National Digital Library for science education NSDL). In Proceedings of the Second ACM/IEEE—CS Joint Conference on Digital Libraries, Portland, OR, 2002.
[3] D. Fulker and G. Janee. Components of an NSDL architecture: Technical scope and functional model. In Proceedings of the second ACM/IEEECS Joint Conference on Digital Libraries. Portland. OR. submitted in January 2002.
[4] William Y. Arms, Diane Hillmann etc. A Spectrum of Interoperability The Site for Science Prototype for the NSDL, D—Lib Magazine January 2002 http ://www. dlib. org/dlib/january02/arms/01arms, html
[5] Dushay, N. , J. C. French, and C. Lagoze, “A Characterization Study of NCSTRL Distributed Searching,” Cornell University Computer Science, Technical Report TR99—1725.January 1999
[6] Ca
rl Lagoze, David Fielding. Sandra Payette, Making global digital libraries work: collection services, connectivity regions, and collection views, Proceedings of the third ACM conference on Digital libraries, p. 134—143, June 23—26, 1998, Pittsburgh, Pennsylvania, United States
[7] Dienst Architecture Summary Description. http://www.cs. cornell, edu/cdlrg/dienst/architecture/architecture, htm
【數(shù)字圖書館體系結(jié)構(gòu)的發(fā)展】相關(guān)文章:
網(wǎng)格技術(shù)的發(fā)展與數(shù)字圖書館建設(shè)08-05
數(shù)字圖書館館藏評價(jià)08-05
數(shù)字圖書館的評估研究08-05
鍵控技術(shù)的數(shù)字實(shí)現(xiàn)與發(fā)展08-06
數(shù)字圖書館建設(shè)的探索與認(rèn)識08-05
數(shù)字鄉(xiāng)村發(fā)展工作總結(jié)12-31
圖書館立法與公共圖書館的發(fā)展08-05