- 相關推薦
互操作聯(lián)邦數(shù)字圖書館研究
【內(nèi)容提要】未來的圖書館將是聯(lián)邦數(shù)字圖書館,其目標是向用戶提供一個將異構、分布信息源無縫集成的視圖,實現(xiàn)對數(shù)字圖書館資源的透明訪問。文中首先介紹了研究數(shù)字圖書館互操作的必要性,在此基礎上重點分析討論了聯(lián)邦數(shù)字圖書館的實現(xiàn)方法,并對當前具有代表性的互操作聯(lián)邦數(shù)字圖書館的研究進行了綜述討論,最后簡單討論了目前建立互操作聯(lián)邦數(shù)字圖書館所面臨的挑戰(zhàn)及進一步研究和解決的問題。【摘 要 題】專題探討……
1 研究數(shù)字圖書館互操作的必要性
隨著在線數(shù)字圖書館(DLs)的日益增多,人們發(fā)現(xiàn)必須訪問許多DLs才能找到所需要的資料。由于大多數(shù)DLs是基于數(shù)據(jù)庫驅(qū)動的,現(xiàn)有流行的搜索引擎不能對其內(nèi)容建立索引。因此,對于那些需要跨越多個DLs查找資料的用戶來說,搜索引擎不能滿足這種需求。如何將廣泛分布的、異構的DLs聯(lián)合起來向用戶提供統(tǒng)一的服務,即實現(xiàn)DLs之間的互操作,成為DLs研究與開發(fā)所關注的中心問題。
所謂數(shù)字圖書館的互操作是指交換和共享DLs的文檔、查詢和服務的能力[1]。它要求來自技術(協(xié)議和格式等)、內(nèi)容(元數(shù)據(jù)及其語義等)和組織(DLs的基本訪問原則、支付方式和認證等)三方面的合作。DLs的互操作可以出現(xiàn)在不同的抽象層次上,我們可以將其概括為兩類視圖[1]:縱向視圖(vertical view)和橫向視圖(horizontal view)。前者涉及法律、社會、文化和知識產(chǎn)權等方面的問題,后者涉及DLs的硬件和軟件即體系結構方面的問題。
為什么要研究DLs的互操作?道理很簡單:目前很少有DLs既提供豐富的館藏資源,又提供有效的服務。盡管目前一些DLs擁有大量的館藏資源,而另外一些DLs卻提供許多的服務,但在這兩種情況下,用戶都不太容易找到其所需要的信息資源。只有在這些DLs之間實現(xiàn)互操作,才能共享DLs的資源和服務。因此,研究DLs的互操作是十分必要的。
2 聯(lián)邦數(shù)字圖書館的實現(xiàn)方法
為了解決用戶使用DLs查找資料時同一查詢條件的重復提交問題,人們提出了聯(lián)邦數(shù)字圖書館的概念。所謂聯(lián)邦數(shù)字圖書館是指正式或非正式合作操縱DLs的一些組織,它們同意支持一組共同的服務和標準,以便在聯(lián)盟成員之間共享DLs的資源,實現(xiàn)互操作。聯(lián)邦數(shù)字圖書館允許跨越不同的DLs執(zhí)行搜索,并將每個DLs的查詢結果合并后返回給用戶,使用戶感到如同使用單個數(shù)字圖書館一樣。從聯(lián)邦的耦合度考慮,實現(xiàn)聯(lián)邦數(shù)字圖書館的方法可分為以下三種:NCSTRL方法、Harvesting方法和搜集(Gathering)方法。
2.1 NCSTRL方法
網(wǎng)上計算機科學技術報告圖書館(NCSTRL)是一個擁有100多個機構加盟的聯(lián)邦數(shù)字圖書館[2],它利用Dienst作為DLs的協(xié)議和體系結構。凡是要求加入NCSTRL的機構需要在本地安裝Dienst服務器,并按照統(tǒng)一規(guī)定的數(shù)據(jù)格式建立其館藏資源。NCSTRL借助于分布式搜索技術在聯(lián)盟DLs之間實現(xiàn)資源共享,它將用戶的查詢送往參與聯(lián)邦的所有DLs上分別執(zhí)行,收集返回的結果,綜合整理后返回給用戶(圖1)。
附圖
圖1 NCSTRL方法
NCSTRL方法要求所有參與聯(lián)邦的DLs使用相同的協(xié)議或軟件系統(tǒng),因此能夠提供全面的互操作。但緊密的聯(lián)邦必將加重聯(lián)盟成員的負擔,它們不得不就技術標準和策略(如知識產(chǎn)權準則、安全和隱私等)達成一致。從網(wǎng)絡和搜索系統(tǒng)方面的限制考慮,NCSTRL是昂貴的運行模式,因為要求每個聯(lián)盟成員的DLs必須支持復雜的查詢語言和對查詢的快速實時響應。另外,從查詢的頻率、元數(shù)據(jù)的質(zhì)量以及網(wǎng)絡資源的可用性等方面綜合考慮,這種實現(xiàn)聯(lián)邦的方法對聯(lián)盟成員加負較重。因此,只有那些需求強烈的DLs會采用這種代價較高的模式。
2.2 Harvesting方法
一臺計算機能夠自動地從其他計算機中收集并提取元數(shù)據(jù)的方法通常稱作Harvesting[3]。利用Harvesting方法建立聯(lián)邦數(shù)字圖書館的基本思想是:從每個DLs收集并提取元數(shù)據(jù),經(jīng)過處理、合并后集中保存在一個中心DL中,然后對保存在中心DL本地的元數(shù)據(jù)執(zhí)行搜索(圖2)。顯然,這種方法需要在中心DL維護一個所有DLs館藏元數(shù)據(jù)索引信息的副本,以便提供基于館藏元數(shù)據(jù)內(nèi)容的查詢路由服務。
附圖
圖2 Harvesting方法
Harvest系統(tǒng)[4]是這種方法的代表,它包括一組從各個DLs館藏中搜集信息并建立基于主題內(nèi)容索引的集成工具。Harvest體系結構主要包括兩部分:搜集者(gatherers)和代理(brokers)。每個搜集者從DLs館藏中搜集并提取索引信息。代理程序從一個或多個搜集者或其他代理檢索索引信息,并按增量方式對其進行更新。代理程序能夠為多個館藏建立集成索引,并提供一個查詢界面。
由于Harvesting方法采用集中處理方式,所以能夠保證有較好的查詢響應時間,但各DLs館藏元數(shù)據(jù)內(nèi)容的變化不能及時得到反映。另外,Harvesting方法不要求嚴格遵守一組完整的技術協(xié)定,只要求做少許支持基本共享服務(如數(shù)據(jù)訪問)的工作。同NCSTRL方法相比,Harvesting方法提供的互操作性相應的要差一些,但對聯(lián)盟成員的要求卻很少。因此,許多組織可能會加入這種松散的DLs聯(lián)邦。
2.3 搜集(Gathering)方法
對于那些不能正式加盟的DLs組織,仍有可能通過搜集(Gathering)DLs可公開訪問信息的途徑獲得一定程度的互操作。這種聯(lián)邦方法通常提供統(tǒng)一的用戶界面,用戶輸入查詢請求,系統(tǒng)執(zhí)行分布式搜索,并將合并后的查詢結果返回給用戶。元數(shù)據(jù)蜘蛛(MetaCrawler)[5]是搜集方法的代表,它是由美國華盛頓大學實現(xiàn)的并行Web搜索服務。MetaCrawler提供一個智能接口界面,它能將用戶的查詢并行地送往多個搜索服務(如Lycos、Altavista和Yahoo等),并對返回的結果進行整理,篩除其中重復的內(nèi)容,然后返回給用戶。MetaCrawler體系結構具有許多優(yōu)點,它在傳統(tǒng)的搜索服務之上提供一個抽象層,使其在Web增長和變化時具有較好的適應性、可伸縮性和便攜性。
利用搜集方法建立聯(lián)邦數(shù)字圖書館無須任何DLs直接參與合作,但所提供服務的質(zhì)量比參與合作情況下的要差。同前面介紹的兩種方法相比,搜集方法所提供的互操作性最差。目前許多關于Web的研究可視為在這個層次上添加功能,這將會提供更有效的互操作性。盡管期望整個Web表現(xiàn)出豐富的語義不太現(xiàn)實,但是人們還是期望著通過搜集方法提供服務的水平能夠逐步地得到改善。
上述三種聯(lián)邦方法中,NCSTRL方法通過使用相同的協(xié)議或軟件系統(tǒng)來消除DLs之間的異構問題,因此可以實現(xiàn)全面的互操作。而對現(xiàn)有的DLs來說,Harvesting方法是比較現(xiàn)實的
建立聯(lián)邦數(shù)字圖書館的方法。搜集方法雖然能夠通過搜集DLs可公開訪問信息的途徑獲得一定程度的互操作,但所提供服務的質(zhì)量及互操作性較差。表1給出了這三種聯(lián)邦方法的比較。
表1 三種聯(lián)邦方法的比較
附圖
3 互操作聯(lián)邦數(shù)字圖書館
未來的圖書館將是聯(lián)邦數(shù)字圖書館,其目標是向用戶提供一個異構、分布信息源無縫集成的視圖,實現(xiàn)對DLs資源的透明訪問。聯(lián)邦數(shù)字圖書館的建設不僅包含一系列的關鍵技術(如元數(shù)據(jù)、本體論、互操作、多語言支持、統(tǒng)一的接口界面等),而且還涉及到知識產(chǎn)權、經(jīng)濟等組織方面的問題。就技術層面而言,互操作是聯(lián)邦數(shù)字圖書館的根本問題。來自結構、系統(tǒng)、語法及語義方面的異構性,成為實現(xiàn)互操作聯(lián)邦數(shù)字圖書館的最大障礙。一種實現(xiàn)互操作聯(lián)邦數(shù)字圖書館的途徑是采用NCSTRL方法,即所有聯(lián)盟的DLs都使用相同的通信協(xié)議或軟件系統(tǒng),這是比較理想的模式。然而,目前許多DLs都屬于自治的信息系統(tǒng),它們具有各自的搜索界面、體系結構、通信協(xié)議和管理策略,在這些異構的DLs之間建立互操作聯(lián)邦無疑是一種挑戰(zhàn)。對此,人們提出了不同的解決方案。其中具有代表性的有:基于中介(Mediation)系統(tǒng)的結構、基于數(shù)據(jù)驅(qū)動的結構、基于Agent的結構和基于OAI互操作框架的結構。
3.1 基于中介(mediation)系統(tǒng)的結構
中介(mediation)結構為實現(xiàn)異構DLs的互操作聯(lián)邦提供了一條有效途徑。它利用一個中介層(mediator)為每種數(shù)據(jù)源提供一個通用的數(shù)據(jù)模型和查詢界面,使用包裝層(wrapper)屏蔽各種數(shù)據(jù)源之間的異構性。中介層負責接受用戶的查詢,并將其轉換成通用模型。包裝層將中介層提供的通用模型轉換成針對具體數(shù)據(jù)源的查詢并執(zhí)行。中介層收集來自包裝層轉換后的查詢結果,將其歸并后返回給用戶。其代表是文獻[4]中介紹的體系結構,它利用面向?qū)ο蟮臄?shù)字圖書館系統(tǒng)MARIAN作為網(wǎng)上學位論文聯(lián)邦數(shù)字圖書館(NDLTD)的中介層中間件(mediation middleware),以期提供一個公共的查詢界面和集成平臺;使用5SL(一種基于XML的描述語言)描述每個聯(lián)盟DLs的館藏服務能力及其內(nèi)部文檔結構。這些描述信息不僅可以為中介層(mediator)提供數(shù)據(jù)結構,而且允許包裝層(wrappers)的半自動化生成。NDLTD體系結構集成了多種采用不同協(xié)議(包括Harvest系統(tǒng)、Dienst協(xié)議、Z39.50協(xié)議和OAI協(xié)議)的異構DLs系統(tǒng),允許使用多種方法定期地從聯(lián)盟DLs的館藏中提取信息,經(jīng)過處理、合并后集中保存在一個聯(lián)合文檔(union archives)中,用戶對保存在聯(lián)合文檔中的數(shù)據(jù)進行查詢。NDLTD體系結構實現(xiàn)了結構(異構的)、系統(tǒng)(使用Dienst、Z39.50和OAI等不同的協(xié)議)、語法(包含有不同的數(shù)據(jù)格式)及語義四個層次上的互操作。
中介(mediation)結構為館藏自治、結構異構的DLs之間的互操作提供了強有力的支持。目前這方面的主要研究工作是將中介結構(包含有實現(xiàn)低層信息到高層抽象轉換的組件)同基于agent的系統(tǒng)(包含有控制復雜協(xié)商任務的智能對象)相結合。為了更好地支持互操作,各組件之間的通信通常采用標準協(xié)議(如HTTP、Z39.50、KQML或CORBA)實現(xiàn)。
3.2 基于數(shù)據(jù)驅(qū)動的結構
基于數(shù)據(jù)驅(qū)動的結構是一種以數(shù)據(jù)為中心的結構,它既不要求對現(xiàn)有DLs的結構做任何修改,也不要求聯(lián)盟成員的DLs遵從某種互操作協(xié)議,只要求使用數(shù)字圖書館描述語言(DLDL)描述各自的館藏資源(DLs的元數(shù)據(jù)及其內(nèi)容)、訪問方法和服務能力,并將這些描述信息登記到注冊服務器中。當用戶通過聯(lián)邦數(shù)字圖書館(FDL)查詢時,F(xiàn)DL根據(jù)注冊服務器中保存的信息,選擇出最合適的DLs執(zhí)行用戶的查詢,并收集這些DLs返回的結果,合并整理后返回給用戶。其代表是美國弗吉尼亞大學的數(shù)字圖書館研究小組提出的FDL結構,它包括三個主要部分[2]:①異構DLs的收集及其DLDL描述;②一個基于LDAP的注冊服務及主XML歸并agent;③一個聯(lián)邦數(shù)字圖書館(即一個基于Java的應用程序,它能夠支持不同DLs的集成,使用戶感覺到如同使用單個數(shù)字圖書館一樣)。其中,注冊服務允許任何DLs通過向LDAP服務器提交其DLDL描述而成為FDL的一員。
基于數(shù)據(jù)驅(qū)動的結構要求所有加盟的DLs使用統(tǒng)一的數(shù)字圖書館描述語言描述各自的館藏內(nèi)容、訪問方法和服務能力,其查詢響應時間是應當考慮的主要因素,服務質(zhì)量通常由所選擇的DLs中服務最差者決定。
3.3 基于Agent的結構
Agent(包括多Agent、智能Agent和移動Agent)的理論、技術,特別是多Agent的理論、技術,為分布式開放系統(tǒng)的分析、設計和實現(xiàn)提供了一條嶄新的途徑,被譽為“軟件開發(fā)的又一重大突破”[6]。將Agent技術引入到數(shù)字圖書館領域,不僅可以為用戶提供個性化的服務,而且使系統(tǒng)具有較好的開放性、可擴展性和可伸縮性。基于Agent的FDL體系結構通常包括用戶Agent、中介(mediated)Agents和資源Agents,它們之間通過協(xié)商、合作完成某項任務。中介Agents負責與用戶Agent、資源Agents和其他中介Agents的交互。用戶Agent向用戶提供接口界面,接受用戶輸入的查詢請求,轉換成通用的查詢語言后交給合適的中介Agents。資源Agents作為每個DLs的智能前端接口,負責執(zhí)行用戶的查詢,其功能與中介結構中的包裝層(wrappers)類似,主要用于隱藏每個DLs的異構性,使用戶感到如同使用單個數(shù)字圖書館一樣。美國密執(zhí)根大學的數(shù)字圖書館原型系統(tǒng)(UMDL)[7]是這種結構的代表,它包括用戶接口Agents(UIAs)、中介Agents、館藏接口Agents(CIAs)和館藏四個部分。其中,UIAs提供用戶使用UMDL資源的接口,并負責維護用戶的profiles,以便提供個性化的服務。中介Agents提供信息服務的中介,負責將來自UIAs的查詢送往最合適的CIAs,并監(jiān)控查詢的進展情況,傳遞處理結果以及進行數(shù)據(jù)格式的轉換等。CIAs負責管理UMDL的館藏接口以及館藏內(nèi)容的發(fā)布等功能。UMDL利用上述三類Agents,實現(xiàn)了對異構信息源的跨庫檢索。
3.4 基于OAI互操作框架的結構
開放存檔倡導(Open Archives Initiative——OAI)是一個討論和解決DLs互操作問題的論壇,其目標是為實現(xiàn)DLs的互操作提供簡單、有效的機制。OAI的第一次會議于1999年10月在美國新墨西哥州的圣達菲召開,會上制定了關于元數(shù)據(jù)Harvesting的技術協(xié)定——圣達菲協(xié)定[8]。該協(xié)定主要包括兩部分:定義一個簡單的元數(shù)據(jù)元素集——開放存檔元數(shù)據(jù)集(OAMS),以便在存檔之間大粒度地發(fā)現(xiàn)文檔;定義一個公共協(xié)議——開放存檔Dienst協(xié)議的子集(OA-Dienst),以便在存檔之間提取OAMS和指定存檔的元數(shù)據(jù)。另
外,圣達菲協(xié)定還定義了數(shù)據(jù)提供者(data providers)和服務提供者(service providers)模型。前者指存檔的管理者,允許外界通過OAI協(xié)議訪問其元數(shù)據(jù);后者指從數(shù)據(jù)提供者那里獲取元數(shù)據(jù),并向用戶提供高層服務的實體。目前,圣達菲協(xié)定已得到擴充和修改[9],存檔內(nèi)容由起初的電子版資料(e-print material)擴充到一般的學術數(shù)據(jù)(scholarly data),選用Dublin核心元素集作為公共元數(shù)據(jù)集,并將元數(shù)據(jù)Harvesting協(xié)議作為數(shù)據(jù)提供者和服務提供者之間的通信協(xié)議。
OAI為解決DLs的互操作問題提出了一種簡單的互操作框架。它要求數(shù)據(jù)提供者按照標準的元數(shù)據(jù)格式(如Dublin core)建立其館藏元數(shù)據(jù),要求服務提供者利用OAI的元數(shù)據(jù)Harvesting協(xié)議與數(shù)據(jù)提供者進行通信。這種結構的代表是Arc[10],它是第一個采用OAI互操作框架實現(xiàn)的聯(lián)邦搜索服務。Arc能夠從遵從OAI協(xié)議標準的存檔中獲。℉arvesting)元數(shù)據(jù),經(jīng)過處理后存入一個基于關系型數(shù)據(jù)庫(如MySQL或Oracle)的搜索服務中。NDLTD[4]聯(lián)邦數(shù)字圖書館也選用OAI互操作框架作為其元數(shù)據(jù)互操作的部分解決方案,以克服聯(lián)盟DLs之間的異構性障礙。
OAI互操作框架實際上是通過在數(shù)據(jù)提供者和服務提供者之間定義一個標準接口來實現(xiàn)DLs之間的互操作,但并沒有規(guī)定如何選擇數(shù)據(jù)源,也沒有強調(diào)如何實現(xiàn)服務提供者。另外,利用OAI互操作框架實現(xiàn)的聯(lián)邦數(shù)字圖書館也存在元數(shù)據(jù)的同步更新問題,目前主要利用基于日期戳(datestamp)的“拉”(Pull)模型解決數(shù)據(jù)提供者和服務提供者之間的數(shù)據(jù)同步問題。
4 結束語
建立全球范圍的互操作聯(lián)邦數(shù)字圖書館是一項十分艱巨的任務,不僅包含一系列的關鍵技術,而且還存在著知識產(chǎn)權、經(jīng)濟、社會和法律等方面的問題。目前許多DLs都是自治的信息系統(tǒng),它們具有不同的搜索界面、體系結構、通信協(xié)議和管理策略。在這些異構的DLs之間建立互操作聯(lián)邦面臨著以下挑戰(zhàn):①提供統(tǒng)一的接口界面以及將每個DLs映射到該界面的通用映射機構;②提供靈活的集成方式及工具以支持各種異構DLs的集成;③用戶對聯(lián)邦數(shù)字圖書館中每個DLs的訪問應當透明。這些是建立互操作聯(lián)邦數(shù)字圖書館需要進一步研究和解決的問題。
【參考文獻】
1 EU-NSF digital library working group on interoperability between digital libraries(position paper), 1999, http://www. iei. pi. cnr. it/DELOS/NSF/interop. htm
2 Barry M. Leiner. The NCSTRL approach to open architecture for the confederated digital library. D-Lib Magazine, December 1998
3 Hussein Suleman, Anthony Atkins, etc. Networked Digital Library of Theses and Dissertations. D-Lib Magazine, September 2001
4 Goncalves Marcos A., Robert K. France and Edward A. Fox. MARIAN: Flexible interoperability for federated digital libraries. proceedings of 5[th] European conference on research and advanced technology for digital libraries( ECDL2001 ), Darmstadt, September 2001, 173~186
5 Erik Selberg and Oren Etzioni. Multi-service search and comparison using the Metacrawler. proceedings of 4[th] world wide&
nbsp; web conference, Boston, MA USA, December 1995
6 劉大有,楊鯤,陳建中.Agent研究現(xiàn)狀與發(fā)展趨勢.軟件學報,2000,11(3):315~321
7 Daniel E. Atkins, et al. Toward inquiry-based education through interacting software agents. IEEE Computer, 1996,29 (5): 69~76
8 Van de Sompel, Herbert and Carl Lagoze. The Santa Fe convention of the Open Archives Initiative. D-Lib Magazine, February 2000
9 Lagoze, Carl and Herbert Van de sompel. The Open Archives Initiative protocol for metadata harvesting, 2001 http:/www. openarchives.org/OAI/openarchivesprotocol, htm
10 Lin Xiaoming, Kurt Maly, and Monammad Zubair. Arc-An OAI service provider for digital library federation. D-Lib Magazine. April 2001
【互操作聯(lián)邦數(shù)字圖書館研究】相關文章:
數(shù)字圖書館的評估研究08-05
基于PDCA的數(shù)字圖書館質(zhì)量管理研究08-05
數(shù)字圖書館館藏評價08-05
關于數(shù)字圖書館版權保護研究若干重要問題的思考08-05
數(shù)字圖書館建設的探索與認識08-05
IDC與數(shù)字圖書館建設論文05-31
聯(lián)邦模式與清末變局08-11
國外數(shù)字鴻溝問題研究述略08-05
淺論數(shù)字圖書館的信息管理08-07