| |
|
|
| |
數位化資源命名定址的利器-DOI
|
鄭陽明
|
| |
 |
|
壹、
|
前言 |
| |
在瀏覽網頁的時候出現「HTTP
v1.0/1.1 Error404」訊息時,表示所點選欲連結的資源已經被移除,以致於無法利用,遇到這種狀況通常令人無奈,尤其是在撰寫報告需要參考文獻時,更會急得跳腳。這時難免會想,網路資源是不是能像圖書館的圖書索書號一樣,每一個資源都給一個具有永久性(persistent)且唯一的(unique)辨識號碼?當讀者查詢館藏目錄,可依圖書索書號至書架上取書,不會有因館藏移架造成館員要重新編索書號或讀者需另記索書號的困擾。
在圖書館各種類型的館藏中,期刊因內容新穎、出版快速,報導最新學術發展動態及發表研究成果,一向受到讀者的高度重視與廣泛使用。在學術圖書館中,更將購書經費的70%以上用於訂購學術期刊。由於網際網路的普及化,不少科學、科技、醫學類學術性刊物出版商,意識到要想長久生存,取決於出版刊物必須增加銷售管道,因此紛紛在網際網路上建立網頁,開始將大部分紙本印刷出版品再以電子形式出版,有的甚至只出版電子版形式供訂購閱覽。
近來,電子書大量崛起,可以說是出版商另外開發的一塊大餅。對出版商而言,電子出版可以將文字、聲音、影像、動畫等各種媒體的資料,加以數位處理,增加紙本書刊所無的邊際效益,但是,若是僅止於此並無法保證增加出版商的銷售量,一方面必須要提供像圖書ISBN、期刊ISSN、錄音錄影資料ISRC等讓使用者很容易檢索的辨識碼(identifier),另一方面還要防止被輕而易舉地非法複製盜拷,這種盜版的現象在軟體和音樂作品中已屢見不鮮。出版商必須在保障提供穩定來源的資料與保護智慧版權二者之間加以努力,以獲取最大利益。
|
| |
|
|
貳、
|
DOI系統介紹 |
| |
由於上述這些原因,美國出版商協會(The
Association of American Publishers,簡稱AAP)於1994年建立了「技術授權委員會」(Enabling
Technologies Committee),進行設計一種既能保護智慧產權且能保障版權所有者商業利益的系統。第一個步驟是先引進一種出版業標準的電子出版內容識別碼以支持出版商與用戶之間各種系統的相互轉換,為版權與使用權之間的協調管理提供基礎。該系統以美國全國研究創新聯合會(The
Corporation for National Research Initiatives,簡稱CNRI)研發的「處理系統」(The
Handle System)作為技術平台,用來對數位化出版物提供持久和可靠的識別碼。網路資源大都採用直接定址方式,其最大優點是簡單便捷,但當資源有異動時,則需要通知並修改相關聯之資料,否則就會出現像本篇文章一開頭所提到的訊息了。為了避免這問題,網路資源可改採間接定址
(相對位址),透過一台記載檔名與網址對照的主機,若網址更改,只要通知該主機即可,這種處理主機一般稱為 Handle
System。
這一系統在1997年法蘭克福圖書博覽會首次亮相,名稱為The
Digital Object Identifier,簡稱DOI
正式成為數位化資源命名的一項標準,1998年在法蘭克福並成立一個宣稱非營利性之國際DOI基金會
(International DOI
Foundation, 簡稱IDF)
負責政策制定、技術支援、註冊及繳納規費、維護線上的使用指南等業務。這個基金會由一個董事會監管,會員成員包括(1)大型音樂、平面影像、廣播、線上新聞、軟體、其他內容產業的出版商(2)上述產業的技術供應商(3)上述產業的協會代表(4)網際網路科技公司(5)代表作家、畫家、圖書館、使用者的組織(6)政府相關部門(7)其他網路上政治、經濟或社會人文重要機構。會員分為四個等級:
| |
(一)、 |
第一級是創始會員(Charter
Members),成員有Association
of American Publishers* 、Elsevier Science* 、International
Publishers Association* 、John Wiley & Sons* 、McGraw-Hill,
Educational and Professional Publishing Group* 、Springer
Verlag* (*代表也是IDF的董事會成員)。 |
| |
(二)、 |
第二級是簽約會員(Registration
Agencies Members),有ContentDirections,
Inc.* 、CrossRef* 、Enpia Systems Co., Ltd. 、Learning
Objects Network Inc.* 、Copyright Agency Limited*等。 |
| |
(三)、 |
第三級是一般會員(General
Members),較知名的有American
Chemical Society、Cambridge University Press、Copyright
Clearance Center*、Hewlett-Packard Company*、IEEE、Microsoft
Corporation*、Joel Baron Associates*、OCLC Online Computer
Library Center Inc.、Publishers Licensing Society、Wolters
Kluwer International Health & Science等。 |
| |
(四)、 |
第四級是附屬會員(Affiliates),有Adobe
Systems Inc.,此種會員不具投票權。 |
目前有超過二百個公司使用DOI系統,註冊四百萬筆以上DOI資料,註冊中心(Registrant
Agency)有兩個,分別為IDF和
CrossRef。IDF於2001年2月提出
The DOI Handbook v.1.0.0
供全球使用(至2002年11月為
v.2.5.0),內容收集DOI的技術、建置、管理方式,為有意加入者提供一入門手冊。2000年9月,CrossRef
成為第一個由國際DOI基金會所授權的官方DOI註冊代辦機關,負責分發DOI前引、註冊DOI,並提供基礎建設讓使用者能公告及維護元資料(Metadata)。[1]
DOI主要功用就是對網路上的內容能作唯一的命名與辨識,藉以保護智慧財產。DOI譯成「數位物件辨識碼」,是一組由數字、字母或其他符號組成的字串。包括前綴(Prefix)和後綴(Suffix)兩部分,中間用一道斜線區分。前綴由辨識碼管理機構指定,後綴由出版機構自行分配。前綴又由兩部分組成,中間用一個圓點分開。第一部分<DIR>有兩個字符,代表該DOI由哪個註冊中心分配,目前都是以10兩個數字代表。以後可能會有多家註冊中心,例如一個國家一個,或一個行業一個(如出版、攝影、音樂、軟體等行業)。前綴的第二部分<REG>代表被分配使用該DOI前綴的出版機構,或在辨識碼註冊中心進行登記的任何版權所有者。後綴由出版商或版權所有者自行給號,是一組唯一的字串,用來代表特定的數位化資料。許多出版商選用已有的識別符號作為後綴,如ISBN、ISSN等。
DOI 命名的語法主要是遵照
ANSI/NISO
Z39.84 標準,其編碼規則如下:
| 語
法 |
備
註 |
| <DOI>=<DIR>.<REG>/<DSS> |
Character
set is Unicode 2.0 |
| <DIR>=10 |
前綴(Prefix)
<REG>
碼是由註冊中心發給各要註冊單位 |
| <REG>Registrant's
Code |
| <DSS>DOI
Suffix String |
後綴(Suffix)
<DSS>
的起始字元不能為*/ |
| 例一:10.1000/1 |
是DOI系統在Web上的首頁識碼
前綴是10.1000,後綴是1 |
| 例二:10.1016/SO921877797000232 |
是Elsevier
出版社一篇期刊文章的DOI辨識碼後綴是直接引用Publisher
Item Identifier(PII) |
DOI系統的實際運作目前是採用Handle
System技術,瀏覽器所需要內嵌(embed)軟體及系統運作軟體可從http://www.handle.net網址下載。
|
| |
|
|
參、
|
DOI系統運作與應用 |
| |
ISBN、ISSN等現有的標識碼用於印刷型出版物中,而DOI系統是專門用於標識數位資料的。簡單地說,其原理是:
| 1. |
每個會員出版商為其所出版的每一數位資料(可能是一本書其中一個章節或是某一篇期刊文章,更甚或是某一個圖片檔),編製一個含有出版社本身DOI前綴的DOI,並將其附加到文獻元資料(Metadata)和URL上,如此DOI成為數位資料的一部份,始終與該數位資料共存。
|
| 2. |
每個DOI記錄與該數位資料的URL
資訊一起被送往DOI註冊中心資料庫,得到登記、進行存貯。這種被集中存貯起來的資料形成了一個資料辨識庫。利用特殊的軟體,這一資料辨識庫可以連接、或分辨某個DOI,使與其有關的數位資料的位置聯繫起來。(參見圖一)
|
| 3. |
當用戶尋找一個數位資料、或有關這一資料的相關資訊,DOI查詢需求就會被傳送到DOI註冊中心資料庫主機。
|
| 4. |
該資料庫主機尋找到DOI的記錄及與其相關的資訊位址,將二者連接起來,將其URL送回給用戶瀏覽器並將結果顯示給用戶,其過程與尋找URL一樣快捷。(參見圖二)
|
| 5. |
當出版商將其產品版權轉讓或出售時,即某一數字資料的位置發生了變化,該出版商應將這一資料改變的信息送到DOI服務器,該服務器將自動更新,中心服務器將會保持數據的完整。
|
圖一:建立DOI資料
圖二:檢索並回覆DOI資料
以CrossRef為例,CrossRef
是一個系統處理過程,它的功能就像是種智慧型數位式總機。每個會員出版商為其所出版的每一篇期刊文獻,編製DOI後將其附加到文獻元資料(Metadata)和URL上。這些紀錄會以XML為基礎的DTD格式,批次提供給
CrossRef
元資料資料庫(MDDB:Metadata
DataBase),CrossRef再將每一篇文獻的DOI和URL註冊在一個統一的DOI名錄中。另一方面,出版商也將每篇文獻中所節選的參考資料引文(Reference
Citation)提供給參考書目轉化器(Reference
Resolver),此一轉化器的功用是用來檢索DOI群,為MDDB的主要部分。出版商能把CrossRef連結加進所有本文已在CrossRef系統中註冊的文獻內引述文中。整個索引連結流程圖示於圖三。[2]
圖三:索引連結流程圖
舉本館訂購的WILEY
InterScience資料庫為例,經由點選電子期刊文章,除了可以觀看全文外,也可以經由參考資料引文的連結,透過CrossRef的功能,連結到其他出版社的文章。
|
| |
|
|
肆、
|
DOI系統的評價 |
| |
DOI對所有形式的知識內容都適用,因此對文章、圖書、課堂實驗、影像圖片、音樂等各種資料都可進行連結、檢索,由於DOI系統這種持續追蹤文獻目前位址的能力,可以讓使用者直接從某家出版商的產品如書目資料庫(Bibliographic
database)或引用文獻(Article
citation)連結到其他出版商的數位化產品,如摘要(Abstract)或全文(Full-text)。其識別碼系統可以使得傳統的數位產品具有進一步的延伸能力,意即從識別碼可以指引到資源本身,不再是靜態的表現,這是DOI編碼系統最有價值之處。
在變化萬端的電子出版世界中,由於資料版權所有者的更迭、電子檔的存放位置變化頻繁,尤其在使用那些在各主機之間來回轉換的文件、新版的軟體、不同檔案格式的數位化音樂作品、或經過更新內容的科學文章中特別需要一種技術,以保證雖然被連結的版權所有者的出版時間和地點有了變化,仍能正確無誤地連結,DOI正好可以達成這個需求,這是它的另一項優點。DOI系統為出版商提供了一個既能用於出版物電子版權的內部管理機制,又能進行電子商務的工具。它對文件檢索、票據交換、出版許可等電子出版日常的交易程序提供了自動化管理的工作基礎,這也是美國出版者協會
(AAP) 之所以對它青睞的主要原因。
就學術界的觀點而言,DOI
雖具有上列的特點級優越性,但Lloyd
A. Davidson and Kimberly Douglas在文章中提到[3],DOI系統主要是為了迎合出版者的需求而制定的,缺乏圖書館學會及大學在基金會主體內運作,在這樣的環境下發展出來的系統,雖然出版者的需求和圖書館界的需求會有重疊,但是還是難以涵蓋圖書館界之需求。此外它還有下列待解決的問題:
| 1. |
在編碼規則上DOI系統可以長達128個字元,扣除前綴的8個字元,後綴的120字元可以定出1.8*10192個DOI識別碼(因每一字元可以是字母、數字或符號等至少40種可能),這個天文數字使得設計顯得不切實際,且這種命名長度太長不易記憶因而難以應用,以Publisher
Item Identifier(PII)為例,只有17個字元的長度,就足以識別出版品。根據Norman
Paskin估計約用10
11個物件就足以完成每一項出版品的唯一識別碼[4],目前DOI的命名法對系統記憶體而言是相當浪費的。
|
| 2. |
因為DOI系統需要經過註冊及付費,並非免費使用的系統,且不允許個人註冊,因此並不是任何人都可使用。為了同時兼顧商業往來及智慧產權的保護,這些出版商也不會把所有的產品都在網際網路釋出。另外,在DOI系統問世之前,其實也有其他的控制方式存在,如由網際網路協會(IETF)1993年3月所提出的一致性資源命名(Uniform
Resource Names,簡稱URN)計畫,這使得DOI系統對出版商的約束力變小。再者,IDF對參與成員的審核標準也相當嚴格,因此也使得小型出版商不願再付費加入DOI系統。造成DOI系統對大出版商很有幫助,可以支持他們在網上的商業性交往、保護他們的知識版權。但這些出版商生產的產品只佔網上能夠獲得的所有資料的一部分。此外,在DOI系統引入之前,大出版商的資料已經相對比較穩定。實際上,URL的不穩定和網際網路上的出版物缺乏持久性的最大問題來自這些沒有直接參與DOI系統的其他出版者,因此網路上出版的混亂局面仍將無法得到有效的控制。
|
| 3. |
如果太多的非正規的出版機構也被允許加入到DOI系統中,系統有可能因為積累大量不存在的物件的識別碼而導致崩潰。但從另一個角度看,如果不允許那些非正規出版機構參與到DOI系統中,他們有可能被迫建立一個類似的系統,具有同樣的功能,自己對這些系統進行管理以保證品質。但並不是各種類型的出版商都能花得起時間、金錢來經營像DOI這樣一個複雜的、需要不斷進行訊息更新的系統的。
|
| 4. |
DOI為出版商創造了一個系統,一方便可以保護出版商免遭使用者濫用數位資料而蒙受嚴重的經濟損失,又可以讓公益性政策如公平使用原則和館際互借等制度延續下去。但是DOI有可能妨礙用戶對出版物的公開獲取,因為讀者對DOI的查詢,除非獲得授權檢索,大多數得到的可能只是各種出版物的清單,而非直接連結至被查詢的出版物本身。如果終端用戶發現DOI反而成為獲取資訊的障礙,他們就有可能傾向於去尋找那些非正式的文獻來源,如目前出現的越來越多的預行刊物檔(preprint
archives)(關於preprint
archives的介紹,請參照本館館刊124期,"
學術研究的寵兒:Preprints及E-prints"一文)。甚且如ARL(The
Association of Research Libraries)的SPARC(The
Scholarly Publishing and Academic Resources Coalition)計劃(http://arl.cni.org/sparc/),它們自行結合大學、學術圖書館與學術組織成立聯盟,不再受商業出版的期刊出版者牽制,自己管理學術文章的出版與發行。所以對DOI會員出版商而言,其實它們最佳的策略應該是和它的客戶--例如圖書館界-積極地合作,重新訂定DOI系統的政策,如:入會條件、開放程度、編碼格式、檢索權限等。
|
|
| |
|
| 伍、 |
結語 |
| |
網路資源命名定址工作是一項複雜的議題,網路資源永久名稱的指定,將是網路資源管理重要的一環,目前較有名的物件編碼命名方式有DOI、URN((Uniform
Resource Names)、SICI Code(Serial Item and Contribution Identifier
Code)、BICI Code(Book Item and Contribution Identifier),各有其特色與限制,對於圖書館界而言,在發展數位典藏工作時,對於檔案的命名就要考慮到要先確認它編碼命名的方式,是否組織類似IDF的機構?或是加入類似之組織?加入後組織編碼的設計等。在採訪選擇電子期刊或電子書時,除了內容的品質外,對於出版商或代理商提供的文章章節電子檔存取方式及是否提供跨出版商間之連結等服務也應該有所評鑑。對讀者而言,出版商與資源仲介單位如圖書館等的通力合作,提供穩定且多元的網路資源服務,才是他們所在乎的。 |
| |
(作者為本館採編組組長)
|
|
|
| 參考資料: |
| |
|