元數據
元數據(英語:metadata),又稱詮釋資料、中介資料、中繼資料、後設資料等,為描述其他資料資訊的資料[1]。元數據有六種不同類型,分別是記敘性元數據、結構性元數據、管理性元數據[2]、參考性元數據、統計性元數據[3] 及法律性元數據。
- 記敘性元數據描述了用於發現與辨別意義的資源。它可以包括如標題、摘要、作者和關鍵字等元素[4]。
- 結構性元數據是有關於資料容器的元數據,指示如何整理其中複合的物件。例如頁面依甚麼排序方式組成章節。
- 管理性元數據是用於管理資源的資訊,例如資料產生的時間和方式、檔案種類和其它技術資訊,以及誰有權限存取它。
- 參考性元數據是跟內容及統計數據質素相關的資訊。
- 統計性元數據,又稱處理過程資料,會描述收集、處理或產生資料的過程。[5]
- 法律性元數據提供有關作者、著作權持有者、及公共授權條款等資訊。
內容簡介
主要是描述資料屬性(property)的資訊,用來支援如指示儲存位置、歷史資料、資源尋找、檔案記錄等功能。元數據算是一種電子式目錄,為了達到編製目錄的目的,必須在描述並收藏資料的內容或特色,進而達成協助資料檢索的目的。
該名詞起源於1969年,由Jack E. Myers所提出的.metadata即關於資料的資料(data-about-data),可以說是一種標準,是為支援互通性的資料描述,所取得一致的準則。其基本定義出自OCLC與NCSA所主辦的「Metadata Workshop」研討會。它將metadata定義為「描述資料的資料」(data about data)。此後各種有關Metadata的定義紛紛的出現。現存很多metadata的定義,主要視特定社群或使用情境而不同。如有有關資料的資料(data about data),有關資訊物件之結構的資訊(structured information about an information object),描述資源屬性的資料(Data describes attributes of resources)等。
都柏林核心集(Dublin Core Metadata Initiative,DCMI)是元數據的一種應用,是1995年2月由國際圖書館電腦中心(OCLC)和美國國家超級計算應用中心(National Center for Supercomputing Applications,NCSA)所聯合贊助的研討會,在邀請52位來自圖書館員、電腦專家,共同制定規格,建立一套描述網絡上電子檔案之特徵。
歷史
元數據傳統上用於圖書館的卡片目錄,一直到1980年代。2000年代起,數碼化成為儲存資料的普遍方式。而圖書館也將其目錄資料轉換為數碼資料庫,數碼資料也有相關的元數據標準。
不同行業有不同的元數據標準(例如,博物館收藏、數碼音樂檔案、網站等)。描述資料或資料檔的背景和內容,增加了實用性。例如一個網頁的元數據包括了有關頁面主題、編寫手稿語言(例如 HTML)、產生頁面的工具,以及哪裏有關於主題的更多資訊。這個元數據可以自動提高閱讀者的體驗,讓用戶更容易在網絡上尋找網頁。音樂CD可提供此專輯的音樂家、歌手和歌曲作者資訊的元數據。
元數據的主要目的是幫助用戶尋找相關資訊並探索資源。元數據也有助於組織電子資源,提供數碼識別,並支援歸檔和儲存資源。「由相關標準尋找、辨識資源,將相似資源集中在一起,區分不同並提供位置資訊」,元數據可幫助用戶探索資源。各國政府廣泛收集包括互聯網在內的通訊活動元數據,用於流量分析,而且可用於大規模監控。
定義
元數據是指「描述資料的資料」。雖然說源自於希臘介詞和前綴 μετά- 的英文前綴「meta」代表「之後」或「之下」的意思,在此處實際上是使用知識論中「關於」的意思。元數據被定義為提供某些資料單方面或多方面資訊的資料;它被用來概述資料的基礎資訊,以簡化尋找過程與方便使用[6]。例如:
舉例,一個數碼圖像檔案可能會包括描述圖片大小、色彩深度、圖片解像度、圖片建立時間、快門速度等資料的元數據[7]。一份文件的元數據可能會包含文件長度、作者、建立時間、文件概述等資訊。網頁中的元數據也可以包含頁面內容的描述,以及有關於內容的關鍵字等等[8]。這些東西常被稱作「元標籤」(metatags),其在1990年代後期以前被用來當作決定搜尋引擎結果順序的主要因素[8]。在1990年代後期,由於「關鍵字堆砌」的出現,對於元標籤的倚賴程度逐漸降低[8]。元標籤的濫用導致許多搜尋引擎會誤認某些結果的關聯性高於實際值[8]。
元數據可以在被稱作元數據註冊系統或元數據儲存庫的資料庫中儲存和管理[9]。不過,如果沒有文字和參考點的話,單純看是很難辨認這些元數據的[10]。舉例來說:一個資料庫本身會包含一些數字,但是這些數字代表的涵義可能是某些計算後的結果,或者是書籍的ISBN碼──這就需要參考才能知道,而無法直接由資料容器內部得知。菲利普·巴格利在1968年在他的著作《Extension of Programming Language Concepts》中發明了「metadata」這個詞,當時的意思為「描述資料容器的資料」,也就是結構性元數據,而非描述性元數據或常用於圖書館目錄的元內容(metacontent)[11][12]。自那時起,資訊管理、資訊科學、資訊技術、圖書館學與地理資訊系統等領域廣泛接受了這個詞彙。在這些領域中,元數據的定義為「描述資料的資料」[13]。儘管這是最廣為接受的定義,許多學科也為了自用而採用了特殊的解釋或定義。
類型
雖然元數據的應用層面很廣,涵蓋各式各樣的領域,有專門和公認的方法來決定元數據的類型。弗朗西斯·布雷瑟頓和辛格利(1994)將元數據分成兩類:結構性/控制性元數據和指南性元數據[14]。「結構性元數據」描述了諸如表格、欄、金鑰和索引等資料庫物件的結構。「指南性元數據」幫助人們找到特定的物品,而且經常被壓縮為一系列自然語言中的關鍵字。
根據拉爾夫·金博爾,元數據可以分成兩個相似的類別:技術性元數據和商業性元數據。「技術性元數據」等同內部性元數據,而「商業性元數據」則為外部性元數據。金博爾加入了第三種類別,「過程性元數據」。
另一方面,美國國家資訊標準組織將元數據分成三種:描述性、結構性和管理性[13]。「描述性元數據」通常用於發現和識別,作為搜尋和定位物件的資訊,例如標題、作者、科目、關鍵字、出版商等等。「結構性元數據」描述物件的構成物是如何組織起來的,舉例來說,書頁是如何組成一本書中的章節的這種資料,就是結構性元數據。最後,「管理性元數據」給予有助於管理資源的資訊。管理性元數據參考技術資訊,包括檔案類型、檔案建立時間和檔案建立方式。管理性元數據之下還有兩個小分類,權限性元數據和儲存性元數據。「權限性元數據」解釋了知識產權,而「儲存性元數據」則包含儲存和儲存資源的資訊[15]。
結構
元數據(元內容)或更正確地,用來組合元數據(元內容)陳述句的詞彙,通常依據明確定義元數據綱要的標準化概念而結構化,其中包含了:元數據的標準和模型。諸如控制詞彙表、分類學、索引典、資料字典和元數據註冊庫等工具,可針對元數據進一步標準化。結構元數據的共通性在資料模型開發和資料庫設計中也是至關重要的。
語法
元數據(metacontent)語法是指產生元數據的欄位或元素的結構規則。單一個元數據綱要可以許多不同的標記或程式語言來表達,每種標記或程式語言需要不同語法。例如,都柏林核心集(Dublin Core)可用純文字、HTML、XML和RDF來表達。
(引導)元內容的常見例子是書目分類,主題,杜威十進位圖書分類號。在任何「分類」中總是有些關於物件的隱含陳述。將物件分類為例如杜威分類號514(拓撲)(即書背上有編號為514的書),隱含的陳述是:<book><subject heading><514>。這是一個主題-謂詞-物件的三元組,更重要的,它是一個類-屬性-值的三元組,前兩個元素(類、屬性)是已有定義語義的結構元數據片段。第三個元素是一個值,最好來自一些控制詞彙表,一些參考(主)資料。
元數據和主資料元素組合為一個陳述句,它是一個元內容陳述,即「元內容 = 元數據 + 主資料」。所有這些元素都可以當作「詞彙」。元數據和主資料都是詞彙,可以彙編成為元內容陳述。這些詞彙有很多來源,包括元數據和主資料:UML,EDIFACT,XSD,Dewey/UDC/LoC,SKOS,ISO-25964,Pantone,二名法等。使用控制詞彙表作為元內容陳述的組成部分,無論是索引或尋找,都被ISO 25964認可:「如果索引和搜尋兩者從相同概念都選擇了相同的術語,那麼檢索將得到相關檔案。」
這對互聯網的搜尋引擎(如Google)尤其重要,搜尋程式使用複雜的索引演算法使搜尋的文字與網頁相符合;其中並沒有智能或「推論」發生,只是令人感覺似乎如此。
層級,線性和平面模式
元數據的模式在本質上是層級結構,即元數據元素和元素之間存在套疊的關係,因此元素之間有親子關係。層級模式的一個例子是IEEE LOM模式,其中某個元素可屬於父親的元數據元素。元數據模式也可以是一維或線性的,其中每個元素與其它元素完全不相關聯,而且只根據一維來分類。例如都柏林核心綱要就是一維的元數據模式。元數據模式通常是二維或平面的,其中每個元素與其它元素完全不相關聯,但根據兩個正交的維度來分類。
超對映
在元數據模式超出平面描述的所有情況下,需要某種類型的超對映(hypermapping)以選取觀點來顯示和檢視元數據,並提供特殊視圖。超對映通常應用於地理學的或地質資訊疊加的圖層。
細緻程度
將資料或元數據構造的程度稱為「細緻程度」(granularity),是指提供了多少資料的相關細節。具有高細緻度的元數據允許更深入、詳細和更結構化的資訊,並實現更高級別的技術操作。較低的細緻度意味着以低成本的考量來產生元數據,但沒有細節描述的資訊。細緻度的主要影響不僅在於元數據的產生和取得,而且在於其維護成本上。一旦元數據的結構變得過時,則對參考資料的存取也是如此。因此,細緻度必須考慮到產生以及維護元數據的投入。
標準
元數據有適用的國際標準。在國家和國際標準社群,特別是ANSI和ISO正完成許多工作,就元數據和登錄的標準化達成共識。元數據的核心登錄標準是ISO/IEC 11179 元數據登錄(MDR),在ISO/IEC 11179-1:2004中描述了該標準的框架。新版本的第一部份正處於2015年或2016年初發佈的最後階段,已經被修訂以符合目前版本的第三部份;而ISO/IEC 11179-3:2013,其中擴展了MDR以支援概念系統的登錄(見ISO/IEC 11179)。
此標準規範了記錄資料涵義和技術結構兩者,適合人類和計算機的無歧義用法。ISO/IEC 11179標準是指元數據為相關於資料的資訊物件,或是「有關資料的資料」。在ISO/IEC 11179第三部份中,一個資料項的資訊物件是指,描述關於其資料元素、值域和其它可重複使用語義,與用來描述意義和技術細節。此標準還規定了元數據登錄的詳細內容,以及在元數據登錄中為了登錄和管理的資訊物件。ISO/IEC 11179第三部份也預定了從其它資料元素衍生的複合結構描述,例如經過計算,一或多個資料元素的集合或其它形式的衍生資料。
此標準原先敘述本身為「資料元素」登錄,但其目的則獨立於任何特定應用程式之外,支援元數據內容的記敘和登錄,將記敘提供給人或計算機以開發新的應用程式,資料庫,或根據登錄的元數據內容來分析收集到的資料。重複利用、擴展與該標準的管理部份,此標準已成為其它類型的元數據登錄的一般基礎。
地理空間社群有專業化地理空間元數據標準的傳統,特別奠基於地圖、圖像庫和目錄之上。對於地理空間資料,正規的元數據是必要基本的,一般文字處理方法則無法適用。
都柏林核心元數據術語是一組詞彙,用於描述意圖探索的資源。最初的15個經典元數據術語被稱為都柏林核心元數據元素集,在以下標準檔案中均認可:
- IETF RFC 5013
- ISO標準 15836-2009
- NISO標準 Z39.85。
雖然微格式遵循XHTML和HTML的語義標記方法,但它本身不是一個標準,它嘗試重新利用現有的網頁標籤來傳送元數據。一位微格式的倡導者坦塔克·塞里克,說明了採行另案的問題癥結點:「我們希望你學習一種新語言,現在你需要在伺服主機上輸出這些額外的檔案。實在是麻煩。(微格式)能降低進入障礙。」
用途
相片
含有擁有者,著作權和聯繫資訊的識別元數據可能被寫入數碼相片檔案,產生檔案的相機品牌或型號以及曝光資訊(快門速度,f-stop等)和記述資訊,例如關於相片的關鍵字,使檔案或圖像可在計算機和/或互聯網上搜尋。
一些元數據由相機產生,一些元數據由攝影師和/或軟件在下載到計算機之後輸入。大多數數碼相機都會寫入關於機型、快門速度等的元數據,有些則可以編輯它;在大多數Nikon、Canon,和Pentax DSLRs相機已經提供這樣的功能。在後期製作時,使用元數據關鍵字可更方便組織。過濾器可用於分析特定的一組相片,並根據評等或攝影時間等標準來選取。
攝影元數據標準由制定以下標準的組織管理。它們包括但不限於:
- IPTC Information Interchange Model IIM (International Press Telecommunications Council),
- IPTC Core Schema for XMP
- XMP – Extensible Metadata Platform (an ISO standard)
- Exif – Exchangeable image file format, Maintained by CIPA (Camera & Imaging Products Association) and published by JEITA (Japan Electronics and Information Technology Industries Association)
- Dublin Core (Dublin Core Metadata Initiative – DCMI)
- PLUS (Picture Licensing Universal System).
- VRA Core (Visual Resource Association)
電信
關於電信通話,非通訊的內容如通話時間、起點和目地的資訊、電子訊息、即時訊息和其它電信模式,是另一種形式的元數據。在Edward Snowden公佈情報機構對通話細節記錄元數據的大量收集後,大眾對於此舉是有爭議的,例如NSA保留數百萬互聯網用戶的在線元數據長達一年,無論他們是否為該機構所關注的人物。
影片
元數據在影片中特別有用,其中關於內容資訊(例如對白字幕和場景敘述)計算機並無法理解,而是用於有效地搜尋內容。影片元數據來源有兩個來源:
- 操作收集的元數據,即內容的製作資訊,如裝置類型、軟件、日期和位置;
- 人工編輯的元數據,以提高搜尋引擎的能見度、可探索性,觀眾參與度,並向影片發行商提供廣告機會。在當今社會專業的影片編輯軟件可存取元數據,例如Avid's MetaSync和Adobe的Bridge。
網頁
網頁通常包含元標記形式的元數據。元標籤(<meta ……>
)中的敘述和關鍵字一般用於描述網頁的內容。標記元素也指示頁面描述、關鍵字、檔案作者以及最後修改的時間。網頁元數據可幫助搜尋引擎和用戶,尋找他們需求的網頁類型。
數據轉換 |
---|
概念 |
語言 |
技術和轉換 |
應用程式 |
應用領域 |
參考文獻
- ^ 存档副本. [2016-11-14]. (原始內容存檔於2015-02-27).
- ^ Zeng, Marcia. Metadata Types and Functions. NISO. 2004 [5 October 2016]. (原始內容存檔於2016-10-07).
- ^ Directorate, OECD Statistics. OECD Glossary of Statistical Terms - Reference metadata Definition. stats.oecd.org. [2018-05-24].
- ^ National Information Standards Organization (NISO). Understanding Metadata (PDF). NISO Press. 2001 [2016-11-14]. ISBN 1-880124-62-9. (原始內容 (PDF)存檔於2014-11-07).
- ^ Dippo, Cathryn. The Role of Metadata in Statistics (PDF). Bureau of Labor Statistics.
- ^ A Guardian Guide to your Metadata. theguardian.com. Guardian News and Media Limited. 12 June 2013 [2016-11-14]. (原始內容存檔於2014-05-22).
- ^ ADEO Imaging: TIFF Metadata. [2013-05-20]. (原始內容存檔於2013-05-17).
- ^ 8.0 8.1 8.2 8.3 Rouse, Margaret. Metadata. WhatIs. TechTarget. July 2014 [2016-11-14]. (原始內容存檔於2015-10-29).
- ^ Hüner, K.; Otto, B.; Österle, H.: Collaborative management of business metadata, in: International Journal of Information Management, 2011
- ^ Metadata Standards And Metadata Registries: An Overview (PDF). [2011-12-23]. (原始內容存檔 (PDF)於2011-06-29).
- ^ Philip Bagley. Extension of programming language concepts (PDF). Philadelphia: University City Science Center. November 1968 [2016-11-14]. (原始內容存檔 (PDF)於2012-11-30).
- ^ "The notion of "metadata" introduced by Bagley". Solntseff, N+1; Yezerski, A. A survey of extensible programming languages. Annual Review in Automatic Programming 7. Elsevier Science Ltd: 267–307. 1974. doi:10.1016/0066-4138(74)90001-9.
- ^ 13.0 13.1 NISO. Understanding Metadata (PDF). NISO Press. [5 January 2010]. ISBN 1-880124-62-9. (原始內容 (PDF)存檔於2014年11月7日).
- ^ Bretherton, F. P.; Singley, P.T. Metadata: A User's View, Proceedings of the International Conference on Very Large Data Bases (VLDB): 1091–1094. 1994.
- ^ National Information Standards Organization; Rebecca Guenther; Jaqueline Radebaugh. Understanding Metadata (PDF). Bethesda, MD: NISO Press. 2004 [2 April 2014]. ISBN 1-880124-62-9. (原始內容 (PDF)存檔於2014年11月7日).