元数据
元数据(英语:metadata),又称诠释资料、中介资料、中继资料、后设资料等,为描述其他资料信息的资料[1]。元数据有六种不同类型,分别是记叙性元数据、结构性元数据、管理性元数据[2]、参考性元数据、统计性元数据[3] 及法律性元数据。
- 记叙性元数据描述了用于发现与辨别意义的资源。它可以包括如标题、摘要、作者和关键字等元素[4]。
- 结构性元数据是有关于资料容器的元数据,指示如何整理其中复合的对象。例如页面依什么排序方式组成章节。
- 管理性元数据是用于管理资源的信息,例如资料产生的时间和方式、文件种类和其它技术信息,以及谁有权限访问它。
- 参考性元数据是跟内容及统计数据质量相关的信息。
- 统计性元数据,又称处理过程资料,会描述收集、处理或产生资料的过程。[5]
- 法律性元数据提供有关作者、著作权持有者、及公共授权条款等信息。
内容简介
主要是描述资料属性(property)的信息,用来支持如指示存储位置、历史资料、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏资料的内容或特色,进而达成协助资料检索的目的。
该名词起源于1969年,由Jack E. Myers所提出的.metadata即关于资料的资料(data-about-data),可以说是一种标准,是为支持互通性的资料描述,所获取一致的准则。其基本定义出自OCLC与NCSA所主办的“Metadata Workshop”研讨会。它将metadata定义为“描述资料的资料”(data about data)。此后各种有关Metadata的定义纷纷的出现。现存很多metadata的定义,主要视特定社群或使用情境而不同。如有有关资料的资料(data about data),有关信息对象之结构的信息(structured information about an information object),描述资源属性的资料(Data describes attributes of resources)等。
都柏林核心集(Dublin Core Metadata Initiative,DCMI)是元数据的一种应用,是1995年2月由国际图书馆电脑中心(OCLC)和美国国家超级计算应用中心(National Center for Supercomputing Applications,NCSA)所联合赞助的研讨会,在邀请52位来自图书馆员、电脑专家,共同制定规格,建立一套描述网络上电子文件之特征。
历史
元数据传统上用于图书馆的卡片目录,一直到1980年代。2000年代起,数字化成为存储资料的普遍方式。而图书馆也将其目录资料转换为数字数据库,数字资料也有相关的元数据标准。
不同行业有不同的元数据标准(例如,博物馆收藏、数字音乐文件、网站等)。描述资料或资料档的背景和内容,增加了实用性。例如一个网页的元数据包括了有关页面主题、编写脚本语言(例如 HTML)、产生页面的工具,以及哪里有关于主题的更多信息。这个元数据可以自动提高阅读者的体验,让用户更容易在网络上查找网页。音乐CD可提供此专辑的音乐家、歌手和歌曲作者信息的元数据。
元数据的主要目的是帮助用户查找相关信息并探索资源。元数据也有助于组织电子资源,提供数字识别,并支持归档和保存资源。“由相关标准查找、识别资源,将相似资源集中在一起,区分不同并提供位置信息”,元数据可帮助用户探索资源。各国政府广泛收集包括互联网在内的通信活动元数据,用于流量分析,而且可用于大规模监控。
定义
元数据是指“描述资料的资料”。虽然说源自于希腊介词和前缀 μετά- 的英文前缀“meta”代表“之后”或“之下”的意思,在此处实际上是使用知识论中“关于”的意思。元数据被定义为提供某些资料单方面或多方面信息的资料;它被用来概述资料的基础信息,以简化查找过程与方便使用[6]。例如:
举例,一个数字图像文件可能会包括描述图片大小、色彩深度、图片分辨率、图片建立时间、快门速度等资料的元数据[7]。一份文档的元数据可能会包含文档长度、作者、建立时间、文档概述等信息。网页中的元数据也可以包含页面内容的描述,以及有关于内容的关键字等等[8]。这些东西常被称作“元标签”(metatags),其在1990年代后期以前被用来当作决定搜索引擎结果顺序的主要因素[8]。在1990年代后期,由于“关键字堆砌”的出现,对于元标签的倚赖程度逐渐降低[8]。元标签的滥用导致许多搜索引擎会误认某些结果的关系性高于实际值[8]。
元数据可以在被称作元数据注册系统或元数据存储库的数据库中存储和管理[9]。不过,如果没有文字和参考点的话,单纯看是很难辨认这些元数据的[10]。举例来说:一个数据库本身会包含一些数字,但是这些数字代表的涵义可能是某些计算后的结果,或者是书籍的ISBN码──这就需要参考才能知道,而无法直接由资料容器内部得知。菲利普·巴格利在1968年在他的著作《Extension of Programming Language Concepts》中发明了“metadata”这个词,当时的意思为“描述资料容器的资料”,也就是结构性元数据,而非描述性元数据或常用于图书馆目录的元内容(metacontent)[11][12]。自那时起,信息管理、信息学、信息技术、图书馆学与地理信息系统等领域广泛接受了这个词汇。在这些领域中,元数据的定义为“描述资料的资料”[13]。尽管这是最广为接受的定义,许多学科也为了自用而采用了特殊的解释或定义。
类型
虽然元数据的应用层面很广,涵盖各式各样的领域,有专门和公认的方法来决定元数据的类型。弗朗西斯·布雷瑟顿和辛格利(1994)将元数据分成两类:结构性/控制性元数据和指南性元数据[14]。“结构性元数据”描述了诸如表格、栏、密钥和索引等数据库对象的结构。“指南性元数据”帮助人们找到特定的物品,而且经常被压缩为一系列自然语言中的关键字。
根据拉尔夫·金博尔,元数据可以分成两个相似的类别:技术性元数据和商业性元数据。“技术性元数据”等同内部性元数据,而“商业性元数据”则为外部性元数据。金博尔加入了第三种类别,“过程性元数据”。
另一方面,美国国家信息标准组织将元数据分成三种:描述性、结构性和管理性[13]。“描述性元数据”通常用于发现和识别,作为搜索和定位对象的信息,例如标题、作者、科目、关键字、出版商等等。“结构性元数据”描述对象的构成物是如何组织起来的,举例来说,书页是如何组成一本书中的章节的这种资料,就是结构性元数据。最后,“管理性元数据”给予有助于管理资源的信息。管理性元数据参考技术信息,包括文件类型、文件建立时间和文件建立方式。管理性元数据之下还有两个小分类,权限性元数据和保存性元数据。“权限性元数据”解释了知识产权,而“保存性元数据”则包含保存和存储资源的信息[15]。
结构
元数据(元内容)或更正确地,用来组合元数据(元内容)陈述句的词汇,通常依据明确定义元数据纲要的标准化概念而结构化,其中包含了:元数据的标准和模型。诸如控制词汇表、分类学、索引典、资料字典和元数据注册库等工具,可针对元数据进一步标准化。结构元数据的共通性在资料模型开发和数据库设计中也是至关重要的。
语法
元数据(metacontent)语法是指产生元数据的字段或元素的结构规则。单一个元数据纲要可以许多不同的标记或编程语言来表达,每种标记或编程语言需要不同语法。例如,都柏林核心集(Dublin Core)可用纯文字、HTML、XML和RDF来表达。
(引导)元内容的常见例子是书目分类,主题,杜威十进制图书分类号。在任何“分类”中总是有些关于对象的隐含陈述。将对象分类为例如杜威分类号514(拓扑)(即书背上有编号为514的书),隐含的陈述是:<book><subject heading><514>。这是一个主题-谓词-对象的三元组,更重要的,它是一个类-属性-值的三元组,前两个元素(类、属性)是已有定义语义的结构元数据片段。第三个元素是一个值,最好来自一些控制词汇表,一些参考(主)资料。
元数据和主资料元素组合为一个陈述句,它是一个元内容陈述,即“元内容 = 元数据 + 主资料”。所有这些元素都可以当作“词汇”。元数据和主资料都是词汇,可以汇编成为元内容陈述。这些词汇有很多来源,包括元数据和主资料:UML,EDIFACT,XSD,Dewey/UDC/LoC,SKOS,ISO-25964,Pantone,二名法等。使用控制词汇表作为元内容陈述的组成部分,无论是索引或查找,都被ISO 25964认可:“如果索引和搜索两者从相同概念都选择了相同的术语,那么检索将得到相关文件。”
这对互联网的搜索引擎(如Google)尤其重要,搜索程序使用复杂的索引算法使搜索的文字与网页相符合;其中并没有智能或“推论”发生,只是令人感觉似乎如此。
层级,线性和平面模式
元数据的模式在本质上是层级结构,即元数据元素和元素之间存在套叠的关系,因此元素之间有亲子关系。层级模式的一个例子是IEEE LOM模式,其中某个元素可属于父亲的元数据元素。元数据模式也可以是一维或线性的,其中每个元素与其它元素完全不相关系,而且只根据一维来分类。例如都柏林核心纲要就是一维的元数据模式。元数据模式通常是二维或平面的,其中每个元素与其它元素完全不相关系,但根据两个正交的维度来分类。
超映射
在元数据模式超出平面描述的所有情况下,需要某种类型的超映射(hypermapping)以选取观点来显示和查看元数据,并提供特殊视图。超映射通常应用于地理学的或地质信息叠加的图层。
细致程度
将资料或元数据构造的程度称为“细致程度”(granularity),是指提供了多少资料的相关细节。具有高细致度的元数据允许更深入、详细和更结构化的信息,并实现更高级别的技术操作。较低的细致度意味着以低成本的考量来产生元数据,但没有细节描述的信息。细致度的主要影响不仅在于元数据的产生和获取,而且在于其维护成本上。一旦元数据的结构变得过时,则对参考资料的访问也是如此。因此,细致度必须考虑到产生以及维护元数据的投入。
标准
元数据有适用的国际标准。在国家和国际标准社群,特别是ANSI和ISO正完成许多工作,就元数据和登录的标准化达成共识。元数据的核心登录标准是ISO/IEC 11179 元数据登录(MDR),在ISO/IEC 11179-1:2004中描述了该标准的框架。新版本的第一部分正处于2015年或2016年初发布的最后阶段,已经被修订以符合当前版本的第三部分;而ISO/IEC 11179-3:2013,其中扩展了MDR以支持概念系统的登录(见ISO/IEC 11179)。
此标准规范了记录资料涵义和技术结构两者,适合人类和计算机的无歧义用法。ISO/IEC 11179标准是指元数据为相关于资料的信息对象,或是“有关资料的资料”。在ISO/IEC 11179第三部分中,一个资料项的信息对象是指,描述关于其资料元素、值域和其它可重复使用语义,与用来描述意义和技术细节。此标准还规定了元数据登录的详细内容,以及在元数据登录中为了登录和管理的信息对象。ISO/IEC 11179第三部分也预定了从其它资料元素派生的复合结构描述,例如经过计算,一或多个资料元素的集合或其它形式的派生资料。
此标准原先叙述本身为“资料元素”登录,但其目的则独立于任何特定应用程序之外,支持元数据内容的记叙和登录,将记叙提供给人或计算机以开发新的应用程序,数据库,或根据登录的元数据内容来分析收集到的资料。重复利用、扩展与该标准的管理部分,此标准已成为其它类型的元数据登录的一般基础。
地理空间社群有专业化地理空间元数据标准的传统,特别奠基于地图、图像库和目录之上。对于地理空间资料,正规的元数据是必要基本的,一般文字处理方法则无法适用。
都柏林核心元数据术语是一组词汇,用于描述意图探索的资源。最初的15个经典元数据术语被称为都柏林核心元数据元素集,在以下标准文件中均认可:
- IETF RFC 5013
- ISO标准 15836-2009
- NISO标准 Z39.85。
虽然微格式遵循XHTML和HTML的语义标记方法,但它本身不是一个标准,它尝试重新利用现有的网页标签来发送元数据。一位微格式的倡导者坦塔克·塞里克,说明了采行另案的问题症结点:“我们希望你学习一种新语言,现在你需要在伺服主机上输出这些额外的文件。实在是麻烦。(微格式)能降低进入障碍。”
用途
照片
含有拥有者,著作权和联系信息的识别元数据可能被写入数字照片文件,产生文件的相机品牌或型号以及曝光信息(快门速度,f-stop等)和记述信息,例如关于照片的关键字,使文件或图像可在计算机和/或互联网上搜索。
一些元数据由相机产生,一些元数据由摄影师和/或软件在下载到计算机之后输入。大多数数字相机都会写入关于机型、快门速度等的元数据,有些则可以编辑它;在大多数Nikon、Canon,和Pentax DSLRs相机已经提供这样的功能。在后期制作时,使用元数据关键字可更方便组织。过滤器可用于分析特定的一组照片,并根据评等或摄影时间等标准来选取。
摄影元数据标准由制定以下标准的组织管理。它们包括但不限于:
- IPTC Information Interchange Model IIM (International Press Telecommunications Council),
- IPTC Core Schema for XMP
- XMP – Extensible Metadata Platform (an ISO standard)
- Exif – Exchangeable image file format, Maintained by CIPA (Camera & Imaging Products Association) and published by JEITA (Japan Electronics and Information Technology Industries Association)
- Dublin Core (Dublin Core Metadata Initiative – DCMI)
- PLUS (Picture Licensing Universal System).
- VRA Core (Visual Resource Association)
电信
关于电信通话,非通信的内容如通话时间、起点和目地的信息、电子消息、即时消息和其它电信模式,是另一种形式的元数据。在Edward Snowden公布情报机构对通话细节记录元数据的大量收集后,大众对于此举是有争议的,例如NSA保留数百万互联网用户的在线元数据长达一年,无论他们是否为该机构所关注的人物。
影片
元数据在影片中特别有用,其中关于内容信息(例如对白字幕和场景叙述)计算机并无法理解,而是用于有效地搜索内容。影片元数据来源有两个来源:
- 操作收集的元数据,即内容的制作信息,如设备类型、软件、日期和位置;
- 人工编辑的元数据,以提高搜索引擎的能见度、可探索性,观众参与度,并向影片发行商提供广告机会。在当今社会专业的影片编辑软件可访问元数据,例如Avid's MetaSync和Adobe的Bridge。
网页
网页通常包含元标记形式的元数据。元标签(<meta ……>
)中的叙述和关键字一般用于描述网页的内容。标记元素也指示页面描述、关键字、文件作者以及最后修改的时间。网页元数据可帮助搜索引擎和用户,查找他们需求的网页类型。
数据转换 |
---|
概念 |
语言 |
技术和转换 |
应用程序 |
应用领域 |
参考文献
- ^ 存档副本. [2016-11-14]. (原始内容存档于2015-02-27).
- ^ Zeng, Marcia. Metadata Types and Functions. NISO. 2004 [5 October 2016]. (原始内容存档于2016-10-07).
- ^ Directorate, OECD Statistics. OECD Glossary of Statistical Terms - Reference metadata Definition. stats.oecd.org. [2018-05-24].
- ^ National Information Standards Organization (NISO). Understanding Metadata (PDF). NISO Press. 2001 [2016-11-14]. ISBN 1-880124-62-9. (原始内容 (PDF)存档于2014-11-07).
- ^ Dippo, Cathryn. The Role of Metadata in Statistics (PDF). Bureau of Labor Statistics.
- ^ A Guardian Guide to your Metadata. theguardian.com. Guardian News and Media Limited. 12 June 2013 [2016-11-14]. (原始内容存档于2014-05-22).
- ^ ADEO Imaging: TIFF Metadata. [2013-05-20]. (原始内容存档于2013-05-17).
- ^ 8.0 8.1 8.2 8.3 Rouse, Margaret. Metadata. WhatIs. TechTarget. July 2014 [2016-11-14]. (原始内容存档于2015-10-29).
- ^ Hüner, K.; Otto, B.; Österle, H.: Collaborative management of business metadata, in: International Journal of Information Management, 2011
- ^ Metadata Standards And Metadata Registries: An Overview (PDF). [2011-12-23]. (原始内容存档 (PDF)于2011-06-29).
- ^ Philip Bagley. Extension of programming language concepts (PDF). Philadelphia: University City Science Center. November 1968 [2016-11-14]. (原始内容存档 (PDF)于2012-11-30).
- ^ "The notion of "metadata" introduced by Bagley". Solntseff, N+1; Yezerski, A. A survey of extensible programming languages. Annual Review in Automatic Programming 7. Elsevier Science Ltd: 267–307. 1974. doi:10.1016/0066-4138(74)90001-9.
- ^ 13.0 13.1 NISO. Understanding Metadata (PDF). NISO Press. [5 January 2010]. ISBN 1-880124-62-9. (原始内容 (PDF)存档于2014年11月7日).
- ^ Bretherton, F. P.; Singley, P.T. Metadata: A User's View, Proceedings of the International Conference on Very Large Data Bases (VLDB): 1091–1094. 1994.
- ^ National Information Standards Organization; Rebecca Guenther; Jaqueline Radebaugh. Understanding Metadata (PDF). Bethesda, MD: NISO Press. 2004 [2 April 2014]. ISBN 1-880124-62-9. (原始内容 (PDF)存档于2014年11月7日).