关于网络标注的主要方法概述
作者:张瑜 孟宪学 苏晓路 李景
[论文关键词]大众标注 语义标注 本体
[论文摘要]认为标注对于检索至关重要,网络标注在网络资源海量的今天更是如此。介绍网络中标注的方法:元数据标注、聚类标注和分类标注,并对大众标注和语义标注进行详细介绍。最后对这些标法方法进行比较分析及评价。
在网络信息爆炸的今天,让用户检索到需要的信息至关重要,因而网络环境中标注显得尤为重要。目前对于标注的定义大家没有统一的说法,但是本质上都是一致的。概括来说即通过对文献进行主题分析,识别其重要特征,赋予确切的检索标识(类号、标题词、叙词、关键词、人名、地名等),用以反映该文献内容的过程。标注的质量,对文献的检索效果有直接的决定性影响。标注的类型从不同的角度划分有无数据标注,聚类标注,传统网络的分类,web2.0中的大众标注,语义标注等。
1 几种主要网络标注方法
1.1 一些传统网络标注方法
1.1.1 元数据标注传统上元数据的创建有两种方法专业人员创建和作者创建。第一种是指在图书馆和其他组织中最初创建的元数据,大多为编目记录或由精心挑选的复杂、详细的规则集和词汇;第二种方法是指作者创建的元数据,表现为作者标注的文档可由sgml、万维网,都柏林核心集表现出束。
1.1.2 聚类分析聚类分析是将事物按其某些属性的相似程度归至各个群体。传统的文献聚类方法主要有单遍聚类法、逆中心聚类法,密度测试法、图论法等。这些方法大都通过计算文献的相似度,生成待进行聚类分析的文献集的关系矩阵,然后通过分析此矩阵获得文献集的分类。web文档聚类技术可以缩减搜索引擎的搜索空间,加快检索速度,提高查询精度,因而受到人们的广泛关注㈣。
1.1.3 传统网络分类法传统网络分类法表现为两种形式:一种是对现有文献分类法实行网络化。目前一些大型万维网站点或搜索引擎均采用现有的文献分类法组织internet信息资源。如加拿大国家图书馆利用《杜威十进分类法》编制综合性网络目录canadtan information by subject,英国bublsub,ject tree利用《国际十进分类法》编制了覆盖国内综合性网上资源的目录等;另一种是采用网络自编分类法的形式。网络自编分类法是20世纪90年代新兴的专门网络资源分类工具,以yahoo、搜狐、美国的excite等为代表的分类系统重视以事物对象为中心设置类目,以超文本的方式反映相关类目,现已发展成为许多门户网站普遍使用的一种模式。
随着internet的出现,海量的网络资源使得利用受控语言进行标注的可操作性变得越来越差,而利用自然语言进行全文检索以其方便、成本低、效率高等优点获得了全面发展,并很快成为因特网资源检索的主流技术。在专业人员创建元数据、作者创建元数据表现出种种问题情况下又出现了第三种方法;用户创建的元数据,其应用体现在web2.0中。
1.2 大众标注
web2.0的出现为用户带来了真正的个性化、去中心化和信息自主权,它是互联网的一次理念和思想体系的升级换代,由原来的自上而下的由少数资源控制者集中控制主导的互联网体系转变为自下而上的由广大用户集体智慧和力量主导的互联网体系。在web2.0中人们使用的是基于非受控词即自然语言的标注。在这里用户不仅自己应用创建的元数据,也在社区中分享,这是一种自底向上的标注方法。
社会性标签能够从群体用户分类中涌现出对应使用最多的分类,这种通过协同用户单个行为“涌现”出使用最多的分类法,是在大众用户持续使用“tag”的过程中被集体创造出来的,所以thomas vander wal将其命名为floksonomy(floksonomy,由“folks”和“taxonomy”合成),即集合众人之力产生的社会分类法。folksonomy可被译为“分众分类”、“大众分类”、“自由分类、“社会分类”、“通俗分类”,我们认为“大众标注”更能反映出“folksonomy”是一种大众性的、自由式的标注。大众标注是一种使用用户自由选择的关键词对网站进行协作分类的方式,而这些关键词一般称为标签(tag)。该方法是大众自发的用标签对网络信息标识和共享的过程,它没有权威、成形的分类文本,而是依据大众日常口头词汇对信息标记,其结果表现为系统的标签云,标签云易于直观地组织信息和共享信息,同时亦因缺乏等级结构、不精确、滥用、同义词等为研究者所质疑。但网民却接受了此种“有胜于无”的方案。
大众标注法分为宽(broad)大众标注法、窄(narrow)大众标注法。宽大众标注法指许多用户可以标注同一事物,而窄大众标注法指只有一少部分用户能够标注同一事物。
在大众标注法中,非受控词汇有着与生俱来的限制性和缺点:标签“一词多义”的现象就造成了标签的不确定性;同义词的不可控性使得相同的概念用不同的标签标注,这种“一义多词”的现象又造成协作的不便性;单词的不同格式,单复数,也经常用作不同的标签,这种情况在闪亮书签上尤为突出(中文中不存在这种单复数的问题);美味书签和闪亮书签最初设计时只是针对单个词汇的,都不允许标签中出现空格。用户就用多个不含空格的单词组成单个的标签,比如闪亮书签中的“vertigovideostlllsbbc”,有时用户在单个标签中融入层次,比如美味书签中的“deslgn/css”。这两个系统忽略了字母的大小写,这可能导致具有不同含义的标签相同,尤其是在首字母缩写时。这些都是传统分类法中应用受控词汇的原因,但是在像美味书签、闪亮书签这种语境体系中应用受控词汇是不太现实的。
检索完整性的要求需要词表对词间关系给予全面揭示,具体包括等同关系、等级关系、相关关系等。本体能够表达概念间关系的这一特点可以补偿大众标注的缺憾。
1.3 语义标注
语义web被称为web3.0,是web上数据的一种表示,它基于资源描述框架rdf来集成以xml为语法、统一资源标识符uri为命名机制的各种应用。语义web是对当前web的一种扩充,并不是一个全新的web,其研究重点就是如何将信息表示为计算机能够理解和处理的形式,即带有语义,使计算机和人能协同工作。
实现语义web目标的一个重要前提是利用本体词汇标注web资源(如web页、服务等)。本体在timbemes-lee提出的语义web的七层体系结构中位于第四层,其目的是为捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并给出这些词汇(术语)和词汇间相互关系的明确定义,通过概念之间的关系来描述概念的语义。基于本体的语义标注利用由专家定义好的本体支持内容创建者在web页中添加语义元数据,使其内容能被人和机器所理解,与大众标注相比较这是一种自顶向下的分类法。利用语义标注工具对现有的大量web信息进行标注,将使得web页的内容成为机器可识别的数据,从而构成语义web的基础。
ogemarques等认为语义网的成功在于能够在web页面及其构成上作语义标记,且是以低成本的、采用一致性结构和本体的方式。他们着力于图像语义标注的智能方式,并提出三层结构。底层组织是从原图像内容中抽取的信息,这些信息映射中间层有语义的关键词,而这些关键词又联系着顶层的结构和本体。他利用机器学习算法作用户自助的、半自动的图像标注,可以加快相同领域本体图像的标注,并且改善标注图像以后的查询和检索。
在web服务方面,下一代网络语义标注下的软件代理能比目前的软件代理更快地抽取和翻译web内容。web服务中的语义标注能够促进服务发现,也能够促进服务组合转化为工作流。但目前仅有少量的服务标注被广泛应用,这就使得这种语义标注仍然受限。khalid belhajjame等基于操作参数之间的联系,在工作流中反复试验,推断关于操作参数的相关语义信息。虽在开放的上下文环境中只能推断参数语义的约束,但这些松散的标注在工作流、标注、本体中检测错误仍然有价值,在简化手工标注的任务中也很有价值。
2 比较分析
专业人员创建元数据最主要的问题是内容扩展时的可扩性和可行性问题,尤其是在万维网中。并且专业的编目系绩工具对于没有专门培训和知识的人来说太复杂;作者创建元数据也有问题,经常出现不恰当、不准确的标注,或者完全是虚假标注。
采用聚类分析方法对用关键词或自由词标引的检索系统中的词表建立词间关系,可以形成语义网提高系统检索效率,达到语义控制的目的。但汉语词条高达数百万条使得待聚类的web文档特征词条一权重矩阵的维数过高,增加了聚类算法的复杂度,因此空间维数较高或词与词间呈现较强的相关性时聚类质量和算法的性能会明显下降。目前有许多人从事该方面的研究,其中戚涌等人提出了基于潜在语义标注(latentsemanticindexing—lsi)的web文档自动分类,即对web文档采用最优聚类准则进行聚类,使得获得的特征向量具有较低的维数和更好的分类特征。
亚当·马斯认为大众标注将取代以往由专家控制的元数据编辑管理。marieke guy认为大众标注指的就是关键词、标签、元数据,是由使用资源的社区创建的自然语言,术语间不存在层次结构,没有特定的父子与兄弟关系,有反馈现象,是种类而非分类。
而在语义标注中人们将本体引入标注系统用于知识的组织。之所以将ontology引入网络信息资源组织领域,是因为ontology的研究着眼于更加宽泛的空间——即为人类认识活动构建顶层概念框架;ontology更加突出知识共享的功能,更着眼于给出人类事物认识的知识(或领域知识)总框架,以期待将internet上的信息资源组织成一个语义网、知识网,以最大程度实现internet信息资源的有效利用。
3 评价
正如david welnberger所述,大众标注法不同于传统分类法,最重要的地方表现在传统分类法是自顶向下的、有层次的,而大众标注法是自底向上的,没有层次的。如果说传统的分类法所得的是棵分类树,那么大众标注法只是将由用户自创建的叶子堆到了一起。语义标注所依赖的本体也是一种自顶向下分类法,所以从这点来看,可以将语义标注与传统分类法归为一类,即都是使用受控词汇的分类法。但是语义标注不仅增加了可控性,更由于本体的介入获得了标注中使用语义的便捷性。
在大众标注法中可以考虑在用户添加标签后,利用人工智能和ontology的方法对标签进行分析定位,并向用户显示其所处的树状,甚至网状的知识体系结构,方便用户从整体上认识问题。这做到了大众标注自底向上与ontology自顶向下的结合。
4 结语
标注对开发者而言可以更好地组织信息,对用户而言可以更好地检索信息。传统网络,web2.0中的标注都需要ontol-ogy的引入,需要语义标注的参与。目前在语义标注方面也已经有应用研究出现,但语义标注的发展需要ontology的深度介入。不过,作为底层支持的ontology自身研究进展缓慢,尤其是国内仍然研究多于应用,这给语义标注的发展造成瓶颈。我们期待语义标注更全面的发展,以促进语义网络更快速的进步,从而能更便捷地为人所用。