时间:2004年11月18日星期四
地点:北京新世纪饭店写字楼12层,中国数字图书馆有限责任公司
调研内容:
课题组于2004年11月18日对中国数字图书馆有限责任公司进行了调研工作,该公司的牛振东、董明楷博士对国家科学数字图书馆的工作进行了介绍,课题组的同志根据前一阶段工作中遇到的问题向牛博士、董博士请教了一些项目研制和标准制订方面的情况。他们分别对课题组提出的问题进行了详细的回答。
首先,牛博士介绍了数字图书馆标准体系建设概况。中国数字图书馆有限责任公司代表国家图书馆参加了国家科技部的课题――"我国数字图书馆标准与规范建设"。该项目由国家科技图书文献中心牵头,联合国家图书馆、国家科学数字图书馆、高等教育文献保障系统等机构共同承担。
从2002年开始到2004年,在项目第一期中根据研究内容成立了10个子项目组,目前正在申请第二期,现在只是一个研究课题,逐渐争取申报行业标准、国家标准。各个子项目组分别进行项目研究,提交各种研究成果,并参与整个项目的信息交流和发布,协作开展项目成果的推广应用工作。按照资源的生命周期,重点围绕资源的加工、存储、管理和使用等方面进行研究,其它相关标准放在二期实现,今后发展情况好的话,国家将作为一个长期跟踪的项目。
课题管理模式上比较好,特点是前期以科研单位为主,后期召开了一个全国数字图书馆标准研讨会,在会上向全社会公布草案并征求意见,并根据征求来的意见对草案进行更改及修订。通过大量行业以及公司的广泛参与,方便标准的具体应用。参与方及研制单位提供了一些试验性的软件平台进行公开的测试。一种是拿出一部分经费有项目组统一支配,委托一个开发方提供测试平台,另一种是有一个单位负责一个子项目,由该单位负责提供测试平台。
数字图书馆的这个项目划分为若干个子项目,针对不同领域,包括基本元数据标准和在资源加工时的加工数字对象标准等,分别在子项目中提供参考模型、实用指南。重点强调标准本身的规范性,没有专门强调具体使用某一种技术,只是经过调研各种技术后,最后提供主流技术现状,提出一个倾向性的意见。
标准的管理比较规范,作为一种行业规范,参与方在图书馆界代表性比较强,如国家图书馆、上海图书馆、南京图书馆、党校图书馆、北大、清华等,并不是一个单位制订出来的。标准实际上是大家愿不愿意使用,后期愿不愿意投入以及不断更新的问题,从实用的角度怎么样培育一个让大家使用的环境。
现在已经研制出了一些基本的元数据和有特色的元数据,在资源加工方面制订了一些标准,包括信息检索等,采用了一些基本元数据标准、数据检索技术等。但是本项目对于在支撑领域上的相关内容如数据加密技术不作考虑。作为标准没有必要单独考虑数据加密方面的问题,这些都要相关使用标准。
对Web语义支持在一期里强调得不是很多,多数还是在子项目中对RDF进行研究。在资源检索、总体框架里有一部分牵涉到。强调资源建设本身。总体上倾向于用xml标准进行交换。没有专门强调语义支持,在二期里可能会提出。
牛博士还对新华社的"中文新闻标识语言标准"的制订提出了自己的建议。从现在形势来看,RDF已经作为W3C推荐规范,已经是很成熟了,从应用角度上已经有很多应用了,国内较少,国外很多。在新闻行业的标准里,应规范一下RDF Schema方面的内容,属于OWL一个子集,再定义一些操作协议。现在很多网站都将基于语义检索应用起来了。对于资源描述上基本认可使用EDF规范。原来的XinhuaML的XML Schema已经做得很好了,应该以标准概念模型为重点,在原有基础上增加一层语义上的描述。从持续发展角度考虑,制订标准应该尽量与国际主流保持一致,并且把有关中文处理的方面增加补充进去。
RDF对于基于语义描述的表示能够提供形式化的表示方法,标准的核心应该在概念模型本身,建立比较抽象而带有通用性的模型。RDF只是一种工具,从逻辑角度提供一种描述方式,在整个语义表述方面是中间一层,在更上一层和下一层均牵涉很多东西,包括本体库建设、在上层构架逻辑推理注册等。但是,在标准制订过程中应避免把技术细节代入到标准中去,RDF在设计初期考虑的比较简单,在资源量比较多的情况下,牵涉到语义方面并不是心里很有底,但是基于用RDF技术构建框架是值得肯定的。
董博士提出RDF技术划分为几个层次从xml到RDF以至RDF Schema发展到顶层,他建议在使用RDF技术框架方面,标准是应制订到RDF Schema层,具体表述新闻资源用RDF表述,遵循xml规范。先抽象出核心概念模型,在定义RDF Schema,参考OWL语言。他建议在标准推行过程中要有力度,吸引各公司、院校来进行标准的进一步推广工作。各企业会积极参与制订标准,适应于标准的执行。