欢迎来到中博奥技术有限公司官网

数字档案馆可以没有全文数据库吗?

时间:2022-04-02 作者: 来源:网络 点击量:

 建设数字档案馆的目的,除了适应现代信息技术发展的环境而信息化外,“数字档案馆的建设的最终目的不是保存,而是以有效利用为目的”

  [1]“数字档案馆信息服务是提高档案信息资源利用率,实现档案信息价值的直接手段。”

  [2]“建设数字档案馆的目的之一是直接向用户提供所需的最终信息,而不只是获得信息的线索,即二次信息,如目录、索引等,因而没有最终全文信息的系统也不是数字档案馆。”

  [3]“档案信息数字化的关键内容是档案全文数字化,只有将档案全文信息公布于网上,才能真正发挥档案信息网络的现实功能,构建现代意义上的数字档案馆,使档案用户在足不出户的情况下借助网络查阅档案,获取档案信息。”

  [4]“理想的档案全文库必须具备对超大规模分布式多媒体档案信息库的有序组织和跨库快速查询功能。”“能够按照确定的知识结构有效组织大量分布式的、不同类型、不同数据结构的数字化档案信息库,并为之建立有效的检索系统。”“包括数据库检索技术、全文检索技术、图像内容查询技术以及数字化音频和视频信息的查询技术等。”

  [5]“对于社会用户,数字档案馆实现档案全文检索,远程借阅和查看,可以将档案信息发布到互联网及其他公共网上,与档案馆Web网站信息进行集成,以建立信息服务与共享的平台,供用户查询浏览。”

  [6]“检索功能是数字档案馆发展的基础和关键”,

  [7]“数字档案馆采用带有先进检索功能的全文数据库,用户可通过对元数据的检索获取档案全文,是一种目前应用较为普遍的方式。”

  [8]通过以上的阐述,可以看出建设数字档案馆的目的是为了利用并且能够提高利用效率,而要达到这一目的,建设档案全文数据库是基础,实现全文检索是手段。档案全文数据库是前提,没有档案全文数据库就无法实施全文检索,没有全文检索就不能体现数字档案馆提高档案信息资源利用率的优越性。这样来看档案全文数据库不仅是数字档案馆的基础,甚至是数字档案馆的核心、灵魂,而如果没有档案全文数据库的数字档案馆就是失去了核心、灵魂,甚至就变得没有意义。

  然而,在实际中有一种让人说不清的现象,就是建设数字档案馆中,并不十分关注档案全文数据库建设的问题,其表现:一是忽略档案全文数据库建设。如国家档案局的《数字档案馆建设指南》虽然指出:“数字档案资源建设是数字档案馆建设的核心内容”,

  但是,在整部《数字档案馆建设指南》中没有提及档案全文数据库建设的问题,根本没有对档案全文数据库建设的要求。在国家档案局《数字档案馆系统测试办法》中也同样没有提及档案全文数据库的问题,也没有对档案全文数据库建设的要求,而仅仅有对档案目录数据库的要求。二是误读档案全文数据库。

  在许多数字档案馆建设的地方,大都称已建立了档案全文数据库,但是,也不知是不理解什么是档案全文数据库,还是误解档案全文数据库,实际并没有建立档案全文数据库,而是将档案全文扫描图像误认为是档案全文数据库。实际只是对档案原文进行图像数字化扫描,生成的只是一幅幅图像,并不能对其内容进行直接检索,而是通过挂接到档案目录数据库,靠检索档案目录来指引查阅档案原文。这种现象从一些地方数字档案馆的建设费用上就可以看出来。例如,一个通过国家示范数字档案馆测试的档案馆,共投资560万元,包括机房、软硬件平台、数字档案馆管理软件、“加工档案96779卷,建成了159万条目录数据库、1085万页全文数据库、36027张照片数据库、11160分钟的多媒体数据库,12809条图书资料目录数据库”

  [9]等。一般加工一页全文档案(扫描、文字识别、校对)至少1元,而且年代越远的档案其加工成本会更高。那么,仅1085万页全文就需要资金1085万,仅此一项几乎是总投资2倍。所以,可以肯定其不是全文数据库,而只是全文图像数据库,也就是无法进行档案全文检索的档案信息。三是对档案全文数据库文字识别的标准问题。

  对于档案全文数据库最基础的纸质档案资源的数字化加工,档案行业标准《纸质档案数字化技术规范》(DA/T31—2017)根本没有有关档案全文文字识别的问题,该规范只对纸质档案数字化扫描图像的分辨率做了规定。也就是对于档案全文的数字化文字识别的问题根本没有标准。对于文字识别率的问题,有专家认为:“识别率一般达到90%以上,已经基本满足档案全文检索的需要了。有的人片面追求识别率,一定要求识别率达到98%-99%的,反复校对,实际上是浪费人力物力。”

  [10]实际90%的识别率对档案全文检索还是有相当影响的,达到98%-99%可能有些要求高,至少应该在95-98%以内。但是,OCR只能对现代正规的打印体识别率较高,对于手写体、钢板刻字以及打字机打字蜡纸油印的字体的识别率并不高,特别是前两者。至于竖版的档案就更别说了。而在市县级档案馆保存的档案中,现代正规的打印体的并不多,大部分都是后者。就像计算机的普及一样,先省后市,然后才是县乡,先经济发达地方,后经济落后地方,从手写到钢板刻字再到打字机打字,也是如此。

  目前,大多数建成的数字档案馆其实都没有建设档案全文数据库,都是只做了档案目录数据库,而是将扫描的档案全文图像挂接到档案目录数据库中,靠检索档案目录来指引查阅档案原文。这样的检索功能,其实不论是计算机的Windows,还是excel都能够做到。如果,数字档案馆没有档案全文数据库,而只是靠档案目录数据库检索,似乎既失去了灵魂,又白白地投入了巨资。

  如果,没有档案全文信息的系统不是数字档案馆的话,那么,现在大多数建成的数字档案馆似乎就不是数字档案馆了。当然,这样简单的否定似乎并没有意义,这种现象值得探讨。国家档案局的《数字档案馆建设指南》和《数字档案馆系统测试办法》中没有提及档案全文数据库建设的问题,也没有对档案全文数据库建设的要求,应该不是随随便便忽略的,应该是有考量的,可能认为档案目录数据库外挂档案全文扫描图像的形式就是数字档案馆,如果是这样,那么,认为没有档案全文信息的系统不是数字档案馆的观点就不一定正确,或者说这两种观点都正确,只是对档案全文的认识不同,档案全文扫描图像是档案全文,档案全文进行文字识别的也是档案全文,它们没有区别。问题是它们真的没有区别吗?信息化的优势是什么?也就是数字档案馆的优势是什么?

  数字档案馆(信息化)的优势是不是实现全文级的检索?当然,也可能档案达到目录级检索就可以了,没有必要进行全文级的检索。如果是这样,数字档案馆还需要不需要这样从软硬件方面大量投巨资一个一个地单独建设呢?另外的问题是面对数字档案馆不能提高档案利用率的问题,又该如何解释呢?是不是由于数字档案馆没有实现全文级的检索造成的呢?如果不是,那又是什么原因呢?难道档案这种信息不适合信息化?

标签

我是中博奥客服:小奥
中博奥技术有限公司& 版权所有工信部备案号:豫ICP备11015869号-8 Copyright © 2023-2024

档案整理档案数字化

档案扫描档案管理软件系统

TEL:18937133779

To Top