数字档案馆指档案收集、处理、存储、查询等档案管理活动的数字化、电子化、网络化,即虚拟档案。它是基于计算机网络技术、数据库技术以及多媒体技术的发展而产生的新型档案馆。数字档案馆是一个数字化的信息系统,它把分散于不同载体不同地理位置的信息资源以数字化的形式存贮,以网络方式互相联结,从而提供及时利用,实现资源共享。
全文数据库建设的问题
在实际中有一种让人说不清的现象,就是建设数字档案馆中,并不十分关注档案全文数据库建设的问题,其表现:
1.忽略档案全文数据库建设
一是忽略档案全文数据库建设。如国家档案局的《数字档案馆建设指南》虽然指出:“数字档案资源建设是数字档案馆建设的核心内容”,但是,在整部《数字档案馆建设指南》中没有提及档案全文数据库建设的问题,根本没有对档案全文数据库建设的要求。在国家档案局《数字档案馆系统测试办法》中也同样没有提及档案全文数据库的问题,也没有对档案全文数据库建设的要求,而仅仅有对档案目录数据库的要求。
2.忽略档案全文数据库建设
二是误读档案全文数据库。在许多数字档案馆建设的地方,大都称已建立了档案全文数据库,但是,也不知是不理解什么是档案全文数据库,还是误解档案全文数据库,实际并没有建立档案全文数据库,而是将档案全文扫描图像误认为是档案全文数据库。实际只是对档案原文进行图像数字化扫描,生成的只是一幅幅图像,并不能对其内容进行直接检索,而是通过挂接到档案目录数据库,靠检索档案目录来指引查阅档案原文。这种现象从一些地方数字档案馆的建设费用上就可以看出来。例如,一个通过国家示范数字档案馆测试的档案馆,共投资560万元,包括机房、软硬件平台、数字档案馆管理软件、“加工档案96779卷,建成了159万条目录数据库、1085万页全文数据库、36027张照片数据库、11160分钟的多媒体数据库,12809条图书资料目录数据库”等。一般加工一页全文档案(扫描、文字识别、校对)至少1元,而且年代越远的档案其加工成本会更高。那么,仅1085万页全文就需要资金1085万,仅此一项几乎是总投资2倍。所以,可以肯定其不是全文数据库,而只是全文图像数据库,也就是无法进行档案全文检索的档案信息。
3.对档案全文数据库文字识别的标准问题
三是对档案全文数据库文字识别的标准问题。对于档案全文数据库最基础的纸质档案资源的数字化加工,档案行业标准《纸质档案数字化技术规范》(da/t31—2017)根本没有有关档案全文文字识别的问题,该规范只对纸质档案数字化扫描图像的分辨率做了规定。也就是对于档案全文的数字化文字识别的问题根本没有标准。对于文字识别率的问题,有专家认为:“识别率一般达到90%以上,已经基本满足档案全文检索的需要了。有的人片面追求识别率,一定要求识别率达到98%-99%的,反复校对,实际上是浪费人力物力。”实际90%的识别率对档案全文检索还是有相当影响的,达到98%-99%可能有些要求高,至少应该在95-98%以内。但是,ocr只能对现代正规的打印体识别率较高,对于手写体、钢板刻字以及打字机打字蜡纸油印的字体的识别率并不高,特别是前两者。至于竖版的档案就更别说了。而在市县级档案馆保存的档案中,现代正规的打印体的并不多,大部分都是后者。就像计算机的普及一样,先省后市,然后才是县乡,先经济发达地方,后经济落后地方,从手写到钢板刻字再到打字机打字,也是如此。
近日,知识管理专家会博通“知识检索功能”及“百度ocr”功能上线,将以更前沿的技术手段,更便捷的档案数字化管理方式,提升对全文数字库的管理,从而提升数字档案馆的管理效益。