资讯中心 -金沙1005

数字档案馆指档案收集、处理、存储、查询等档案管理活动的数字化、电子化、网络化，即虚拟档案。它是基于计算机网络技术、数据库技术以及多媒体技术的发展而产生的新型档案馆。数字档案馆是一个数字化的信息系统，它把分散于不同载体不同地理位置的信息资源以数字化的形式存贮，以网络方式互相联结，从而提供及时利用，实现资源共享。

全文数据库建设的问题

在实际中有一种让人说不清的现象，就是建设数字档案馆中，并不十分关注档案全文数据库建设的问题，其表现：

1.忽略档案全文数据库建设

一是忽略档案全文数据库建设。如国家档案局的《数字档案馆建设指南》虽然指出：“数字档案资源建设是数字档案馆建设的核心内容”，但是，在整部《数字档案馆建设指南》中没有提及档案全文数据库建设的问题，根本没有对档案全文数据库建设的要求。在国家档案局《数字档案馆系统测试办法》中也同样没有提及档案全文数据库的问题，也没有对档案全文数据库建设的要求，而仅仅有对档案目录数据库的要求。

2.忽略档案全文数据库建设

二是误读档案全文数据库。在许多数字档案馆建设的地方，大都称已建立了档案全文数据库，但是，也不知是不理解什么是档案全文数据库，还是误解档案全文数据库，实际并没有建立档案全文数据库，而是将档案全文扫描图像误认为是档案全文数据库。实际只是对档案原文进行图像数字化扫描，生成的只是一幅幅图像，并不能对其内容进行直接检索，而是通过挂接到档案目录数据库，靠检索档案目录来指引查阅档案原文。这种现象从一些地方数字档案馆的建设费用上就可以看出来。例如，一个通过国家示范数字档案馆测试的档案馆，共投资560万元，包括机房、软硬件平台、数字档案馆管理软件、“加工档案96779卷，建成了159万条目录数据库、1085万页全文数据库、36027张照片数据库、11160分钟的多媒体数据库，12809条图书资料目录数据库”等。一般加工一页全文档案（扫描、文字识别、校对）至少1元，而且年代越远的档案其加工成本会更高。那么，仅1085万页全文就需要资金1085万，仅此一项几乎是总投资2倍。所以，可以肯定其不是全文数据库，而只是全文图像数据库，也就是无法进行档案全文检索的档案信息。

3.对档案全文数据库文字识别的标准问题

三是对档案全文数据库文字识别的标准问题。对于档案全文数据库最基础的纸质档案资源的数字化加工，档案行业标准《纸质档案数字化技术规范》（da/t31—2017）根本没有有关档案全文文字识别的问题，该规范只对纸质档案数字化扫描图像的分辨率做了规定。也就是对于档案全文的数字化文字识别的问题根本没有标准。对于文字识别率的问题，有专家认为：“识别率一般达到90%以上，已经基本满足档案全文检索的需要了。有的人片面追求识别率，一定要求识别率达到98%-99%的，反复校对，实际上是浪费人力物力。”实际90%的识别率对档案全文检索还是有相当影响的，达到98%-99%可能有些要求高，至少应该在95-98%以内。但是，ocr只能对现代正规的打印体识别率较高，对于手写体、钢板刻字以及打字机打字蜡纸油印的字体的识别率并不高，特别是前两者。至于竖版的档案就更别说了。而在市县级档案馆保存的档案中，现代正规的打印体的并不多，大部分都是后者。就像计算机的普及一样，先省后市，然后才是县乡，先经济发达地方，后经济落后地方，从手写到钢板刻字再到打字机打字，也是如此。

近日，知识管理专家会博通“知识检索功能”及“百度ocr”功能上线，将以更前沿的技术手段，更便捷的档案数字化管理方式，提升对全文数字库的管理，从而提升数字档案馆的管理效益。