会博通借助于百度ai云服务来提供图片、pdf文件的在线ocr服务,正确配置好ocr服务的相关参数后,当用户上传扫描图片文件后,系统将会分派一个后台任务,在系统空闲的时候,对文件进行文字识别成为文本文件,以方便系统进行全文检索和再利用。
用户也可以在文件属性页面,或邮件的附件列表页面,查看ocr的成果文件(按钮名称为文本)。
因为进行ocr识别需要访问百度智能云ai服务器,所以,系统管理员应确认是否具备互联网连接条件,并预先申请百度智能云账号,配置好系统参数。
ocr的识别效果,与图片的质量密切相关。
注册百度智能云帐号
登录百度ai金沙1005官网()然后注册百度智能云ai帐号,点击控制台-文字识别-创建应用。然后填写应用程序名和应用类型,创建应用。进入应用列表后可以查看应用的api key和secret key。
百度ai,一般普通识别,提供每天5万次的免费识别额度,对于一般用户已经足够,如果有特殊需求的用户也可以购买百度的ocr额度。具体可以参考百度的相关资料或咨询百度客服。
配置会博通ocr
参数 |
说明 |
ocr_engine |
ocr引擎参数,off或为空时不进行ocr,baiduai_ocr_online即百度智能云ocr在线。 |
ocr_baiduai_suffix |
文件正文、文件附件以及邮件附件可自动生成ocr成果文件的文件类型,如png、jpg、tif等。 |
ocr_baiduai_clientid |
百度智能云ocr在线应用账号(应用id) |
ocr_baiduai_clientsecret |
百度智能云ocr在线应用账号对应的密钥 |
ocr_baiduai_basic |
是否返回ocr的位置信息,默认为0不返回位置信息,设置为1时返回位置信息。该参数暂时可只设为0,并且,无论设为0或1,返回的结果文件均为txt格式。 |
说明:
会博通对于相关文件的处理:
1、 会将图片文件通过ocr转换为文本文件,以供搜索与利用。
2、 会将pdf文件里面的图片通过ocr转换为文本,并联同pdf文件中已有的格式文本,转换为文本文件。
3、 会将cad文件中的文本抽取出来,保存为文本文件,以供搜索和再利用。
4、 ocr结果文本文件的浏览按钮位于属性和邮件中的文件列表的右侧,名称为文本。