“尚书7号ocr文字识别系统完全版”的意思、由来-中文百科全书

中文名: 尚书7号OCR文字识别系统完全版

英文名: Shocr

版本: Shocr7.0,Shocr6.0

发行时间: 2005年10月30日

制作发行: 北京汉王科技有限公司地区: 大陆

软件介绍

本软件系统是应用OCR（Optical Character Recognition）技术，为满足书籍、报刊杂志、报表票据、公文档案等录入需求而设计的软件系统。目前，许多信息资料需要转化成电子文档以便于各种应用及管理，但因信息数字化处理的方式落后，不但费时费力，而且资金耗费巨大，造成了大量文档资料的积压，因此急需一种快速高效的软件系统来满足这种海量录入需求。本软件系统正是适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。

识别字符

简体字符集：国标GB2312-80的全部一、二级汉字6800多个。

纯英文字符集。

简繁字集：除了简体汉字外，还可以混识台湾繁体字5400多个以及香港繁体字和GBK汉字。

识别字体种类

能识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体，并支持多种字体混排。

识别字号

初号小六号字体。

表格识别

可以自动判断、拆分、识别和还原各种通用型印刷体表格。

可支持繁体WINDOWS系统

首先，尚书七号开始将整个OCR的过程，明确化了，通过程序的菜单，我们就能够知道整个OCR的过程，主要分为：“文件”、“编辑”、“识别”、“输出”等步骤。

在文件菜单中，您可以调用扫描仪，或者选择将已经扫描好的图像文件打开。得到图像文件后，用户开始的工作，就是“编辑“菜单里面所提示的：图像页面的处理，其中包括图像页的倾斜校正（提供自动和手动实现方法），旋转等功能。

处理完毕后，就可以进入“识别过程”，该过程关键的是“版面分析”，现在尚书七号的自动版面分析功能很强，面对报纸杂志等复杂情况的版面，也是分析的正确率很高。不再需要我们在尚书六号里面那样的建议手工划识别范围。也正是这点，大大降低了使用者的工作量。为了方便，“识别”菜单下，也提供了用户自己在自动版面分析后，通过修改识别范围框的属性，来决定需要识别否的功能（默认的情况下，图象属性的栏目是不用识别的。当然，如果用户还是习惯原来尚书六号那样，自己来设定识别区域，只要直接用鼠标划框就可以了。接下来，用户就可以直接选择“开始识别”的按钮了，等待识别的结果。

使用方法介绍

一、扫描仪驱动程序请切换到高级控制面板状态

为了得到较好的OCR使用效果，建议用户将扫描仪的驱动SCANWIZARD 5软件，由初始安装的标准控制面板，切换到高级控制面板状态。其切换的方法，如下图所示。

二、第一次使用尚书OCR7号软件

1．尚书7号OCR软件是MICROTEK中晶科技公司，向汉王科技购买授权，赠送给用户使用的软件，该软件是放在了扫描仪随机的驱动光盘中，用户可以选择安装。

2．软件安装完毕后，用户请点击桌面左下角“开始”，找到“尚书7号OCR”软件图标，并点击。打开尚书7号OCR的使用界面。

3．打开尚书7号OCR的“文件”采单下的“选择扫描仪”，选择对应扫描仪的驱动“MICROTEK SCANWIZARD 5”的选项。并选择“确定”。

4．选择“文件”菜单下的“扫描”，将打开扫描仪的驱动。如下图，下面的界面是扫描仪的“高级控制面板”。

5．拥护请注意选择SCANWIZARD 5软件中，左面“设置”窗口中的“图像类型”，请选择“RGB色彩”或者“灰阶”的类型，并注意扫描仪分辨率是300PPI。

6．当用户作完“预览”后，设置需要扫描的范围，就可以点击“扫描”按钮，扫描仪将开始扫描的工作。将扫描好的文件，直接传递到尚书7号OCR默认的目录中（默认的存储图像文件的目录是用户计算机C盘下的SHOCR2002目录下的IMAGE目录）。扫描完毕后，请用户关闭掉扫描仪驱动程序SCANWIZARD 5.用户可以看到需要扫描的文件已经传递给尚书7号中，默认的文件名是HW001.JPG。

7．请用户选择尚书7号软件中的“编辑”菜单下的“自动倾斜校正”，让尚书7号软件对扫描进来的图像作相应的旋转，以保证图像中的文字是水平排列，而非倾斜。因为太过倾斜的文字，将影响到尚书软件的识别效果。

9．版面分析完毕后，用户可以看到对应的文字块，都有对应的识别框被选择，如下图

10．用户此时，请注意，对应的识别框，其属性是否正确。识别框分别有“横栏”、“竖栏”、“表格”和“图像”等四种属性，分别有四种不同颜色的选框来表示

11．核对无误后，用户可以使用“识别”菜单下的“开始识别”按钮。得到的结果如下：

12．此时实际上已经进入文字校对状态：

13．当用户校对完毕后，或者不在尚书7号内作校对，用户可以选择“输出”菜单下的“到指定格式文件”。

用户可以看到，识别的结果，有TXT、RTF、HTML、XLS等格式可以选择。默认的输出的目录是用户计算机C盘下的SHOCR2002目录下的OUTPUT目录。用户选择一个对应的文件名，就可以存盘了。为了方便，用户可以选择“输出到外部编辑器”的选项，这样存盘的同时，尚书7号OCR会自动调出对应的编辑软件，如TXT存盘可以自动调用NOTEPAD软件，RTF存盘将自动调用WORD软件，XLS存盘将自动调用EXCEL软件。

一个简单的OCR操作就此完成了。

三、普通文档（只含有文字）的OCR识别

1．过程与上面所介绍，基本一样，只是用户需要注意存盘格式。

2．一般，如果用户需要对该文字，进行重新排版工作，请用户选择TXT存盘，然后再将其内容拷贝到WORD中。

3．如果用户希望保留稿件的原有格式，并能够作版面的恢复，请使用RTF格式存盘，该格式将有版面的恢复功能。但是用户只能针对其中的文字，作一些个别字的调整，无法作大范围的排版方式的修改。

四、带表格的稿件的OCR识别

1．其中，扫描、自动倾斜矫正过程同普通文稿是一样的。

2．但是注意“版面分析”后，对其结果进行检查。应该在表格上，经过版面分析后，有一个兰色的框，选中了表格部分，如果不是，用户需要修改栏属性或者考虑手动划定识别区域。

3．注意输出结果的选择，如果是需要重新排版，用户应该分别用TXT和XLS格式存盘，然后将TXT中的文字和XLS中的表格分别拷贝到WORD，进行排版。

词条	尚书7号ocr文字识别系统完全版
释义	软件介绍使用方法介绍中文名: 尚书7号OCR文字识别系统完全版英文名: Shocr 版本: Shocr7.0,Shocr6.0 发行时间: 2005年10月30日制作发行: 北京汉王科技有限公司地区: 大陆软件介绍本软件系统是应用OCR（Optical Character Recognition）技术，为满足书籍、报刊杂志、报表票据、公文档案等录入需求而设计的软件系统。目前，许多信息资料需要转化成电子文档以便于各种应用及管理，但因信息数字化处理的方式落后，不但费时费力，而且资金耗费巨大，造成了大量文档资料的积压，因此急需一种快速高效的软件系统来满足这种海量录入需求。本软件系统正是适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。识别字符简体字符集：国标GB2312-80的全部一、二级汉字6800多个。纯英文字符集。简繁字集：除了简体汉字外，还可以混识台湾繁体字5400多个以及香港繁体字和GBK汉字。识别字体种类能识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体，并支持多种字体混排。识别字号初号小六号字体。表格识别可以自动判断、拆分、识别和还原各种通用型印刷体表格。可支持繁体WINDOWS系统首先，尚书七号开始将整个OCR的过程，明确化了，通过程序的菜单，我们就能够知道整个OCR的过程，主要分为：“文件”、“编辑”、“识别”、“输出”等步骤。在文件菜单中，您可以调用扫描仪，或者选择将已经扫描好的图像文件打开。得到图像文件后，用户开始的工作，就是“编辑“菜单里面所提示的：图像页面的处理，其中包括图像页的倾斜校正（提供自动和手动实现方法），旋转等功能。处理完毕后，就可以进入“识别过程”，该过程关键的是“版面分析”，现在尚书七号的自动版面分析功能很强，面对报纸杂志等复杂情况的版面，也是分析的正确率很高。不再需要我们在尚书六号里面那样的建议手工划识别范围。也正是这点，大大降低了使用者的工作量。为了方便，“识别”菜单下，也提供了用户自己在自动版面分析后，通过修改识别范围框的属性，来决定需要识别否的功能（默认的情况下，图象属性的栏目是不用识别的。当然，如果用户还是习惯原来尚书六号那样，自己来设定识别区域，只要直接用鼠标划框就可以了。接下来，用户就可以直接选择“开始识别”的按钮了，等待识别的结果。使用方法介绍一、扫描仪驱动程序请切换到高级控制面板状态为了得到较好的OCR使用效果，建议用户将扫描仪的驱动SCANWIZARD 5软件，由初始安装的标准控制面板，切换到高级控制面板状态。其切换的方法，如下图所示。二、第一次使用尚书OCR7号软件 1．尚书7号OCR软件是MICROTEK中晶科技公司，向汉王科技购买授权，赠送给用户使用的软件，该软件是放在了扫描仪随机的驱动光盘中，用户可以选择安装。 2．软件安装完毕后，用户请点击桌面左下角“开始”，找到“尚书7号OCR”软件图标，并点击。打开尚书7号OCR的使用界面。 3．打开尚书7号OCR的“文件”采单下的“选择扫描仪”，选择对应扫描仪的驱动“MICROTEK SCANWIZARD 5”的选项。并选择“确定”。 4．选择“文件”菜单下的“扫描”，将打开扫描仪的驱动。如下图，下面的界面是扫描仪的“高级控制面板”。 5．拥护请注意选择SCANWIZARD 5软件中，左面“设置”窗口中的“图像类型”，请选择“RGB色彩”或者“灰阶”的类型，并注意扫描仪分辨率是300PPI。 6．当用户作完“预览”后，设置需要扫描的范围，就可以点击“扫描”按钮，扫描仪将开始扫描的工作。将扫描好的文件，直接传递到尚书7号OCR默认的目录中（默认的存储图像文件的目录是用户计算机C盘下的SHOCR2002目录下的IMAGE目录）。扫描完毕后，请用户关闭掉扫描仪驱动程序SCANWIZARD 5.用户可以看到需要扫描的文件已经传递给尚书7号中，默认的文件名是HW001.JPG。 7．请用户选择尚书7号软件中的“编辑”菜单下的“自动倾斜校正”，让尚书7号软件对扫描进来的图像作相应的旋转，以保证图像中的文字是水平排列，而非倾斜。因为太过倾斜的文字，将影响到尚书软件的识别效果。 9．版面分析完毕后，用户可以看到对应的文字块，都有对应的识别框被选择，如下图 10．用户此时，请注意，对应的识别框，其属性是否正确。识别框分别有“横栏”、“竖栏”、“表格”和“图像”等四种属性，分别有四种不同颜色的选框来表示 11．核对无误后，用户可以使用“识别”菜单下的“开始识别”按钮。得到的结果如下： 12．此时实际上已经进入文字校对状态： 13．当用户校对完毕后，或者不在尚书7号内作校对，用户可以选择“输出”菜单下的“到指定格式文件”。用户可以看到，识别的结果，有TXT、RTF、HTML、XLS等格式可以选择。默认的输出的目录是用户计算机C盘下的SHOCR2002目录下的OUTPUT目录。用户选择一个对应的文件名，就可以存盘了。为了方便，用户可以选择“输出到外部编辑器”的选项，这样存盘的同时，尚书7号OCR会自动调出对应的编辑软件，如TXT存盘可以自动调用NOTEPAD软件，RTF存盘将自动调用WORD软件，XLS存盘将自动调用EXCEL软件。一个简单的OCR操作就此完成了。三、普通文档（只含有文字）的OCR识别 1．过程与上面所介绍，基本一样，只是用户需要注意存盘格式。 2．一般，如果用户需要对该文字，进行重新排版工作，请用户选择TXT存盘，然后再将其内容拷贝到WORD中。 3．如果用户希望保留稿件的原有格式，并能够作版面的恢复，请使用RTF格式存盘，该格式将有版面的恢复功能。但是用户只能针对其中的文字，作一些个别字的调整，无法作大范围的排版方式的修改。四、带表格的稿件的OCR识别 1．其中，扫描、自动倾斜矫正过程同普通文稿是一样的。 2．但是注意“版面分析”后，对其结果进行检查。应该在表格上，经过版面分析后，有一个兰色的框，选中了表格部分，如果不是，用户需要修改栏属性或者考虑手动划定识别区域。 3．注意输出结果的选择，如果是需要重新排版，用户应该分别用TXT和XLS格式存盘，然后将TXT中的文字和XLS中的表格分别拷贝到WORD，进行排版。
随便看	可燃气体检测探头可燃气体泄露检测仪可燃物爆炸可燃性粉尘环境用电设备可燃性金属可燃性气体报警仪可燃有毒气体探测器可人草莓鸡尾酒可人风味可任意支配收入可荣可溶式显示剂可溶铁可溶性NSF附着蛋白可溶性NSF附着蛋白受体可溶性RNA 可溶性成分可溶性蛋白氮可溶性蛋白质可溶性还原红棕IRRD 可溶性还原黄可溶性还原金黄IRK 可溶性还原蓝IBC 可溶性还原蓝O4B 可溶性还原紫乌兰浩特乌兰浩特一中乌兰浩特市乌兰浩特市中医院乌兰浩特市钢铁厂职工医院乌兰牧骑乌兰胡同站乌兰计站乌兰诺娃乌兰达布森站乌兰高娃乌兰齐日格乌兹别克人乌兹别克斯坦乌兹别克斯坦国徽乌兹别克斯坦苏姆乌兹别克灌区乌兹别克语斯拉夫文乌军治胆片乌凯尔变种G 乌凯水电站乌列盖乌利西环礁乌力吉乌力吉图