词条 | OCR |
释义 | § OCR的概念 OCR(光学字符识别,Optical Character Recognition),是通过图像处理和模式识别技术对光学的字符进行识别的意思,是自动识别技术研究和应用领域中的一个重要方面。它是一种能够将文字自动识别录入到电脑中的软件技术,是与扫描仪配套的主要软件,属于非键盘输入范畴,需要图像输入设备主要是扫描仪相配合。 现在OCR主要是指文字识别软件,在1996年清华紫光开始搭配中文识别软件之前,市场上的扫描仪和OCR软件一直是分开销售的,专业的OCR软件在早些时候卖得比扫描仪还要贵。随着扫描仪分辨率的提升,OCR软件也在不断升级,扫描仪厂商现在已把专业的OCR软件搭配自己生产的扫描仪出售。OCR技术的迅速发展与扫描仪的广泛使用是密不可分的,近两年随着扫描仪逐渐普及和OCR技术的日臻完善,OCR己成为绝大多数扫描仪用户的得力助手。 § OCR技术的发展历程 自20世纪60年代初期出现第一代OCR产品开始,经过30多年的不断发展改进,包括手写体的各种OCR技术的研究取得了令人瞩目的成果,人们对OCR产品的功能要求也从原来的单纯注重识别率,发展到对整个OCR系统的识别速度、用户界面的友好性、操作的简便性、产品的稳定性、适应性、可靠性和易升级性、售前售后服务质量等各方面提出更高的要求。 IBM公司最早开发了OCR产品,1965年在纽约世界博览会上展出了IBM公司的OCR产品——IBMl287。当时的这款产品只能识别印刷体的数字、英文字母及部分符号,并且必须是指定的字体。20世纪60年代末,日立公司和富士通公司也分别研制出各自的OCR产品。全世界第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的,两年后NEC公司也推出了同样的系统。到了1974年,信函的自动分拣率达到92%左右,并且广泛地应用在邮政系统中,发挥着较好的作用。1983年日本东芝公司发布了其识别印刷体日文汉字的OCR系统OCRV595,其识别速度为每秒70~100个汉字,识别率为99.5%。其后东芝公司又开始了手写体日文汉字识别的研究工作。 中国在OCR技术方面的研究工作相对起步较晚,在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究,20世纪70年代末开始进行汉字识别的研究。1986年,国家863计划信息领域课题组织了清华大学、北京信息工程学院、沈阳自动化所三家单位联合进行中文OCR软件的开发工作。至1989年,清华大学率先推出了国内第一套中文OCR软件--清华文通TH-OCR1.0版,至此中文OCR正式从实验室走向了市场。清华OCR印刷体汉字识别软件其后又推出了TH-OCR 92高性能实用简/繁体、多字体、多功能印刷汉字识别系统,使印刷体汉字识别技术又取得重大进展。到1994年推出的TH-OCR 94高性能汉英混排印刷文本识别系统,则被专家鉴定为“是国内外首次推出的汉英混排印刷文本识别系统,总体上居国际领先水平”。上个世纪90年代中后期,清华大学电子工程系提出并进行了汉字识别综合研究,使汉字识别技术在印刷体文本、联机手写汉字识别、脱机手写汉字识别和脱机手写数字符号识别等领域全面地取得了重要成果。具有代表性的成果是TH-OCR 97综合集成汉字识别系统,它可以完成多文种(汉、英、日)印刷文本、联机手写汉字、脱机手写汉字和手写数字的识别输入。几年来,除清华文通TH-OCR外,其它如尚书SH-OCR等各具风格的OCR软件也相继问世,中文OCR市场稳步扩大,用户遍布世界各地。 可以说目前印刷体OCR的识别技术已经达到较高水平。OCR产品已由早期的只能识别指定的印刷体数字、英文字母和部分符号,发展成为可以自动进行版面分析、表格识别,实现混合文字、多字体、多字号、横竖混排识别的强大的计算机信息快速录入工具。对印刷体汉字的识别率达到98%以上,即使对印刷质量较差的文字其识别率也达到95%以上。可识别宋体、黑体、楷体、仿宋体等多种字体的简、繁体,并且可以对多种字体、不同字号混合排版进行识别,对手写体汉字的识别率达到70%以上。特别是我国的汉字OCR技术经过十几年的努力,克服了起步晚、汉字字符集异常庞大等困难,单字的识别速度(指在单位时间内所完成的从特征提取到识别结果输出的字数)可以达到70字/秒以上。由于印刷体OCR汉字识别技术已经比较成熟,所以OCR产品被广泛地应用在新闻、印刷、出版、图书馆、办公自动化等各个行业。 专业型OCR产品多是面向特定的行业,即适用于每天需处理大量表格信息录入的部门,如邮政、税务、海关、统计等等。这种面向特定行业的专业型OCR系统,格式较为固定,识别的字符集相对较小,经常与专用的输入设备结合使用,因此具有速度快、效率高等特点,比如邮件自动分拣系统等。 手写文稿的识别直到1996、1997年才开始有产品问世,而且是作为印刷文稿识别产品的一项附加功能提供的。由于人写字的习惯千差万别,实现自由手写体识别相当困难,所以手写体OCR技术的使用领域是联机手写体识别,即人一边写,计算机一边识别,是一种实时识别方式。 § OCR:牛津、剑桥和RSA考试局 OCR:Oxford Cambridge and RSA Examinations,中文全称“牛津、剑桥和RSA考试局”,隶属剑桥大学“评估小组”。每年约有300万人参加“OCR”组织的A-level课程考试。目前不考虑在中国发展。 § OCR的“单元报告”的三大特色 课程作业报告(Coursework) 课程作业是以解决现实生活中的一个具体问题为情境,要求学生完成的一项系统设计。 报告中开头列出的几个“需要注意的问题”,体现出OCR认真严谨的工作态度及人性化的评价理念。比如: (1)“评注”:要求教师在评分时在得分点说明得分的原因,以便OCR了解是否真正掌握了评分标准; (2)“评分标准”:要求学校必须严格遵照OCR制定的评分标准来判分,不许自拟标准,以免影响考生成绩; (3)“通信与交流”:强调教师评分时,一定要给考生一定的“通信与交流”方面的情感态度分,有的教师在这方面判分太过苛刻,这是不合适的。而报告的核心内容则是以五大评估目标(Assessment Object,缩写为AO)为依据对课程作业中逐个知识点得分情况的分析,这五项目标既是评判分数的准绳又是分析评估结果的依据。 目标具体内容为: AO1:通过ICT的学习,适当运用所学知识、技能及理解能力处理某些事件。 AO2:分析、设计、完成、测试、评估、证明人们使用的信息通讯系统,加深对于广泛应用ICT的影响的理解。 AO3:理性分析自身和他人使用ICT的过程和方法。 AO4:讨论、评论ICT广泛应用的影响。 AO5:在不断使用ICT的过程中,考虑信息的社会、经济、政治、法律、民族、道德的影响及其安全性。 现以Assesment Object 2[z1] (AO2)为例: 表1 考生AO2得分情况[3] AO2得分点 考生得分情况 分析 作为整个课程作业的关键,考生在这一步完成得非常出色,他们准确地把握住了任务的目的及设计的焦点问题 设计、完成、测试 此处分为两个得分等级,较低等级的考生是仅能够分析任务,并且完成一个ICT系统;而较高等级的考生在完成任务的过程中,还为自己的设计加以说明,譬如为何对设计作如此的改变,为何这部分设计保留而放弃另外一部分等等;同时OCR指出一些学校在此处给分过于慷慨,OCR会针对这部分给考生成绩做出调整 评价、实施、效果 整个作业得分最少的点,考生没有体现出ICT相对其他信息处理方式的独特优势,也没有证明何时使用及为何使用ICT是完成任务的最佳方式 说明 要求考生有一个作业说明,即说明系统的使用对象、系统的主要功能等,目的在于督促学生养成良好的设计习惯 对于“课程作业”这种高度开放的评价模式,为了避免评分的主观性和欠科学性,OCR在评分标准中从整体评价目的到具体各项评价指标的权重、分值等都作了严格的要求和详细的阐述,力图达到主观题的客观化,有力的加强了评价的可观察性和可测量性。 那么,在评估报告中,再结合考试的实际情况给予更充分的说明和例证,将评分标准中抽象的数字及说明形象化,一方面可以帮助教师更加准确的把握评分标准的思想,从而提高以后判分的质量,保证考试的公平性;另一方面相当于提供了一份课程作业指导文件,帮助师生进一步解读课程作业所考察的主题和内容,以期阅读报告后教师能够在以后的教学中调整教学思路并给学生提供更有针对性的指导和训练,学生能够发现自己的长处与不足,以免在以后的作业中无所适从或放任自流。 在我国,信息技术课是一门基于活动和实践的课程,“课程作业”这种质的评价方式对于全面考察信息素养水平也是极其重要的。但是在高考、会考这些高利害的考试中,由于社会文化背景,学校所面对的压力,课程和试题发展的不成熟以及这种评价方式自身的特点,建议在总结性评价中对采用“课程作业”的方式仍然持谨慎态度。 § 0 这张表公布了每个单元的成绩等级划分标准,此门槛是依据每年学生各个单元的试卷成绩整体情况计算、权衡得出的,因而每年的门槛成绩都会略有改动。由于笔试试卷1与笔试试卷2的卷面原始分值不同,所以将试卷1的分数以试卷2的总分为标准折算成标准分,这样方能确保考生所得分数是在同一个标准下得出的,从而保证了考试的公平与公正。 而OCR给学生打出的最终等级成绩,是按照每个单元占总成绩相对比重的不同为每个单元赋予一定的权重,然后根据各个单元的权重,利用科学的数据合并方法进行数据合并而得出的。 在新课程背景下,一直倡导改革传统的量化评价方法,而注重质的评价,所以具有相对稳定内涵的等级评定法也是我国信息技术课比较推崇的评价方法。但是从几个已经采用等级评定法的实验区所公布的方案来看,主要有以下两个问题:一是划分的等级过于简单,有的地区分为优秀、良好、及格和不及格,还有的地区分为A—D四个等级,这样的划分过于粗略,无法相对准确的表明学生的能力水平;二是各地区事先公布的等级门槛随意性太大,更降低了它的权威性。英国的“等级分数门槛表”,是在了解了同年考生的考试整体情况以后再计算出门槛成绩,这样保证了每年考试成绩的相对参考价值,使学生成绩不会因为各年试题的难易程度的不同而出现大的波动,而我国目前的做法太过简单,不具说服力。英国的报告让我们看到了等级评定法规范、严谨的一面。 这篇“单元报告”对此次会考作了较透彻的评析, 沿袭了英国信息通信技术课总结性评价人文气息浓厚的风格,语言中肯、易懂且以鼓励为主,分析深入、到位并用实例佐证。它主要目的是通过总结和剖析考试的结果,发现问题,以期能帮助教师进一步理解教学大纲、改进教学,并为教师了解评估方案的实施、评分标准的应用等方面提供有针对性的指导。所以报告内容紧紧围绕着五大评估目标逐步深入,从概括到具体多层次、多角度的呈现了考试中发现的问题。 |
随便看 |
百科全书收录594082条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。