英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
基于Tesseract-OCR模型的文学作品同步识别系统研究
周子兰,武昌工学院,湖北,武汉
概要:通过使用移动终端进行图像和字符识别,可以解决传统的大型扫描设备所面临的如操作步骤复杂,移动不方便等难题,为移动学习和日常办公提供了极大的便利。图像这一媒介,作为客观事物的直接而具体的表现形式,蕴含着丰富的信息,这是其他媒介无法比拟的优点。因此,图像形式的重要性不言而喻。而移动终端设备的图文信息识别系统可以解决大型设备移动困难、使用步骤复杂等缺点,使日常办公和移动学习更加方便。我们采用的Tesseract-OCR在开源OCR中功能十分强大。基于Tesseract-OCR模型来实现,在这篇论文中,对于不规则图形字符识别和不显眼的图像文本识别系统模型,我们提出了相应的改进方案,并尽可能实现图像和文字的同步预览和识别功能。近年来,文学作品的图形化反映了读者日益浮躁的心态,文学的流行趋势和出版社的经营管理危机。
- 介绍
文学作品的图形化反映了读者浮躁的阅读心态,文学潮流的流行趋势和出版社的经营危机。随着智能手机的发展和普及,移动学习已成为一种时尚,智能手机与图形识别软件的结合已成为一种新的应用需求[1]。使用移动终端进行图像字符识别可以解决传统大型扫描设备步骤复杂,移动不便的难题,为移动学习和办公提供极大的便利[2]。图像是人类生活中与外界沟通的最直接的体现和直觉。然而,作为一种依靠文字的文学形式,文学作品的图形出版对文学的发展有一定的负面影响,具体表现为作者的写作状态减弱,读者审美想象力下降和读者分化等[3]。如何利用Android系统进行软件的研发已经逐渐成为相关领域的工作者需要研究和思考的问题。系统架构和开发模式将直接影响系统的最终应用结果[4]。本文在Android平台下实现了基于Tesser-act-OCR引擎的文学作品同步识别系统的应用。
人类视线与图像不断接触。据统计,一个人的视觉捕获图像信息占一个人接收的所有信息70%以上[5]。识别图像上的信息,即光学识别,或称为OCR识别。在开源OCR中,Tesseract-ocr功能比较强大。声音和图像,尤其是后者,组织了美学并引导了观众。图像作为客观事物的直接具体体现,蕴含着其他方法无法比拟的丰富信息,因此图像的重要性不言而喻[6]。当代文化正在成为一种视觉文化,而不是印刷文化。目前,一些现有的文学作品识别系统都是针对特定的文学作品而开发的,不能用于文本定位[7]。通过识别终端设备的图形和文本信息可以解决大型设备的缺点,如移动困难和使用步骤复杂,并使办公室和移动学习更加顺畅[8]。本文提出一种基于图像二值化和跳转检测的文学作品智能自动识别算法,对文本区域进行定位,然后将神经网络与Tesseract-ocr相结合进行文本识别。
- 技术要点
纯文本书籍的传统阅读方法已逐渐被普通读者所取代,并成为象牙塔中学术研究人员的坚持。如何实现从纯文本到图像的转换已成为作家和出版社面临的重要问题。如果我们想用机器智能来解释客观世界,则必须获取和处理图像。在图形出版的热潮中,一些功能性的、时尚的图形文件以相互诠释的方式直接展示了与现实生活密切相关的内容。对于移动应用程序,用户界面设计的第一个要点是界面设计的效果将直接影响用户的选择。 Andorid工具在开发期间提供了直接且简单的设计方法和界面布局。同步识别模块实现了预览图像的连续同步识别,用户在预览拍摄图像时可以立即看到识别效果。
网络识别模块实现了服务器端识别接口,为低性能的移动终端提供识别支持。底层使用谷歌的开源识别引擎识别处理过的图像,并将识别结果返回到用户界面交互界面。对于信号,由于频带限制,信号能量主要分布在低频区域。因此,对于有噪声的信号,噪声能量的比例在低频区域小,而在高频区域大。因此,去噪的重点应该放在高频区域。图1是图像分析系统结构。
在文学作品转向电影和电视改编的同时,一些纸本书籍以图像和文字的组合形式出版,从而引发了图形出版的热潮。考虑到移动智能终端的普及,而且内置的摄像头功能和图形图像处理技术已经开发了相应的应用,这必然会带来更好的体验和更直观的体验。此外由诸如移动电话之类的移动终端捕获图像的特性,因为图像被增强,得以提高识别引擎的识别率,并使图像文本更易于识别[9]。图片二值化后,有必要单独定位图片。利用像素点的跳跃信息,采用距离阈值来连接同一行中两个相邻跳跃点,使它们之间的距离小于阈值的点,以形成白线段。然而,到目前为止,移动终端的核心功能尚未改变,它仍然是即时消息。这也意味着,尽管移动终端集成了许多功能,但距离专业设备还很远。只有在软件和硬件之间找到平衡并合理利用各种资源,才能减少这些限制的影响。
- 需求分析与总体设计
3.1需求分析
图形模块将预处理图像,定位并分割图标所在的区域,并通过图像分析确认单个图标来确认图标序列。纯文本制作方法的引入很难在读者心目中形成一个完整的形象,精美的图片一方面很好地说明了制作方法的合理性和可靠性,另一方面刺激了读者购买文学作品的欲望。在对文本图像进行相应的识别和处理之前,必须能够对图像进行预处理,并尽可能消除各种不利干扰因素对识别结果的影响[10]。当用户没有停止识别模式或跳转到另一个界面时,移动电话将继续收集图像数据进行处理和识别,直到用户对识别结果满意为止。图像增强是将源图像扭曲,并将原始清晰的图像转换成更易于人或计算机分析和识别的图像。在这个过程中,图像的一些局部特征会更加明显和突出,同时一些不必要的信息会被削弱或去除。
在通过移动电话自动获取数据的过程中,用户可以通过触摸观察框的屏幕来聚焦在指定点,以获取更清晰和更高对比度的处理图像。随着信号幅度的增加,估计信号可以达到并超过实际值。对能量较大的径向分量也有一定的增强效果,能有效保留图像的边缘和轮廓信息。该函数与其他收缩函数的比较如图2所示。
3.2系统的实施
在图像增强的过程中,经常会有一些矛盾的过程,即一方面图像增强要增强边缘,另一方面又要降低噪声。对于某些图像,目标对象的某些部分超出了图像的边界。无论初始曲线如何放置,它都不能满足围绕目标对象或位于目标对象内部或外部的要求。优化前后图像分割的性能参数如表1所示。经过小波变换和滤波优化后,图像分割的拓扑结构大大优化,节点更少,监控区域更好。用于图像分割的拓扑可靠性优化的仿真比较如图1所示。
表1显示优化前后图像分割图像结构的性能参数
下一层是系统的功能模块层,负责业务逻辑的处理,包括同步、批量和网络标识。同步识别模式包括预览图片和文本的同步和连续识别。用户可以在预览捕获的图片和文本的过程中看到相应的识别效果。当用户选择单张照片的识别模式时,通过触摸取景器框来完成指定点的聚焦,并且通过按压照片按钮来获得处理图像的数据。由于单次拍摄图像的识别不需要连续采集图像数据,因此从图像采集到识别的事件序列是完整的,因此只需要单个线程来完成操作。在图像分割中处理的图像可以是灰度图像和彩色图像,但是彩色图像通常被转换成灰度图像用于后处理。点击软件图标后,您将进入功能选择系统,更好地完成实时和批量识别工作,全面系统地阅读文档。
- 小结
编码设计对应于解码和播放,并规定了页码和视频的对应关系。获取图像特征后,根据这些对应关系播放视频。在系统中,人性化体验的增加具有重大的市场价值。该系统实现了字符识别和图文处理的要求。此外,该系统基本满足了图书馆查找数据识别和记录场景的需求,实现了基于tesseract-ocr的手机字符增强识别算法,满足了移动学习用户的需求,增加了更加人性化的体验。页码识别完全结合了图像处理技术和图像特征,需要图像处理操作,如增强、二值化、校正等手段,最终提取数字域。计算机软件可以自动将文学作品的信息输入数据库和文学作品管理系统,大大降低了输入工作的难度,节省了时间和成本。文学作品的图文出版已经成为当今社会不可阻挡的趋势。作家应该继续写更多充满艺术想象力的作品,而读者也应该为纯文学作品预留一定的阅读时间。系统实现的图像字符识别功能和图像处理方法还存在一些缺陷。需要继续完善系统功能,系统下一步的研究方向是优化代码质量。
物联网的基于TESSERACT-OCR的收费系统的车辆检测和分类
Vijaya Krishna and Shaik Naseera
概要:在印度,主要的运输系统是公路网。政府为正在开发的国家公路等运输系统设计了不同的计划。政府同意与私人企业进行安排,这些私人企业在一定时间内为国家公路制造了基础。私人机构从最近发展的高速公路上通过的车辆中扣除这笔款项。车辆检测是收费管理系统中的关键步骤。有多种实现收费系统的方法,包括手动收费,RFID系统和条形码。但是,这些技术在收费系统收费时容易出错。在本文中,我们提出了一个使用Tesseract OCR和Raspberry Pi的框架。如果将输入传递给Raspberry Pi,则Raspberry Pi通过使用Web服务器及其数据库来检测车辆并向车辆收费。最后,从用户帐户中扣除金额后,警报消息会推送到车主的手机号码。
关键词: ETC sdot; Sensors sdot; Raspberry Pi sdot; GSM sdot; Open CV
- 介绍:
在印度,我们找到了机会来查看国家大部分通航路线。政府会设计不同的阶段来完成正在开发的任务。政府同意与在一段时间内像街道一样制造基金会的私人企业进行安排[1]。捐款总额是从在最近制造的道路上行驶的车辆上收取的。这种收集的整体称为通行费征收[1]。个人必须在有限的选项之间进行选择,以支付使用该通道所产生的通行费。PC视觉是从收费系统中的摄像头捕获高维信息的必不可少的领域[1,2]。
此过程的主要步骤是获取,处理和分解图片并将其更改为数字或代表性形状[2]。它用于以电子方式了解场景,并且该过程与人类视觉的能力成正比。根据在抗议几何学,材料科学,测量和学习假设的帮助下开发的适当模型来选择场景的数字或标志性数据[2]。使用集中在场景[3]各个区域的相机,将所想到的场景转换为包括许多图片的图像或视频。图片处理,图片调查和机器视觉同样可以通过PC视觉进行识别。图片处理和图片检查管理2D图片。在准备图片时,通过应用一些操作(例如,差分升级,边缘位置和几何形状更改)将其更改为另一种图片[4,5]。手动收费并不适合用于收费,因为它非常耗时,这种策略导致收费站的等候时间很长,因为车辆需要等待直到启动。
电子收费系统(ETC)是手动收费系统的最佳替代方案。他们使用各种创新方法来帮助更方便地收费,可以避免在收费站进行人工代收。另外,通过使用条形码,RFID标签等识别方法,这些对正在进行的图片处理非常有帮助[6]。但是,ETC系统存在类型分类和通行费估算的问题。车辆分组取决于车辆的参数,例如车辆的长度,车辆的两个车轮之间的距离以及图片中车辆所占据的区域。另外,没有与之相关的确切参数可用于其命令,而且如何来扣除通行费也是ETC系统中的主要问题。
- 拟定系统
拟议的框架取决于车辆识别系统,并使用带有植入式Linux平台的Open CV库。 使用此模型,同样要求考虑检查通过收费站的车辆数量(图1)。
Raspberry Pi是在英国制造的基于收费卡的单板PC。它是已安装的基于Linux的改进表的主流之一[1]。此外,它还用于检查收费车辆的数据清单。这将有助于管理员检查是否正确输入了通行费。
在这个提出的模型中,我们需要使用高图像捕捉计算机照相机来捕捉车辆的清晰图像。出于可行的原因,我们仅在摄影机之后才将其用于展览。协助将此数据传递到已在其上设置Web服务器的Raspberry Pi。在Raspberry Pi知道车辆的那一刻,它到达Web服务器数据,并且如车辆的种类所指示的那样,收取通行费
3.系统设计
车辆发现必须与各种自然条件有关,例如光线,亮度,活动状态的演变等。 在提出的框架中,在执行测试时,我们一直处于恒定状态。车辆沿着道路行驶,摄像头被放置在收费站附近。该摄像机捕获车辆的图片并将其发送到框架。这些图片只是框架从视频切换到的边缘(图2)。像这里建议的那样的安排框架可以为特定的轮廓情况提供关键数据。
3.1 Tesseract OCR使用总览
车牌识别在ETC系统中至关重要。字符识别用于获取车辆的注册号[7]。在我们的模型中,我们使用Tesseract OCR识别车辆登记号。Tesseract OCR电机的管线如图3所示。第一步是自适应阈值处理,它使用Otsu的策略将图片转换为双重形式[8]。接下来的阶段是页面设计调查,该调查用于提取内容方块。
在接下来的阶段中,区分每行的基线,并使用不同的空格和蓬松的空格将内容分为单词[9]。
在接下来的阶段,从单词中删除字符图。然后以两次通过过程开始对内容的确认。 在主要过程中,使用静态分类器完成单词确认。
3.1.1自适应阈值
在Tesseract OCR中,大津的技术[8]用于执行基于聚束的图像阈值处理。 照片中的像素在L个维度级别0、1,hellip;,L中被说出,其中每个自尊都与电位极限进行比较。 在Otsu的策略中,我们寻求限制类内变化的优势,以两类差异的加权总和为特征:hellip;
权重omega;0和omega;1是由界限t隔离的两个阴影类别的概率,平方sigma;2 0和sigma;2 1是这两个类别的差。 otsu证实,限制班级内部变化与增加班级波动之间是相同的[8]hellip;
可以从给定的两倍灰度输入中计算出每种质量。 通过连续搜索t的各种估计来选择增加的理想边缘t *。 为了表示图片中的变体,在Tesseract中执行局部自适应阈值处理,其中Otsu的计算与图片的几乎未估计的矩形分割有关。
3.1.2页面布局分析
页面设计检查是OCR的初始步骤
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[234871],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。