常见问题      欢迎来到牛博士论文网, 本站提供、本科毕业论文范文硕士论文范文博士毕业论文范文发表职称论文范文,牛博士用心为您服务!欢迎关注微信公众号   
理工论文毕业论文分类>>
毕业论文怎么写更多写论文技巧>>
关于我们
    牛博士论文网经过十余年的心酸代写历程,我们起初的梦想逐渐变成了现实,已经发展成为了一个本科、硕士、博士研究生毕业论文代写代发为主的代写毕业论文平台。十二年专注致力于博士硕士专本科论文代写服务这一核心业务模块,让我们成为了业内有序经营时间最长的综合性论文网站之一,拥有丰富的服务经验和社会资源。合作的写作老师已有2000多位,均为有丰富实践经验的高学历专业人才,以保证文稿的质量与版权,为广大毕业生解决经济、管理、法律、医学、会计、体育、历史、教育教学、建筑等专业的毕业论文及代发代写论文等服务,强大的写作团队奠定了我们的实力! 我们相信通过我们的不断努力和追求,一定能够实现与客户的互利共赢!

基于卷积神经网络改进算法的藏文识别系统的设计与分析

本站原创   发布时间:2019-01-10   [点击量:806]  


       藏文文字历史悠久,藏文的保存对于藏文化的研究与传承具有重要的意义,在我国的文化历史中也发挥了重要的作用。为了发扬藏文化,就需要对藏文文字进行处理,将藏文文字信息化,因此对于藏文文字的自动识别技术的研究,具有重要的意义。由于藏文文字结构复杂,书写人的习惯会导致文字的差异较大,增加了藏文识别的难度。因此,如何准确的识别藏文文字是值得研究的问题。


  随着信息技术的发展,藏文文字的识别技术研究成为了热点。近年来,卷积神经网络可以自动的提取输入数据的特征,不需要显式的构造,降低了人为的干扰,卷积神经网络的这一特点也在图像处理领域得到了广泛的应用。对于手写的藏文文字,卷积神经网络可以依据局部视野的特征进行卷积操作,从藏文文字的局部特征入手,生成更具有代表性的特征。本文利用改进的卷积神经网络技术对藏文进行识别,并结合信息论的特征提取与识别技术建立了藏文识别系统,本文进行的相关研究大致是这样的:首先对课题的本身有一定的熟悉和了解,通过对对其背后相关的现状背景以及这项研究所存在的必要意义进行详细的介绍,与此同时继续针对藏文识别技术进行理论上以及实际上深入的实验研究过程,对借助于异常火热的人工神经网络这样的智能算法来支持手写藏文的识别手段,借助于此并更新神经网络的复杂度,对基于改进卷积神经网络的藏文识别系统进行设计,最后对系统进行实现与展示,并对论文的研究进行总结,对未来的研究进行展望。


  藏文识别方式多样,也提升了藏文识别的难度,本文基于改进的卷积神经网络,设计和实现了藏文识别系统,意在为整个识别系统支持更高的识别准确度以及更高的效率指标。本文涉及到的实现手段主要包括有:JAVA相关技术,包括搭建市面上更为成熟和被认可的J2EE的网络架构、严格遵循MVC开发模式以及基于网页服务器架构开发的B/S架构、借助有效安全的数据库包括等。通过对最后获得的结果进行合理化分析和对比,验证事先预想的软件功能基本实现,满足对于设想的一个系统基本的要求和设定,并在现实的使用中,运行稳定。希望能够使用此系统为更多的藏文识别相关的学习和研究项目提供支持和帮助,包括理论上以及技术实现上。


  关键词:


  藏文识别,卷积神经网络,数据挖据,识别系统


  Abstract


  DesignandanalysisofTibetanrecognitionsystembasedontheimprovedalgorithmofconvolutionneuralnetwork


  Tibetanlanguagehasalonghistory.TibetanpreservationisofgreatsignificancefortheresearchandinheritanceofTibetanculture.ItalsoplaysanimportantroleintheculturalhistoryofChina.InordertocarryforwardTibetanculture,weneedtoprocessTibetancharactersandinformation-basedTibetancharacters,soitisofgreatsignificancefortheresearchofTibetancharacterautomaticrecognitiontechnology.BecauseofthecomplexstructureoftheTibetanlanguage,thehabitsofthewriterwillleadtothegreatdifferenceinthetext,whichincreasesthedifficultyoftheTibetanlanguagerecognition.Therefore,howtoaccuratelyidentifytheTibetanlanguageisaproblemworthyofstudy.


  Withthedevelopmentofinformationtechnology,theresearchofTibetanlanguagerecognitiontechnologyhasbecomeahotspot.Inrecentyears,convolutionneuralnetworkcanautomaticallyextractfeaturesofinputdata,doesnotneedexplicitconstruction,andcanreducehumaninterference.Convolutionneuralnetworkhasalsobeenwidelyappliedinimageprocessingfield.ForhandwrittenTibetancharacters,convolutionneuralnetworkcanconvolutionoperationbasedonthecharacteristicsoflocalvision,andgeneratemorerepresentativefeaturesfromTibetanlocalfeatures.ThispaperusestheimprovedconvolutionalneuralnetworktechnologytoidentifytheTibetanlanguage,andcombinestheinformationtheoryfeatureextractionandrecognitiontechnologytoestablishaTibetanrecognitionsystem,therelatedresearchcarriedoutinthispaperisroughlylikethis:Firstofall,thereisacertainfamiliarityandunderstandingofthetopicitself,throughadetailedintroductiontothecurrentstateofthebackgroundbehinditandthenecessarysignificanceofthestudy,whilecontinuingthetheoreticalandpracticalexperimentalresearchprocessofTibetanrecognitiontechnologyissupported,andintelligentalgorithmssuchasartificialneuralnetworksbasedonanomalousfidelityareusedtosupporthandwrittenTibetanrecognitionmethods.


  ThediversityofTibetanrecognitionmethodshasalsoincreasedthedifficultyofTibetanrecognition.ThispaperdesignsandimplementsaTibetanrecognitionsystembasedonanimprovedconvolutionalneuralnetwork,whichaimstosupporthigherrecognitionaccuracyandhigheraccuracyfortheentirerecognitionsystem.Theimplementationmethodsinvolvedinthispapermainlyinclude:JAVArelatedtechnologies,includingbuildingamorematureandrecognizedJ2EEnetworkarchitectureinthemarket,strictlyfollowingtheMVCdevelopmentmodel,anddevelopingaB/Sarchitecturebasedonwebserverarchitecture,witheffectivesecurityThedatabaseincludesandsoon.Throughtherationalanalysisandcomparisonoftheresultsobtainedattheend,thebasicrealizationofthesoftwarefunctionspredictedinadvanceisverified,thebasicrequirementsandsettingsforasystemenvisagedaremet,andtheoperationisstableintheactualuse.ItishopedthatthissystemcanbeusedtoprovidesupportandassistanceformoreTibetan-languageidentification-relatedlearningandresearchprojects,boththeoreticallyandtechnically.


  keyword:


  Tibetanrecognition,convolutionneuralnetwork,datamining,identificationsystem


  1.1研究背景与意义


  藏文的历史悠久,传播面积较为广泛,是我国历史上重要的文化象征,其代表着文字的一个重要的部分。藏文总共有34个字符,在这34个字符之中,大部分是辅音字符,其中有30个,其余4个为元音字符。在生活中,人们认识藏文的途径不多,更多的是通过不同版本流传于民间的传说所认知的。公元七世纪。一批青年被派遣到印度去学习樊文。其中有一青年学成之后,参考着在印度学习的语言修改了当时繁文的字母结构,从而也就诞生了民族文字藏文,与此同时该青年也认真编写了不少藏文书籍,全部是藏文所涉及的文法结构。此外还有另一个民间传说是这样记录的,象雄文字母是藏文的形成基础,藏文对其进行了部分的参考,并且经过长期的变化而来。通过大量的研究表明,古印度的文化影响着藏族文化的发展,因此有相当一部分的学者有着这样的想法,即古印度也许是传统藏文诞生的地方,两者之间有着一定的相关性。藏文主要在我国西南几个省使用藏文,有蒙古族的部分地区也会使用藏文,其他的如印度尼泊尔等国家也使用一些藏文,据我国的人口普查资料显示,我国藏族的整人口在500多万人。你不是我国少数民族中人数较多的民族。赵文不光在寺院中有所使用,在其他的领域也有所应用,如报刊教学等,在上世纪80年代,能够同时编排藏文文本并且包容汉英的藏文处理的系统诞生了,不仅仅能够对藏文进行大量的复杂编写和排版,同时也简捷地把藏文大量的呈现在社会上,促进了藏族文化的发展。21世纪是一个全新的时代,随着科技的发展越发快速,文化的信息化呼声愈发强烈,人们有着越来越多的传统文化乃至少数民族文化的需求,因此国家在这种情况下赋予了藏文独有的国家标准,并在北京奥运会举办的08年制定了扶持政策以及相关的法律法规。藏文的编码在上世纪末取得了,国际标准组织的通过,成为了第一个我国少数民族具有国标标准的文字。2007年,微软公司发行了标准的藏文国际版本,严格符合中国藏文的国家相关标准。通常意义上的识别字符大致可以分为两个部分,一个是手写体字符,即满足书写规范,另一种是印刷体字符。大量的文字给校对工作带来了巨大的困难,因此为了减少大量的精力劳动力,文字识别迫在眉睫,被逼着进行不断发展。随着手写汉字有了越来越准确的识别技术,汉字在印刷领域也发展壮大,更加准确有效。中国是一个有着悠久历史的文化大国,民族文化博大精深,语言作为文化的一部分更是丰富多彩。语言所要表达的文字其实代表着文化的传达,大量的文字包含的信息也是海量的大数据。能够挖掘其深层次的信息将会更加具有实际意义,因此藏文的识别研究意义厚重深远,不能忽视。


  1.2相关研究现状


  1.2.1国外研究现状


  目前国外的一些大公司也开始了文字识别的技术研究,这一技术迎合了时代的发展潮流。与手写体的识别相比,印刷体的识别更具有实用性,而且性能更高,用户使用的界面更加完善,印刷体汉字的识别也朝着这一方向不断的发展。从目前的需求来看,印刷体汉字识别具有广阔的前景。目前由于办公自动化的发展,在信息化的时代,办公自动化成为了发展的趋势,计算机网络飞速发展,许多信息化产品应运而生。这些信息化的产品代替了纸质的报纸或者杂志等刊物。但是现今社会的印刷体还是不可缺少的,如真心图书馆或者新闻报社中,印刷的材料还是相当多。这是由于书面的序阅读习惯,更符合人类的阅读习惯,同时由于网络资源爆炸的增长,以及网络传输容量的限制。日本的刊物存在还是相当有必要的。电子化与印刷体就同硬币的正反面,相互补充,相互促进,在未来的时间里,都很难出现一者并另外一个替代的场面。


  目前计算机文字识别技术取得了较为广阔的成果,研究者也在进行大量的研究,目前的特征提取技术有很多,多是与特定的技术进行结合从而达到目的的,包括与特征统计学的结合形成的特征统计学的字符识别方法,同理和结构字符相关以及我们即将讨论的和人工神经网络相结合的识别手段。统计学特征的字符识别字符能力尚可,但是面的有着相似形状的字符就没有很强的分辨能力 。基于结构字符的识别擅长应对结构之中有关系的字符,包括字型之间变化差别大的字符或者相近的字符。然而遗憾的是在算法实现上较为困难,并且实现了的识别算法的识别表现能力也比较差。口碑最好的结合当属于与神经网络的结合,神经网络对数据拟合能力高的优势明显,与此同时结合优秀的特征提取方法,期间可以设计合适的神经网络结构,并且优化,搭载优秀的算法以及硬件加速环境,便能够很好的识别各种需要识别的文字。


  图像识别的发展带动着文字识别的发展,目前与文字识别相关的的技术较多,大多数都已经十分成熟,总体来看可分为三个部分。第一部分需要介绍的是模板匹配方法。模板匹配是一项在一幅图像中寻找与另一幅模板图像最匹配(相似)部分的技术.通过目标图片在待匹配图片进行遍历,通过选择一定的匹配方式能够得到每个起始像素点的匹配值,最终匹配值最大的位置就是候选匹配位置,也就达到了匹配查找的效果。特点是实现简单,适用于污染较少的字符,但是随着污染数据的加入,数据背景不再单一,会导致识别准确率大幅度降低而影响识别。相比较模板匹配存在的问题,字符特征相关的方法则略胜一筹。此方法是利用统计特征以及每个字符所对应的结构上的特征,通过获取特定字符的笔画特征以及字符整体的外部形状进行提取和分析。由于对结构的精确分析和统计,使得即使面对结构复杂以及具备多特征的任意字符,此方法依然具备较好的识别水准。唯一不足的是相对实现困难,因为结构复杂。


  随着神经网络方法的日趋完善,通过神经网络算法即可以对大量的图像信息进行特征的提取,然后对提取的样本进行有监督的训练,通过训练,达到文字识别的目的。神经网络方法依赖大量的测试集,完整的测试集是高识别率的重要保障。实际上神经网络模式识别在方法上与统计学方法有着异曲同工之妙,对于统计学的方法来说,许多优秀的分类算法,或者是线性判决函数法,神经网络可以依据自己的组织结构来模拟实现。因此神经网络与统计学的方法相似。此外,神经网络还具有一定的优势,尤其是在自适应与非线性的特点上。因此,人们将神经网络与统计学的方法结合在一起,并用两者结合的算法进行文字的识别,避免两者的短处,提取两者的优势,进行文字的识别,保证识别的准确性和效率。作为神经网络家族出色的一员,卷积神经网络对于图像特征的提取方面尤为擅长。卷积神经网络由于其结构以及算法并没有一个严格意义上的标准,所以针对各个领域,不同的卷积神经网络有着不同的效果。


  随着深度学习的讨论火热,各式各样的神经网络工具应运而生。比如大家熟知的谷歌的tensorflow,如theano以及高层的caffe等等。他们实质上都是封装了神经网络的库,theano封装程度比较低,这也意味着灵活度高,但是实现过程较为复杂,很难通过修改源代码获得自己想要的网络结构;tensorflow和caffe层次较高,很方便地可以搭建能够进行训练的各种神经网络,但是高层次意味着很低的自由度,搭建的卷积神经网络模型固定,无法根据本身需求进行搭建设计结构。


  1.2.2国内研究现状


  印刷在纸张上的藏文属于印刷体藏文识别范围。借助于仪器进行扫描识别的方式进行图像处理。得到的文字图像可以通过适当的识别算法获得需求的特征,对照标准的数据库即可匹配到相同的文字图像。这就是整体文字识别的简单实现过程。


  随着旅游业以及电视节目中对藏文化的宣传,越来越多的人对藏文化、藏语感兴趣,希望能够更近距离的接触藏语,了解藏族人民的生活。这是一个信息爆炸的时代,国家要建设现代化强国,信息化必须要渗透到国家的各个方向,其中就包括语言文化信息化。图像识别带动了汉字识别,汉字识别同样也带动了藏语识别,藏语识别技术已经有了一定的发展。藏族文化的兴起也带动着藏语识别系统的需求。试想一下,这样的系统移植到手机里面,当我们身处藏族时,我们就不会看到藏语标识和牌子而无可奈何了,而真正做到心中有数。


  通过研究国内外关于藏语识别技术的有关内容,不难发现,都是国内学者依靠着强烈的民族责任感,对于民族语言文化的深深热爱,在此领域孜孜不倦。其中藏文识别的预处理在清华大学研究人员当中发挥了效果,处于全球领先水平。21世纪初,王华等人在清华大学实现了一个识别系统,当时轰动全国,主要涉及藏文混排汉英文档识别技术,这个技术的实现是当时识别技术质的飞跃。但是也有遗憾的地方,与藏文有关的研究工作手段过于单一,基本上是从字符特征,然后依赖过去已有的技术,分类字符,进而达到识别的效果。联机手写体的收入是依靠电磁式的手写输入板完成,在书写时,笔在板上的运动轨迹形成电信号,电信号传入到计算机中,从这些电信号中,我们可容易的能够提取赞文的笔画与笔顺。达到文字识别的效果。自上世纪90年代以来,联机手写体的识别正在走向实用,我国大陆的研究者推出了多个联机手写汉字识别系统。


  藏文识别过程可以参考其他汉字识别过程,原理是相通的,大致分为这几个阶段。第一个阶段是预处理,预处理顾名思义,其实就是对接收到的图像输入进行特定的处理,最常见的是切分操作,就是将大图片切成细小的图片以备后续步骤使用,还有就是图片的去噪处理等。接下来就是识别阶段。识别阶段主要是操作是特征提取,提取了特征之后进行一个分类操作。最后是后处理操作,也就是通过将已经识别的结果进入到经验模型中进行匹配校验。中间需要结合的方法多种多样,其中应用比较多的是神经网络方法。神经网络主要就是模拟人脑结构构成复杂结构,从而能够通过中间层的复杂结构获得强大的学习信息,最后达到学习特征,识别图像的功能。


  在文字识别的过程中,有两种常用的方法,一个是整体特征提取,另外一种是以笔画方向为基础的提取方法。藏文以外其他识别过程的探究既可以依靠前者,也可以依靠后者。整体的优点在于作为一个整体,无论有多少基本字符组成都可以被当成一个字符作为一个独立的整体,有效躲开了切分会涉及的麻烦,也不需要应对逐个识别问题。切分确切的说是将字符分割,通过以笔画来识别,也可以是元音辅音字符,优势在于能够有效减少知识库数据量。


  在移动终端越发强大的今天,人们离不开移动终端设备。识别系统移植到移动终端成为了社会不得不变的发展方向。然而目前的移动端的识别系统针对的都是中英文,最为针对性的可以扩展到多国的语言,如泰语、阿拉伯语等,但是缺乏藏语的移动端识别技术。随着藏语文化的流行以及旅游业的兴起,必将带动整体识别技术的发展,促进多民族文化大融合奠定坚实的基础,意义非凡。


  1.3主要研究内容


  本文的主要研究内容为:


  (1)研究基于改进的卷积神经网络的文字识别技术来实现对藏文的自动识别过程。


  (2)研究卷积神经网络识别对藏文成功识别的基础上进行算法的改进和优化。


  本文首先对课题的研究背景与意义、研究现状、研究内容进行介绍;然后对藏文识别技术进行了分析,主要包括:作为图像识别分支的文字识别原理分析,手写藏文的特征分析,基于人工神经网络技术实现手写藏文的分析以及对人工神经网络进行升级,使用卷积神经网络跟有效率的实现藏文的特征提取并对相关算法进行适当的改进从而获得更高的效率以及更好的准确率;然后对藏文识别系统的设计进行了详细的分析,首先对系统的需求与分析进行了阐述,包括了预处理模块、特征提取模块、识别功能以及后处理阶段,对系统的结构进行了设计,对神经网络结构进行了阐述,并对系统的各个功能模块进行了详细分析;然后对系统的实验结果以及系统的展示进行了介绍,最后对论文的研究进行了总结,并对未来的研究进行了展望。


  1.4论文结构


  本文各章节主要内容如下:


  第一章介绍课题研究的背景和意义、研究现状、研究内容,最后对论文的组织结构进行介绍。


  第二章对藏文识别技术进行介绍,首先对文字识别基本原理,然后对藏文字符特征的研究进行说明,并对基于神经网络的藏文识别技术进行分析,最后对藏文识别的过程进行分析。


  第三章卷积神经网络改进算法研究,针对卷积神经网络算法进行研究,并对卷积神经网络算法进行改进。


  第四章藏文识别系统的设计系统的设计是依据需求的分析,来对系统的整体结构进行设计,在设计系统的过程当值需要注意的事项:基础是搭建整体架构,涉及到的功能要考虑周全,架构的设计要合理有效,以及网络拓扑的设计。设计的过程中要详细,照顾到各个模块的逻辑关系,并对数据库各表的字段以及表之间的关联关系进行设计。


  第五章系统的实现展示,对系统进行实验,并对实验的结果进行分析。


  第六章总结与展望,总结论文的研究成果,并对未来的发展趋势进行展望。


  

文章标题:《基于卷积神经网络改进算法的藏文识别系统的设计与分析》,原文地址:,如有转载请标明出处,谢谢。

上一篇:基于Django的B/S微博系统——后端程序设计与开发


下一篇:ASP.NET动态网页开发技术比较及其应用


[相关文章]