领域自适应: 多用于文本分类,属于直推式迁移学习,直推式迁移学习定义:给定一个源域和相应的学习任务,一个目标域和相应的学习任务,直推式学习旨在利用源域和目标域中相同的知识来提高目标域中的目标预测函数。 《基于深度学习的体态与手势感知计算关键技术研究》 基于深度学习的肌电手势识别: 并不需要任何附加信息或手工设计的特征提取器,基于高密度肌电信号(HD-sEMG),使用二维阵列电极采集的肌电信号,使得肌肉活动产生的电势场在时间和空间上的变化可被多个紧密分布在皮肤表面的电极同时记录下来。HD-sEMG中的肌电信号描绘了位于电极覆盖区域内的肌肉活动的时空分布,同时HD-sEMG的瞬时值呈现了在特定时间点肌肉活动所涉及的生理过程的相对全局的测量。瞬时HD-sEMG内部可区分出不同手势模式,可以将采集到的HD-Semg描绘出电势在空间的分布,其对应的热度图即为肌电图像,肌电图像中的像素数(分辨率)由其采集设备中的电极阵列决定,即电极的数量及其电极间距离(例如,具有16行8列的电极网格可W采集8*16像素的肌电图像)。主要是将原始肌电信号值从(-1,1)映射到(0,255),即,其中x是原始肌电信号,I是肌电图像。构建一个8层CNN结构,网络的前两个卷积层用于提取公共的底层图片特征,作者发现瞬时肌电图像在不同的空间位置上表现出不同的视觉特征。在不同手势中,肌电图像在中部偏下以及顶部的条状区域上亮度较强,提出在3,4层加入局部连接结构(受人脸识别前沿工作的启发),因为局部连接层在不同空间位置上的卷积模板的权重不共享,可以更好的提取图片上不同位置的特征。并依据单个窗口内每帧识别出的手势标签中所占比例最高的标签,因为上述实验仅适用于肌电幅值较大的数据进行训练和测试可以获得较高的手势识别准确率,因此需要对肌电信号采用全波整流和低通滤波(全波整流和低通滤波是被广泛采用的肌电信号幅值估计方法),以获取更好的肌电信号。基于深度领域自适应的肌电手势识别: 当训练集和测试集的肌电信号来自不同的采集会话的情况。因为电极位移,肌肉疲劳,电极和皮肤之间的阻抗变化等因素的干扰,肌电信号与采集会话高度相关,已经训练好的手势分类器直接被应用在新的会话时通常准确率较低。因为肌电信号的分布在不同的会话之间变化很大,所以来自不同会话的基于瞬时肌电信号的手势识别可以相应地表示为多源领域自适应问题。 当标定数据未标记时,该论文采用自适应批量归一化(AdaBN, Adaptive Batch Normalization)对手势分类器进行适配。假设用于区分不同手势的知识存储在每个层的权重中,AdaBN不需要适配数据的手势标签,而是随着无标签的适配数据的增加,逐步更新少量的网络参数。给定输入U,BN将其转换为V,其中第i个输入特征的转换公式为: l在训练阶段,每个BN层对于每个源域的均值统计量和方差统计量是独立计算的。因为训练阶段的BN对每个数据批次独立计算统计量,所以只需要确保每个数据批次中的样本来自同一个会话。 l识别阶段,对于给定的未标记数据A,AdaBN执行正向传播算法,更新参数。 该方法准确率:单幅,150毫秒窗口,而另一种算法特征集(150毫秒窗口)和线性判断:。 随机选择未标记的测试集的子集(,,1%,5%,10%)进行深度领域自适应,之后再评测整个测试集上的手势识别的准确率。最后观测到大约5%的适配数据后准确率达到巅峰,适配数据20000帧,在CSL-HDEMG的2048赫兹的采样率下大约10秒。 并且适配算法并不需要观测到所有种类的手势,从27种选择5个和13个进行适配,最终结果分别是(),()另一种方法是肌电地势(sEMG topography),定义为肌电信号在时间上的二维平均强度图,其中每个像素是某个通道的肌电信号在特定时间窗口内的均方根,用于手势识别。 《Revealing Critical Channels and Frequency Bands for Emotion Recognition from EEG with Deep Belief Network》 在基于脑电信号的情感识别任务中,多通道脑电信号存在不相关的脑电信号,这不仅会引起噪声,还会降低系统对情感识别能力。该论文提出一种新的深度信念网(DBN)来检查用于情感识别的关键EEG信道和频段。 主要从行为和生理反应进行情感分析,因为EEG与表情手势相比,具有较高的准确性和客观评价性。该论文采用ESI神经扫描系统,从62通道电极帽以采样率为1000Hz记录脑电信号。每个实验有15个测试,每个测试包括15s提示,45s测试及反馈,5s休息。盖论文一共评价了30个实验。 先下采样原始脑电数据到200Hz,之后使用到50Hz的带通滤波器滤除噪声和伪影,之后采用之前提出的微分熵(differential entropy)特征[1][2],对于固定长度的脑电信号,微分熵相当于一定频段内的对数能量谱。此前已经证明微分熵在低频和高频能量之间具有识别EEG模式的能力,因此在五个频段计算微分熵特征(δ:1-3Hz,θ:4 – 7Hz,α:8-13Hz,β:14-30Hz,γ:31-50Hz),使用256点的短时傅里叶变换,并将特征归一化到0-1。利用五个频段的去噪后的62通道的特征作为输入,DBN达到的准确率和标准差,本论文通过分析经过训练的DBN的权重分布来检验关键通道和频带,权重对于识别情感模型是很重要的,因为对于学习任务贡献较大的神经元权值将增加,不相关的神经元权值趋于随机分布,图1为权重在第一层神经网络训练后的分布,可以看出主要在beta和gamma波的权重最大,这说明此频带包含更重要的鉴别信息。 从图2中我们可以看出侧颞区和前额脑区相比其他脑区在beta和gamma频带更容易激活。因此可以得出结论,在识别积极,中性和负面情绪时侧颞叶和前额叶通道是关键通道,beta和gamma是关键频带。如图3所示,依据脑区中权重分布的特点,设计了四种不同的电极放置剖面,包括4通道,6通道,9通道和12通道,其中4通道的最佳平均精度和标准差为,而所有62通道的最佳平均精度和标准差为,这说明四个相对电极阻轮廓(four profiles of relative electrode sets)FT7,T7,FT8,T8是辨别情感特征的电极。 [1]Duan R N, Zhu J Y, Lu B L. Differential entropyfeature for EEG-based emotion classification[C]// International Ieee/embsConference on Neural Engineering. IEEE, 2013:81-84. [2]Zheng W L, Zhu J Y, Peng Y, et al. EEG-based emotionclassification using deep belief networks[C]// IEEE International Conference onMultimedia and Expo. IEEE, 2014:1-6. 脑电论文(大脑解码:行为,情绪): Real-time naive learning of neural correlates in ECoG Electrophysiology 神经实时朴素学习相关的皮层电生理 地址: A Deep Learning Method for Classification of EEG Data Based on MotorImagery 基于运动表象的脑电数据分类的深度学习方法 地址: Affective state recognition from EEG with deep belief networks 基于深层信念网络的脑电情感状态识别 地址: A Novel Semi-Supervised Deep Learning Framework for Affective StateRecognition on EEG Signals 一种用于脑电信号情感状态识别的半监督深度学习框架 地址: Revealing critical channels and frequency bands for emotion recognitionfrom EEG with deep belief network 用深层信念网络揭示脑电情感识别的关键通道和频带 地址: EEG-based emotion recognition using deep learning network withprincipal component based covariate shift adaptation 基于深度学习网络的主成分协移自适应的脑电情感识别 地址: Classifying EEG recordings of rhythm perception 节律性脑电记录分类 地址: Using Convolutional Neural Networks to Recognize Rhythm Stimuli from Electroencephalography Recordings利用卷积神经网络识别脑电记录中的节律刺激 地址: Convolutional neural network with embedded Fourier transform for EEGclassification 基于嵌入傅立叶变换的卷积神经网络在脑电信号分类中的应用 地址: Continuous emotion detection using EEG signals and facial expressions 基于脑电信号和表情的连续情绪检测 地址: ‘Deep Feature Learning for EEG Recordings 脑电记录的深部特征学习 地址: 异常分类论文(阿兹海默症,癫痫,睡眠阶段检测): Classification of Electrocardiogram Signals with Deep Belief Networks 基于深层信念网络的心电信号分类 Modeling electroencephalography waveforms with semi-supervised deepbelief nets: fast classification and anomaly measurement 半监督深信网模拟脑电波形:快速分类和异常测量 Deep belief networks used on high resolution multichannelelectroencephalography data for seizure detection 用于癫痫检测的基于高分辨率多道脑电图数据的深度信念网 地址: Deep Learning in the EEG Diagnosis of Alzheimer’s Disease 深层学习在阿尔茨海默病脑电诊断中的应用 Sleep stage classification using unsupervised feature learning 基于无监督特征学习的睡眠阶段分类 Classification of patterns of EEG synchronization for seizureprediction 癫痫发作的脑电同步模式分类 地址: Recurrent neural network based prediction of epileptic seizures inintra-and extracranial EEG 基于递归神经网络的颅内外脑电癫痫发作预测 EEG-based lapse detection with high temporal resolution 基于脑电信号的高时间分辨率检测 地址:
题目太多了。。。。来拿走。
你的计算机科学与技术论文准备往什么方向写,选题老师审核通过了没,有没有列个大纲让老师看一下写作方向? 老师有没有和你说论文往哪个方向写比较好?写论文之前,一定要写个大纲,这样老师,好确定了框架,避免以后论文修改过程中出现大改的情况!!学校的格式要求、写作规范要注意,否则很可能发回来重新改,你要还有什么不明白或不懂可以问我,希望你能够顺利毕业,迈向新的人生。论文选题的具体方法有哪些在选题的方向确定以后,还要经过一定的调查和研究,来进一步确定选题的范围,以至最后选定具体题目。下面介绍两种常见的选题方法。1、浏览捕捉法这种方法就是通过对占有的文献资料快速地、大量地阅读,在比较中来确定题目的方法。浏览捕捉法一般可按以下步骤进行:第一步、广泛地浏览资料。在浏览中要注意勤作笔录,随时记下资料的纲目,记下资料中对自己影响最深刻的观点、论据、论证方法等,记下脑海中涌现的点滴体会。第二步、是将阅读所得到的方方面面的内容,进行分类、排列、组合,从中寻找问题、发现问题,材料可按纲目分类。第三步、将自己在研究中的体会与资料分别加以比较,找出哪些体会在资料中没有或部分没有。 2、追溯验证法这是一种先有拟想,然后再通过阅读资料加以验证来确定选题的方法。追溯可从以下几方面考虑:第一步、看自己的“拟想”是否对别人的观点有补充作用,自己的“拟想”别人没有论及或者论及得较少。第二步、如果自己的“拟想”虽然别人还没有谈到,但自己尚缺乏足够的理由来加以论证,考虑到写作时间的限制,那就应该中止,再作重新构思。第三步、看“拟想”是否与别人重复。如果自己的想法与别人完全一样,就应马上改变“拟想”,再作考虑;如果自己的想法只是部分的与别人的研究成果重复,就应再缩小范围,在非重复方面深入研究。第四步、要善于捕捉一闪之念,抓住不放,深入研究。在阅读文献资料或调查研究中,有时会突然产生一些思想火花。
近年来机器人辅助外科手术的出现,引起了医学界乃至全世界的关注。什么是手术机器人呢?手术机器人不是机器人在做手术,而是手术机器人系统由经验丰富的外科医生操控机械手臂,来达到手术的目的。医生在机器人手术系统控制台上操作机械臂,被系统精确无误的实时传递,同时在患者体内微小的器械进行手术。医生采用手术机器人辅助手术,可以使手术更加精准、创伤更小、患者恢复更快。
远程手术机器人主要应用于远程手术,比如达芬奇机器人(da Vinci)。远程机器人手术系统主要由控制台和操作臂两部分组成。控制台是机器人手术系统的核心,由计算机系统、手术操作监视器。机器人控制监视器、操作手柄和输入输出设备等组成。术者坐在控制台前,通过机器人的控制监视设定器械动作幅度,张开角度的大小、器械闭合后锁定与否等,利用操作手柄进行操作。手术前需对操作臂活动范围进行设定。术者的手术操作转化为电信号,传导给机器人的操作臂,从而实现远程手术。
2001年7月《自然》 杂志报道了世界首例从美国纽约到法国Strasbourg的跨大西洋腹腔镜胆囊切除术也获得了成功,这是远程手术的一个里程碑,标志着外科手术跨时代的飞跃。现今远程手术机器人手术已应用于心脏外科、普通外科、泌尿外科、妇产科和骨科,具有普通腔镜或开放手术无法替代的优点:1、可进行精细操作,计算机系统可将术者在操作台上易于完成的大幅度动作通过缩小传输到机器人双臂手柄上,并可将术者的动作进行高频波过滤,消除器械的抖动和震颤,使操作更平稳准确。2、术者可坐在舒适的椅子上从容进行手术操作,不易疲劳3、手术通常由术者一人就可以完成。有时需1位洗手护士或助手医师,帮助安装、更换手术器械,协助止血,术后卸载器械装置等。
美国食品和药物监管局将远程手术机器人定为二类器械(那些被滥用或错用会造成亚种伤害的器械)来监管,因为它的控制信号都是依靠来自电脑的电磁脉冲。此外,远程手术的机器人操作手术时,术者使用的是机器人手柄或特制的器械,需要一段时间学习和训练,才能获得一种间接的触觉的反馈,否则压力过大会造成局部组织的损伤。在其他安全问题上,如黑客网络攻击造成互联网传输的中断、远程传输速度慢造成图像滞后,也会影响手术的精确性等等。由此可见,紧急应付措施及机器人操作的精确性和敏感性应该纳入术前考虑的问题。
对于特别脆弱的组织,医生在第一次远程 "触摸 "时可能已经施加了过大的压力。而正是考虑到这个问题,美国德克萨斯农工大学的一个团队创造了这个实验性的新系统。在其目前的形式下,它结合了光学距离传感器,应用于机器人抓取器的手指内侧,由人类操作者远程控制。当该设备闭上手指抓取物体时,传感器会测量自己和该物体之间的距离递减。这些数据会被传送到操作者佩戴的控制手套上,控制手套会向他们的指尖发出温和的电脉冲。这些脉冲的频率会随着操作者的手指越来越接近物体而增加。因此,操作者可以在实际接触物品之前,精细地调节他们即将施加到物品上的压力大小。
远程手术机器人的关键设备之一是互联网系统。互联网网速会影响图像的传输速度,进而影响手术的精确性。研究表明,600毫秒以内的滞后,在现实中对手术的影响是微乎其微。现在5G网络已经逐渐在普及,图像传输的滞后必将得到解决。
相比之下,互联网的稳定性则是关键的问题,如何保证互联网故障不会发生、服务器遭受黑客恶意攻击,是目前尚待解决的问题。加密在机器人和人类操作员之间流动的数据包将有助于防止某些类型的网络攻击。但是,对于使用无关数据阻碍系统的拒绝服务攻击,它无效。对于视频,加密还存在导致精细操作中不可接受的延迟的风险。为此,华盛顿大学(UW)电气工程团队开发“操作员签名”的概念,该概念利用特定外科医生或其他遥控操作员与机器人交互的方式来创建独特的生物识别签名。通过跟踪特定操作员应用于控制台仪器的力和扭矩以及他或她与机器人工具的相互作用,研究人员开发了一种新方法来验证该人的身份并验证操作员是他或她声称的人。
相信在不久的将来,随着机器人手术器械和手术技术的不断成熟和完善,信息网络技术的飞速发展,远程手术机器人必将越来越完善,能够帮助外科医生减少手术过程中的意外伤害,不断造福于人类。
“我们要消除众生的困苦和匮乏,带给他们愉悦和美丽。”——医疗机器人工程师
远程机器人系统已经允许外科医生在一个地方控制另一个地方的机器人手术工具,因此他们可以在远处进行手术。然而,一种新的近距离感应系统可以使这种手术比以往更安全、更精确。
在典型的远程机器人手术设置中,外科医生在视频屏幕上查看切口,移动手指在远程手术室中相应地移动机器人操纵器 "手指 "或其他器械。这种技术不仅可以让外科医生在一个城市给另一个城市的病人做手术,而且还可以在外科医生自己的位置上给病人做手术,帮助他们在做精细手术时,抚平手部的颤动。因此,这些系统通常都包含了触觉反馈功能,操作者可以通过指尖上的振动来感受到他们对病人身体组织施加的力的大小。
也就是说,对于特别脆弱的组织,医生在第一次远程 "触摸 "时可能已经施加了过大的压力。而正是考虑到这个问题,美国德克萨斯农工大学的一个团队创造了这个实验性的新系统。在其目前的形式下,它结合了光学距离传感器,应用于机器人抓取器的手指内侧,由人类操作者远程控制。当该设备闭上手指抓取物体时,传感器会测量自己和该物体之间的距离递减。
这些数据会被传送到操作者佩戴的控制手套上,控制手套会向他们的指尖发出温和的电脉冲。这些脉冲的频率会随着操作者的手指越来越接近物体而增加。因此,操作者可以在实际接触物品之前,精细地调节他们即将施加到物品上的压力大小。
在实验室测试中,11名志愿者使用该系统远程完成了一个物体抓取任务。每个人只在抓取器的视频引导下完成了两次,另外两次是在视频和触觉反馈的引导下完成的。当反馈被利用后,他们能够减少约70%的初始接触力。最终,研究人员希望这项技术能够在远程机器人手术中最大限度地降低患者的风险,并且以不分散注意力的方式进行。
“我们的目标是想出一种能够在不增加这项任务所需的主动思考负担的情况下,提高近距离估计的准确性的解决方案。”首席科学家Hangue Park说。“当我们的技术准备好在手术环境中使用后,医生将能够直观地知道他们的机器人手指离底层结构有多远,这意味着他们可以保持积极的专注于优化患者的手术结果。”
一篇关于这项研究的论文最近发表在《科学报告》杂志上。
从新型冠状病毒肺炎疫情开始到现在,中国是世界上疫情控制做得最好的国家。不过,关联境外输入的零星小规模偶发疫情持续不断,一旦疫情出现必然导致隔离发生,医院作为战疫主战场,影响许多需要医疗救助的病人。幸运的是,5G技术推动的远程医疗快速发展,尤其VR/AR技术立体呈现病人器官、组织病变形态,允许医生远程清晰诊断病人的病灶;手势识别精准定位医生的动作与病人身体的位置,远程控制医疗设备为病人诊疗、手术,为远程病人带来曙光。
一、远程医疗“VR/AR+手势识别”方案落地性强
自从5G诞生,云计算速度延迟的基础设施障碍没了,我们落地远程医疗就要考虑三方面因素:一是精度,医疗的精度必须高到离谱,有初 科技 手势控制精度能达到级别;二是立体,医生也是人,有正常的交互习惯,建立VR/AR病人器官、组织模型,最大化接近人体并看得更清楚;三是成本,类似一针药100多万的产品没有普及价值,这是一个软件算法配合硬件的方案,软件算法效率提升可以降低硬件成本,进而降低整体成本,实现“普通摄像头+深度学习”方案,大数据进一步训练,精准度越来越高。
首先来讲,基于计算机视觉的手势识别的技术方案优势明显,从医生动作信息输入到VR/AR模型做出反馈,这是一个动态过程,降低了硬件的束缚,为实时手术提供了可行性,而且,手势识别降低了硬件的依赖,让医生的手避免被其他物体遮挡,顺应医生视觉习惯,而且识别精度比医生手术刀微弱抖动还小,技术的落地基础有了。
其次,人体是一个三维立体结构,而手势识别也是三维立体识别,VR/AR模型呈现也是三维立体。这过程类似增强CT、MR或造影支持,从机器视觉获取人体三维模型信息到VR/AR模型立体呈现,呈现在医生眼前的就是一个立体的病人器官、组织,并清晰展示病灶情况,此时,医生远程诊断病人情况,需要手术的情况下,也可以借助远程专用VR/AR模型为基础的手术平台,实现两地病人与医生的链接,完成远程手术,为来不及远程运送的急重症病人提供新的希望。
最后,任何 科技 的产生都是为了造福大众,成本的高企无法适应市场需求,进行最优方案降低成本也是必须考虑的因素。目前来讲,基于机器视觉的手势识别方案分为两种“一种是用深度摄像头,一种是用一个或者多个普通摄像头实现。 而其中深度摄像头的方案又分为两种,TOF(Time of Flight,光飞时间)和结构光。”而不同方案的差别就像人的一只眼睛、两只眼睛看到景深层次不同,但是一只眼睛借助已有信息、关键提示等其他辅助软条件也可以达到预定效果,而普通摄像头信息延迟低于TOF数倍、拍摄角度大于TOF很多,虽然提高算法要求,但是降低综合成本,更及时、全面获取信息,也更适应医疗场景需求。
二、远程医疗VR/AR硬件低成本、高精度手势识别技术可行
在手势识别应用于VR/AR硬件方面,有初 科技 有落地项目进行实际验证,并把成本分成不同方案进行呈现,当然,包括最低成本的实现方案。
对于医疗来讲,高精度就是病人的生命,有初 科技 实现识别精度,为远程精准医疗提供技术可行性。实现手势识别依赖“摄像头+算法”的合理方案,得益于机器视觉和深度学习技术的发展,我们利用普通摄像头实现高精度的手势识别,对于应用的落地是一大利好。
而且,手势识别的高精度摆脱穿戴设备也是一大突破,一个穿戴设备套在手上,增加一层交互传感的误差,这个误差远远大于手术刀的误差,这一点无手套、无标记的手势识别也是有初 科技 的优势。
对于医疗来讲,延迟和视角是高精度的间接影响因素,却直接影响着医生对病人的治疗。利用现有SLAM摄像头实现手势识别,大部分用于SLAM的摄像头均为鱼眼或者广角灰度摄像头,在实现的精度上,用同样的计算资源或者用同样复杂度模型的话,基于深度的或者灰度的摄像头能够做到精度最高,RGB的精度反而相对会弱一些,因此,直接在SLAM的相机上实现手势识别的精度也能够达到比较满意的效果。
在成本、延迟、广角都占据优势的条件下,SLAM相机进一步加速“普通摄像头+深度学习”方案落地,也可能是未来的主流方案,等待临床数据去训练和验证。
三、远程医疗“最自然交互”手势识别成为VR/AR选择
最好的交互就是没有交互,当下的交互方式都是人适应机器,这样就容易导致用户的操作失误,医生的操作失误就会导致病人的生命危险,所以,交互方式适应人才是最佳方案。
人类诞生语言前,手势识最原始、最自然的交流方式,成为人的一种习惯、潜意识,出错率大大降低,而手势识别就是基于最自然的交互,适应医生的习惯,让医生全身心投入治疗,而不是分心于交互习惯。
而无论具有高度三维立体沉浸感的VR/AR,还是交互自然而生的手势控制,模仿人体日常生活中的行为方式,如挥手、握手、击掌、猜拳、抓取……动态追踪手势进行实时识别,保障动作识别的及时性、准确性。
为了提高真实手术场景的触感,基于VR/AR定制手术刀、镊子等设备,实现手势的触觉反馈体验,进一步感知手部复杂自由度的姿态和意图,未来手势识别成为VR/AR设备主流交互方式指日可待。
转载1 引言手写体数字识别是文字识别中的一个研究课题,是多年来的研究热点,也是模式识别领域中最成功的应用之一。由于识别类型较少,在实际生活中有深远的应用需求,一直得到广泛的重视。近年来随着计算机技术和数字图像处理技术的飞速发展,数字识别在电子商务、机器自动输入等场合已经获得成功的实际应用。尽管人们对手写数字的研究己从事了很长时间的研究,并己取得了很多成果,但到目前为止,机器的识别本领还无法与人的认知能力相比,这仍是一个有难度的开放问题,所以对手写数字识别的进一步研究,寻求如何更高效更准确更节能地实现手写数字的自动录入和识别的解决方案对提高经济效益、推动社会发展都有深远的意义。近年来, 人工神经网技术发展十分迅速, 它具有模拟人类部分形象思维的能力, 为模式识别开辟了新的途径, 成了模拟人工智能的一种重要方法,特别是它的信息并行分布式处理能力和自学习功能等显著优点, 更是激起了人们对它的极大的兴趣。BP(Back Propagation)网络是神经网络中一种,是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,可以很好地解决非线性问题,在函数逼近、模式识别和数据压缩等方面都有很广泛的应用。我们在认真地研究了神经网络的基本原理和机制的基础上, 结合手写体数字识别这一具体课题, 提出了用BP神经网络方法来实现手写体数字识别的方案。2 手写体数字识别概述 手写数字识别简述模式识别是六十年代初迅速发展起来的一门学科。由于它研究的是如何用机器来实现人及某些动物对事物的学习、识别和判断能力,因而受到了很多科技领域研究人员的注意,成为人工智能研究的一个重要方面。字符识别是模式识别的一个传统研究领域。从50年代开始,许多的研究者就在这一研究领域开展了广泛的探索,并为模式识别的发展产生了积极的影响。手写体数字识别是多年来的研究热点也是字符识别中的一个特别问题。手写体数字识别在特定的环境下,如邮政编码自动识别系统,税表和银行支票自动处理系统等一般情况。当涉及到数字识别时,人们往往要求识别器有很高的识别可靠性,特别是有关金额的数字识别时,如支票中填写的金额部分,更是如此。因此针对这类问题的处理系统设计的关键环节之一就是设计出高可靠性和高识别率的手写体数字识别方法。这个领域取得了飞速的发展,部分是由于更好的学习算法,部分是由于更优良的训练集。美国国家科学学会(NIST)建立了一个包含60000个经过标注的数字的数据库,它已经成为对新的学习算法进行比较的性能测试标准。然而可以说还没有哪个手写体数字识别器达到完美的识别效果。在过去的数十年中,研究者们提出了许许多多的识别方法,按使用的特征不同,这些方法可以分为两类:基于结构特征的方法和基于统计特征的方法。统计特征通常包括点密度的测量、矩、特征区域等。结构特征通常包括园、端点、交叉点、笔划、轮廓等,一般来说,两类特征各有优势。例如,使用统计特征的分类器易于训练,而且对于使用统计特征的分类器,在给定的训练集上能够得到相对较高的识别率;而结构特征的主要优点之一是能描述字符的结构,在识别过程中能有效地结合几何和结构的知识,因此能够得到可靠性较高的识别结果。本文针对手写数字识别选用BP神经网络这种基于传统统计学基础上的分类方法,用于分割和识别,并取得了较好的识别效果。 手写数字识别的一般过程手写体数字识别的过程如图2-1所示,一般分为预处理、特征提取、数字串的分割、分类器、等模块。原始图像是通过光电扫描仪,CCD器件或电子传真机等获得的二维图像信号。预处理包括对原始图像的去噪、倾斜校正或各种滤波处理。手写体数字具有随意性,其字符大小、字间距、字内距变化很大,分割难度较大。手写数字串的分割是其中最重要的环节,是制约识别率的瓶颈所在。去噪是预处理中极重要的环节。系统面对的是从实际环境中切分出的字符图像,可能有粘连的边框、随机的墨点、切分不正确引入的其他字符笔划等使前景点增加的噪声,还可能有断线等使背景增加的噪声,目前适应各种环境的通用去噪算法还不成熟。预处理中的规格化也不仅仅是同比例的放缩,它不仅要保持拓扑不变,更要最大限度地突出所取特征。在众多应用环境中,特征提取、分类器、多分类器集成是整个识别系统的核心。大体上来说特征可以分为结构特征和统计特征两类。由于分类器的选择取决于所提取的特征,因此相应的识别方法便有结构方法和统计方法。总之,从手写体数字识别原理可见,手写体数字识别技术主要包括以下几点:1)图像预处理,包括彩色图像转成灰度图像、二值化,归一化,滤除干扰噪声等;2)基于数字图像的特征选择和提取;3)数字串的分割;4)模式分类识别。其中,第二和第四部分是手写数字识别的重点,直接关系到识别的准确率和效率,也是本论文研究的重点所在。结果图2-1 识别流程 手写数字识别的一般方法及比较手写数字识别在学科上属于模式识别和人工智能的范畴。在过去的四十年中,人们提出了很多办法获取手写字符的关键特征,提出了许多识别方法和识别技术。这些手段分两大类:全局分析和结构分析。多年的研究实践表明,对于完全没有限制的手写数字,几乎可以肯定:没有一种简单的方案能达到很高的识别率和识别精度,因此,最近这方面的努力向着更为成熟、复杂、综合的方向发展。研究工作者努力把新的知识运用到预处理,特征提取,分类当中。近年来,人工智能中专家系统方法、人工神经网络方法已应用于手写数字识别。在手写数字识别的研究中,神经网络技术和多种方法的综合是值得重视的方向。针对模式特征的不同选择及其判别决策方法的不同,可将模式识别方法大致分为5大类这5种识别方法均可实现手写数字识别,但它们特点不同,必须根据条件进行选择。(1)统计模式法这是以同类模式具有相同属性为基础的识别方法。用来描述事物属性的参量叫做待征,它可以通过模式的多个样本的测量值统计分析后按一定准则来提取。例如:在手写数字识别系统中,我们可以把每个数字的图形分为若干个小方块(图),然后统计每一小方块中的黑像素构成一个多维特征矢量,作为该数字的特征。必须注意的是:在选择特征时,用于各类模式的特征应该把同类模式的各个样本聚集在一起,而使不同类模式的样本尽量分开,以保证识别系统能具有足够高的识别率。(2)句法结构方法在形式语言和自动机的基础上产生了句法结构这一方法。其基本原理是:对每一个模式都用一个句法来表示,而对一个待识别的未知样本,通过抽取该样本的基元来构造该样本的句子,然后分析此句子满足什么样的句法,从而推断出他该属于哪个模式类。这种方法的优点是它能反映模式的结构特征,而且对模式的结构特征变换不敏感,因此比较适合联机识别。但是由于抽取字符的基元比较困难,因而不是特别适合用于脱机识别,同时这一方法的理论基础还不可靠,抗干扰能力比较弱。(3)逻辑特征法就是其特征的选择对一类模式识别问题来说是独一无二的,即在一类问题中只有1个模式具有某1种(或某1组合的)逻辑特征,此方法律立了关于知识表示及组织,目标搜索及匹配的完整体系;对需通过众多规则的推理达到识别目标的问题,有很好的效果,但当样品有缺损,背景不清晰,规则不明确甚至有歧义时,效果不好。(4)模糊模式方法就是在模式识别过程中引入了模糊集的概念,由于隶属度函数作为样品与模板相似程度的量度,故能反映整体的、主要的特性,模糊模式有相当不匀称的抗干扰与畸变,从而允许样品有相当程度的干扰与畸变,但准确合理的隶属度函数往往难以建立。目前有学者在研究,并将其引入神经网络方法形成模糊神经网络识别系统。(5)神经网络方法就是使用人工神经网络方法实现模式识别。可处理某些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题,允许样品有较大的缺损、畸变。神经网络方法的缺点是其模型在不断丰富完善中,目前能识别的模式类不够多,神经网络方法允许样品有较大的缺损和畸变,其运行速度快,自适应性能好,具有较高的分辨率。上述几种识别方法各有特点。结构法比较直观,能较好反映事物的结构特性:问题是基元的提取很不容易,各基元的关系也比较复杂,抗干扰性能也较差。统计法用计算机来抽取特征,比较方便,抗干扰性能强;缺点是没有充分利用模式的结构特性。神经网络方法由于处理的并行性,可以快速同时处理大容量的数据,工作时具有高速度和潜在超高速,并且,网络的最终输出是由所有神经元共同作用的结果,一个神经元的错误对整体的影响很小,所以其容错性也非常的好。基于以上的考虑,本文的手写数字识别采用了神经网络的方法。3 图像预处理与特征提取手写体图像数据在没有进行一定的图像预处理和特征提取之前,不能立即应用到程序中进行神经网络训练和字符识别工作。从图像处理角度来说,手写体的字符识别对字符是不是有颜色是不关心的,而对此图像的清晰度是很关心的。所以在图像进行一系列的图像处理工作是很有必要的。图像的预处理是正确、有效提取图像特征的基础,有效的图像特征作为网络的输入值才能进行正确的神经网络训练和最终得到正确、有效的网络权重。 数字图像预处理 灰度化处理彩色图像包含了大量的颜色信息,不但在存储上开销很大,在处理上也会降低系统的执行速度,因此在对图像进行识别等处理中经常将彩色图像转变为灰度图像,以加快处理速度。由彩色转换为灰度的过程称为灰度化处理。灰度图像就是只有强度信息而没有颜色信息的图像,存储灰度图像只需要一个数据矩阵,矩阵每个元素表示对应位置像素的灰度值。彩色图像的像素色为RGB(R,G,B),灰度图像的像素色为RGB(r,r,r) ,R,G,B可由彩色图像的颜色分解获得。而R,G,B的取值范围是0-255,所以灰度的级别只有256级。灰度化的处理方法主要有如下三种:最大值法、平均值法和加权平均值法。本文用到的加权平均值法来处理,即更换每个像素的颜色索引(即按照灰度映射表换成灰度值)。 权重选择参数为:红:绿:蓝:例如某像素点颜色对应的灰度值计算公式为:NewPixColor?(BYTE)(0299*Red?*Green?*Blue) 系统输入的源图像支持3通道或者4通道图像,支持Format24bppRgb, format32bppRgb, Format32bppArgb和Format8bppIndex这4种像素格式。 二值化处理二值图像是指整幅图像画面内仅黑、白二值的图像。在数字图像处理中,二值图像占有非常重要的地位。在实际的识别系统中,进行图像二值变换的关键是要确定合适的阈值,使得字符与背景能够分割开来,二值变换的结果图像必须要具备良好的保形性,不丢掉有用的形状信息,不会产生额外的空缺等等。采用二值图像进行处理,能大大地提高处理效率。 二值化的关键在于阈值的选取,阈值的选取方法主要有三类:全局阈值法、局部阈值法、动态阈值法。全局阀值二值化方法是根据图像的直方图或灰度的空间分布确定一个阀值,并根据该阀值实现灰度图像到二值化图像的转化。全局阀值方法的优点在于算法简单,对于目标和背景明显分离、直方图分布呈双峰的图像效果良好,但对输入图像量化噪声或不均匀光照等情况抵抗能力差,应用受到极大限制。局部阀值法则是由像素灰度值和像素周围点局部灰度特性来确定像素的阀值的。Bernsen算法是典型的局部阀值方法,非均匀光照条件等情况虽然影响整体图像的灰度分布却不影响局部的图像性质,局部阀值法也存在缺点和问题,如实现速度慢、不能保证字符笔划连通性、以及容易出现伪影现象等。动态阀值法的阀值选择不仅取决于该像素灰度值以及它周围像素的灰度值,而且还和该像素的坐标位置有关,由于充分考虑了每个像素邻域的特征,能更好的突出背景和目标的边界,使相距很近的两条线不会产生粘连现象。在图像分割二值化中,自动闽值选取问题是图像分割的关键所在。事实证明,闽值的选择的恰当与否对分割的效果起着决定性的作用。本文采用全局阈值的方法,实现将图像二值化的功能。如果某个像素的值大于等于阈值,该像素置为白色;否则置为黑色。系统程序目前仅支持8bpp灰度图像的转换,阈值介于0~255之间,程序中取220。 去离散噪声原始图像可能夹带了噪声,去噪声是图像处理中常用的手法。通常去噪用滤波的方法,比如中值滤波、均值滤波,本文中去除离散噪声点采用中值滤波的方法。中值滤波法是一种非线性平滑技术,它将每一象素点的灰度值设置为该点某邻域窗口内的所有象素点灰度值的中值,让周围的像素值接近的真实值,从而消除孤立的噪声点。 字符分割在识别时系统只能根据每个字符的特征来进行判断,为了最终能准确识别手写体数字,必须将单个字符从处理后的图像中逐个提取分离出来。具体做法是将图像中待识别的字符逐个分离出来并返回存放各个字符的位置信息的链表。当把图像分割完成后,从一定意义上来说便是形成了不同的小图,每一张小图就是一个数字,才能对这些小图进行尺寸大小一致的调整。 细化 图像特征提取特征提取是字符识别中的一个重要组成部分,是模式识别的核心之一。经过预处理后,根据识别方法的要求抽取图像特征,作为识别的依据。一般而言,选择的特征一方面要求能够足够代表这个图像模式,另一方面要求它们的数量尽可能少,这样能有效地进行分类和较小的计算量。特征提取的好坏会直接影响其识别的分类效果,进而影响识别率,因此特征选择是模式识别的关键。但是,目前还没有一个有效的、一般的抽取、选择特征的方法。抽取、选择特征的方法都是面对问题的,因此针对不同的识别问题往往有不止一种的抽取、选择特征的方法。
基于MATLAB的数字识别计算机与信息工程学院 本科生毕业论文 基于BP神经网络的手写数字识别算法的设计与实现 班 级: 13汉班 学 号: 姓 名: 江晓雪 指导教师: 李艳玲 2017 年 3 月 31 日 毕 业 论 文 目 录 1 绪论1 图像识别的提出1 图像识别的现状与发展趋势1 2 BP神经网络的概述2 3 手写体数字识别的实现过程4 整体线路图4 算法流程5 图像预处理10 结果分析10 4 结论11 参考文献12 全文共 13 页 4834 字 基于BP神经网络的手写数字识别算法的设计与实现 计算机与信息工程学院 2013级汉班 江晓雪 指导教师 李艳玲 副教授 摘要 本文实现了基于MATLAB关于神经网络的手写数字识别算法的设计过程,采用神经网络中反向传播神经网络(即BP神经网络)对手写数字的识别,由MATLAB对图片进行读入、灰度化以及二值化等处理,通过神经网络进行训练和测试。实验证明:该神经网络对手写数字的识别可以达到。 关键词 手写数字识别;BP神经网络;MATLAB语言 1 绪论 图像识别的提出 图像识别在信息技术发达的今天已经占据了很重要的地位,在我们实际生活中也有很多应用。所谓的图像识别,就是指通过计算机对图像进行相应的处理、分析,来达到识别不同模型的目标和任务的一种技术。对于它的提出,简单的来说,它的发展经历了三个阶段:第一个是文字识别 、第二个是数字图像处理与识别、第三个是物体识别。第一种相对来说比较简单,它的研究是从1950年开始的,一般情况是识别字母、符号和数字,无论是印刷体识别还是手写体识别,它的应用都非常广泛,但是也伴随着,这个识别的过程会更加的耗时、费力,无论是人力还是物力,都会有很大的损失;第二种就是我们所说的数字图像处理与识别,在图片的识别过程中,图片识别会有一定的误差,也会带来小小的麻烦;第三就是物体识别,而物体的识别主要指的是:在三维世界中,对于个体、环境的感知和认识进行识别,这不同于二维世界的认知,相对来说是更高级的计算机图像识别,它是以二维世界中对数字图像和模拟图像处理的办法为依据,进行更高一级的,并且结合了现代人工智能技术等学科的研究目标,研究成果已经被广泛的应用在各种工业探测机器人上,为人们的安全提供了很大的帮助。 图像识别的现状与发展趋势 随着网络的发达、电子的信息化,图像识别的应用已经非常广泛,而主要的研究工作也包括各行各业,整理以下几点对其应用的广泛度进行说明: ⒈在生物学中,对生物的原型进行研究。从生物的脑细胞结构、物体解剖等其他科学研究的方向对生物的体系结构、神经结构、神经细胞组织等生物的原型结构及其功能机理进行研究,增强对生物学更加全面的理解。 ⒉在实际应用中,建立我们需要的理论模型。根据需要应用的信息在生物学中的应用,建立需要的生物原型,也可以建立类似神经元、神经网络这样不可见的理论模型,以便可以让其更加有效的应用在生活中。建立我们生活中不能直观表现的事物模型,以便我们可以更方便的、更直观的理解事物的本质。 ⒊在信息时代中,建立网络模型以及算法研究。就是通过上面所说的,建立相应的理论模型,在这个基础上加以理解,建立我们所需要的网络模型,实现计算机应用,主要应用在网络学习算法的研究,这方面的研究工作也被人们称为技术模型研究。 ⒋信息时代的发展,让我们在生活中有很多的应用,例如:完成某种函数图像的绘制以及对其变化的形式进行分析、对图片信号的处理、模式识别等功能,建立需要的应用系统、制造机器人等等。 通过上面的说明,也就是说从开始根据生物学原理的应用,直到建立需要的神经网络模型,最后应用到图像识别当中,可以看出其模型的建立是在生活中实例的基础上,其可靠性和准确性是显而易见的,这样就大大的增加了可信度,与此同时,也减少了工作中不必要的麻烦与困扰。而在网络信息发达的今天,人类在基本粒子、宇宙空间、生命起源等科学领域方面都已经显现出很高的兴趣度,而这其中难免会有图像提取后的处理工作,所以图像识别的应用就会越来越广泛。 2 BP神经网络的概述 反向传播(Back-Propagation,BP)学习算法简称BP算法,采用BP算法的前馈型神经网络简称BP网络。BP网络是多层感知器的一种,它具备多层感知器的特点,同时也有自己的特点。多层感知器包括输入层、隐藏层、输出层,其中隐藏层可以有多个,而我们BP网络中隐藏层只有一个,其简单构造如图所示: 图1 多层感知器结构图 而我们用到的BP网络中的具体信号流如图所示,它有一个反向传播的过程,这也是对传播进行调整,使精确度更高的一种办法。如图所示,其中有两种信号流通: 图2 多层感知器的信号流 第一:函数信号 简单来说就是信号进入输入层,然后通过隐藏层到达输入层,通过输出层输出所得值,就可以完成一个函数信号。 第二:误差信号 误差信号就是在逆向的传播的过程中传输的信号。其中,有两个重要参数。一个是函数信号即sigmoid函数,还有一个就是权值的梯度运算即梯度向量。(注:sigmoid函数、权重的修正函数,如图所示。) (1) (2) 通过对两个参数的调整,完成整个算法的应用。 3 手写体数字识别的实现过程 整体线路图 整体流程图如图3所示: 图像测试 损失函数的设计与应用 可视化测试数据 神经网络的设计与训练 sigmoid函数 图3 整体流程图 部分文件调用流程图如图4所示: sigmoid checkNNGradients nnCostFunction 第八部分:实现正规化 第八部分:训练NN fmincg nnCostFunction sigmoidGradient sigmoid nnCostFunction sigmoidGradient randInitializeWeights checkNNGradients debugInitializeWeights nnCostFunction computeNumericalGradient 第五部分:sigmoid函数 第六部分:初始化参数 第七部分:实现反向传播 第三部分:前馈网络 第四部分:前馈正规化 图4 整体流程图 算法流程
你这问题属于数字图像中手写数字识别的实现的问题可以归类为数字图像处理(Digital Image Processing)我见到过很多文章介绍这个的有一篇标题叫做手写数字识别系统研究与实现的硕士论文你看看用的是BP算法
领域自适应: 多用于文本分类,属于直推式迁移学习,直推式迁移学习定义:给定一个源域和相应的学习任务,一个目标域和相应的学习任务,直推式学习旨在利用源域和目标域中相同的知识来提高目标域中的目标预测函数。 《基于深度学习的体态与手势感知计算关键技术研究》 基于深度学习的肌电手势识别: 并不需要任何附加信息或手工设计的特征提取器,基于高密度肌电信号(HD-sEMG),使用二维阵列电极采集的肌电信号,使得肌肉活动产生的电势场在时间和空间上的变化可被多个紧密分布在皮肤表面的电极同时记录下来。HD-sEMG中的肌电信号描绘了位于电极覆盖区域内的肌肉活动的时空分布,同时HD-sEMG的瞬时值呈现了在特定时间点肌肉活动所涉及的生理过程的相对全局的测量。瞬时HD-sEMG内部可区分出不同手势模式,可以将采集到的HD-Semg描绘出电势在空间的分布,其对应的热度图即为肌电图像,肌电图像中的像素数(分辨率)由其采集设备中的电极阵列决定,即电极的数量及其电极间距离(例如,具有16行8列的电极网格可W采集8*16像素的肌电图像)。主要是将原始肌电信号值从(-1,1)映射到(0,255),即,其中x是原始肌电信号,I是肌电图像。构建一个8层CNN结构,网络的前两个卷积层用于提取公共的底层图片特征,作者发现瞬时肌电图像在不同的空间位置上表现出不同的视觉特征。在不同手势中,肌电图像在中部偏下以及顶部的条状区域上亮度较强,提出在3,4层加入局部连接结构(受人脸识别前沿工作的启发),因为局部连接层在不同空间位置上的卷积模板的权重不共享,可以更好的提取图片上不同位置的特征。并依据单个窗口内每帧识别出的手势标签中所占比例最高的标签,因为上述实验仅适用于肌电幅值较大的数据进行训练和测试可以获得较高的手势识别准确率,因此需要对肌电信号采用全波整流和低通滤波(全波整流和低通滤波是被广泛采用的肌电信号幅值估计方法),以获取更好的肌电信号。基于深度领域自适应的肌电手势识别: 当训练集和测试集的肌电信号来自不同的采集会话的情况。因为电极位移,肌肉疲劳,电极和皮肤之间的阻抗变化等因素的干扰,肌电信号与采集会话高度相关,已经训练好的手势分类器直接被应用在新的会话时通常准确率较低。因为肌电信号的分布在不同的会话之间变化很大,所以来自不同会话的基于瞬时肌电信号的手势识别可以相应地表示为多源领域自适应问题。 当标定数据未标记时,该论文采用自适应批量归一化(AdaBN, Adaptive Batch Normalization)对手势分类器进行适配。假设用于区分不同手势的知识存储在每个层的权重中,AdaBN不需要适配数据的手势标签,而是随着无标签的适配数据的增加,逐步更新少量的网络参数。给定输入U,BN将其转换为V,其中第i个输入特征的转换公式为: l在训练阶段,每个BN层对于每个源域的均值统计量和方差统计量是独立计算的。因为训练阶段的BN对每个数据批次独立计算统计量,所以只需要确保每个数据批次中的样本来自同一个会话。 l识别阶段,对于给定的未标记数据A,AdaBN执行正向传播算法,更新参数。 该方法准确率:单幅,150毫秒窗口,而另一种算法特征集(150毫秒窗口)和线性判断:。 随机选择未标记的测试集的子集(,,1%,5%,10%)进行深度领域自适应,之后再评测整个测试集上的手势识别的准确率。最后观测到大约5%的适配数据后准确率达到巅峰,适配数据20000帧,在CSL-HDEMG的2048赫兹的采样率下大约10秒。 并且适配算法并不需要观测到所有种类的手势,从27种选择5个和13个进行适配,最终结果分别是(),()另一种方法是肌电地势(sEMG topography),定义为肌电信号在时间上的二维平均强度图,其中每个像素是某个通道的肌电信号在特定时间窗口内的均方根,用于手势识别。 《Revealing Critical Channels and Frequency Bands for Emotion Recognition from EEG with Deep Belief Network》 在基于脑电信号的情感识别任务中,多通道脑电信号存在不相关的脑电信号,这不仅会引起噪声,还会降低系统对情感识别能力。该论文提出一种新的深度信念网(DBN)来检查用于情感识别的关键EEG信道和频段。 主要从行为和生理反应进行情感分析,因为EEG与表情手势相比,具有较高的准确性和客观评价性。该论文采用ESI神经扫描系统,从62通道电极帽以采样率为1000Hz记录脑电信号。每个实验有15个测试,每个测试包括15s提示,45s测试及反馈,5s休息。盖论文一共评价了30个实验。 先下采样原始脑电数据到200Hz,之后使用到50Hz的带通滤波器滤除噪声和伪影,之后采用之前提出的微分熵(differential entropy)特征[1][2],对于固定长度的脑电信号,微分熵相当于一定频段内的对数能量谱。此前已经证明微分熵在低频和高频能量之间具有识别EEG模式的能力,因此在五个频段计算微分熵特征(δ:1-3Hz,θ:4 – 7Hz,α:8-13Hz,β:14-30Hz,γ:31-50Hz),使用256点的短时傅里叶变换,并将特征归一化到0-1。利用五个频段的去噪后的62通道的特征作为输入,DBN达到的准确率和标准差,本论文通过分析经过训练的DBN的权重分布来检验关键通道和频带,权重对于识别情感模型是很重要的,因为对于学习任务贡献较大的神经元权值将增加,不相关的神经元权值趋于随机分布,图1为权重在第一层神经网络训练后的分布,可以看出主要在beta和gamma波的权重最大,这说明此频带包含更重要的鉴别信息。 从图2中我们可以看出侧颞区和前额脑区相比其他脑区在beta和gamma频带更容易激活。因此可以得出结论,在识别积极,中性和负面情绪时侧颞叶和前额叶通道是关键通道,beta和gamma是关键频带。如图3所示,依据脑区中权重分布的特点,设计了四种不同的电极放置剖面,包括4通道,6通道,9通道和12通道,其中4通道的最佳平均精度和标准差为,而所有62通道的最佳平均精度和标准差为,这说明四个相对电极阻轮廓(four profiles of relative electrode sets)FT7,T7,FT8,T8是辨别情感特征的电极。 [1]Duan R N, Zhu J Y, Lu B L. Differential entropyfeature for EEG-based emotion classification[C]// International Ieee/embsConference on Neural Engineering. IEEE, 2013:81-84. [2]Zheng W L, Zhu J Y, Peng Y, et al. EEG-based emotionclassification using deep belief networks[C]// IEEE International Conference onMultimedia and Expo. IEEE, 2014:1-6. 脑电论文(大脑解码:行为,情绪): Real-time naive learning of neural correlates in ECoG Electrophysiology 神经实时朴素学习相关的皮层电生理 地址: A Deep Learning Method for Classification of EEG Data Based on MotorImagery 基于运动表象的脑电数据分类的深度学习方法 地址: Affective state recognition from EEG with deep belief networks 基于深层信念网络的脑电情感状态识别 地址: A Novel Semi-Supervised Deep Learning Framework for Affective StateRecognition on EEG Signals 一种用于脑电信号情感状态识别的半监督深度学习框架 地址: Revealing critical channels and frequency bands for emotion recognitionfrom EEG with deep belief network 用深层信念网络揭示脑电情感识别的关键通道和频带 地址: EEG-based emotion recognition using deep learning network withprincipal component based covariate shift adaptation 基于深度学习网络的主成分协移自适应的脑电情感识别 地址: Classifying EEG recordings of rhythm perception 节律性脑电记录分类 地址: Using Convolutional Neural Networks to Recognize Rhythm Stimuli from Electroencephalography Recordings利用卷积神经网络识别脑电记录中的节律刺激 地址: Convolutional neural network with embedded Fourier transform for EEGclassification 基于嵌入傅立叶变换的卷积神经网络在脑电信号分类中的应用 地址: Continuous emotion detection using EEG signals and facial expressions 基于脑电信号和表情的连续情绪检测 地址: ‘Deep Feature Learning for EEG Recordings 脑电记录的深部特征学习 地址: 异常分类论文(阿兹海默症,癫痫,睡眠阶段检测): Classification of Electrocardiogram Signals with Deep Belief Networks 基于深层信念网络的心电信号分类 Modeling electroencephalography waveforms with semi-supervised deepbelief nets: fast classification and anomaly measurement 半监督深信网模拟脑电波形:快速分类和异常测量 Deep belief networks used on high resolution multichannelelectroencephalography data for seizure detection 用于癫痫检测的基于高分辨率多道脑电图数据的深度信念网 地址: Deep Learning in the EEG Diagnosis of Alzheimer’s Disease 深层学习在阿尔茨海默病脑电诊断中的应用 Sleep stage classification using unsupervised feature learning 基于无监督特征学习的睡眠阶段分类 Classification of patterns of EEG synchronization for seizureprediction 癫痫发作的脑电同步模式分类 地址: Recurrent neural network based prediction of epileptic seizures inintra-and extracranial EEG 基于递归神经网络的颅内外脑电癫痫发作预测 EEG-based lapse detection with high temporal resolution 基于脑电信号的高时间分辨率检测 地址:
你的计算机科学与技术论文准备往什么方向写,选题老师审核通过了没,有没有列个大纲让老师看一下写作方向? 老师有没有和你说论文往哪个方向写比较好?写论文之前,一定要写个大纲,这样老师,好确定了框架,避免以后论文修改过程中出现大改的情况!!学校的格式要求、写作规范要注意,否则很可能发回来重新改,你要还有什么不明白或不懂可以问我,希望你能够顺利毕业,迈向新的人生。论文选题的具体方法有哪些在选题的方向确定以后,还要经过一定的调查和研究,来进一步确定选题的范围,以至最后选定具体题目。下面介绍两种常见的选题方法。1、浏览捕捉法这种方法就是通过对占有的文献资料快速地、大量地阅读,在比较中来确定题目的方法。浏览捕捉法一般可按以下步骤进行:第一步、广泛地浏览资料。在浏览中要注意勤作笔录,随时记下资料的纲目,记下资料中对自己影响最深刻的观点、论据、论证方法等,记下脑海中涌现的点滴体会。第二步、是将阅读所得到的方方面面的内容,进行分类、排列、组合,从中寻找问题、发现问题,材料可按纲目分类。第三步、将自己在研究中的体会与资料分别加以比较,找出哪些体会在资料中没有或部分没有。 2、追溯验证法这是一种先有拟想,然后再通过阅读资料加以验证来确定选题的方法。追溯可从以下几方面考虑:第一步、看自己的“拟想”是否对别人的观点有补充作用,自己的“拟想”别人没有论及或者论及得较少。第二步、如果自己的“拟想”虽然别人还没有谈到,但自己尚缺乏足够的理由来加以论证,考虑到写作时间的限制,那就应该中止,再作重新构思。第三步、看“拟想”是否与别人重复。如果自己的想法与别人完全一样,就应马上改变“拟想”,再作考虑;如果自己的想法只是部分的与别人的研究成果重复,就应再缩小范围,在非重复方面深入研究。第四步、要善于捕捉一闪之念,抓住不放,深入研究。在阅读文献资料或调查研究中,有时会突然产生一些思想火花。
没问题 告诉我具体的格式要求
虚拟现实(VR)是一种由计算机和电子技术创造的新世界,是一个看似真实的模拟环境,下面是我为大家精心推荐的关于虚拟现实的科技论文2500字,希望能够对您有所帮助。
直觉交互界面与虚拟现实
摘要:为了研发更高水准的直觉交互界面,有必要引入虚拟现实技术,借助具备沉浸性、交互性和想象性的人机交互环境来获得真正意义上的直觉体验。通过特定的物理器件装置,以及先进的手势识别技术,使用者不必学习专门的操作命令,就可以与计算机进行交流并获得实时的反馈,而独特的沉浸式环境更能创造出人机一体的融合感。结果表明,虚拟现实技术有效地提升了用户的体验度,大大简化了操作的复杂性,而且可以应用于从娱乐到专业制造等各种场合,是直觉交互界面的有力驱动平台。
关键词:直觉交互;人机交互;虚拟现实
中图分类号:J0-05 文献标识码:A
本文是在“人―计算机” 交互(Human-Computer Interaction)的意义上来谈论“交互”。随着计算机技术几十年来突飞猛进的发展,计算机已经完全进入了日常生活的方方面面,其影响无处不在,人机之间的互动操作问题也越发显得重要。由于计算机尚未能摆脱冯・诺依曼体系的根本制约,与人类思维模式之间的鸿沟依然如同天堑,人机交互问题的一个重要着眼点就在于如何尽量地缩小人类使用者的操作模式与计算机的操作模式之间的差别。这意味着我们仍在不断地摸索和探讨,去提供更优秀的交互界面,使人可以顺畅地、高效率地与计算机进行对话。
一直以来,交互设计思维首要强调的就是以人为本,换而言之就是让设计物适应人,而非人适应设计物。这种观点在计算机还是国防机密的年代中显得有些奢侈,人们只能痛苦地训练自己去迎合机器(例如,使用完全机器式的编程语言与计算机交谈)。在当下,相对廉价的个人计算机都可以提供可观的计算能力,因此交互界面的设计原则也就顺应了这样的思路,去尽可能地将界面做得人性化,让人用得舒服,而繁重的计算则交给计算机在幕后默默地处理。
正是在这样的大背景下,“直觉”一词吸引了大家的目光。毕竟相对于日常物件,计算机的交互界面还是太不人性了,依旧保持着冰冷的面孔。如果能将我们习以为常的动作引入与计算机的交互之中,在不知不觉中将完成与计算机的沟通,那么这样的人机界面才能称得上是以人为本。而在呈现直觉界面方面,新兴的虚拟现实技术则提供了最有价值的工具。
本文正是拟探讨直觉交互界面及其与虚拟现实技术间的关系,为了完成这样的任务,首先我们要对人机交互意义上的直觉作出一个明确的定义,它实际上与大众文化中的“直觉”概念有着相当的差别。之后我们将谈论如何将上述意义上的直觉与虚拟现实结合起来,并提供具体的案例分析来支撑我们的探讨。
一、直觉交互界面
直觉(Intuition)这个概念属于大众词汇,但实际上不同的学科对直觉都有着不同的定义。本文研究的对象是人机交互,因此将在“凭着直觉去与计算机进行交互” (interaction with computer by intuition)这个上下文中去探讨它。首先要注意到,交互是双方面的,也即人与计算机在进行着双向的互动,但直觉却是人才能拥有的,也是仅仅用来修饰人的判断与感觉的,因此直觉人机交互关心的是以人为中心的交互场景中各参与元素对人是否直觉。从人的角度考虑交互界面,这实际也就奠定了“以人为本”在理论上的基础性质。
一般而言,人们对直觉的交互有着如下诉求:它不需要经过有意识的思考便能做出。例如在翻动一页书的时候,人不需要去有意识地考虑该用多大的力气,手指该走怎样的空间路线,或有意识地等待书页翻动之后出现的非常规情况并作出反应,等等。在这个意义上,一本实体书的交互界面是直觉的。依据以上诉求,Blackler等人的研究指出,直觉是“基于已往经验的无意识的反应”[1]。这个定义强调了两个要点:基于以往经验和无意识。关于直觉往往是无意识的(下意识的)举动,这一点几乎已成共识,这里就不再展开论述。需要厘清的是“基于已往经验”这一点。
在日常生活中,人们或许并不认为直觉与已往经验之间会有什么关联。相反,许多人会认为,如果不需要经验就能进行某种操作,那么这种操作显然更符合直觉。特别地,中国传统文化中的“直觉”概念充满了反智主义的特征,直接将“直觉”与“本能”联系起来,往往意味着“不需要通过知识或经验便可以下意识地完成”。但这实际上是一种错误的观点,它不但误解了人的本能,而且未能认识到已往经验的真实存在及其影响。事实上,现代理论表明,人类绝大多数行动――简单的或复杂的――都是后天习得的,并非先天刻印于脑中。如果仅凭本能,人几乎无法完成什么人机交互操作:拿按钮这种最简单的人机界面元素来说,如果没有事先通过各种例子认识到存在按钮这种东西并且按下它之后会启动某些关联反应,使用者甚至都无法做出按下按钮的行为。或者用[2]的话来说,所有行动都承载着理论――后天习得的理论。
将直觉与已往经验联系起来,这不仅揭示了直觉在人机交互中的真正面貌,而且指出了设计人机交互界面时的一条基础准则:由于不同的人有着不同的生活经验与知识水平,那么他们的已有经验也是不同的,这也就意味着每种类型的人都有着他们对“直觉交互界面”的不同衡量标准。有一个简单的例子可以说明这一点。
考虑一款在电脑上运行的收音机软件,它的作用是播放网络上的各类实时音频流(包括传统电台的在线音频流)。图 1模拟半导体收音机的调频指针窗口,从传统眼光而论这样的界面便是直觉的。然而,对于没有用过半导体收音机的新一代年轻人而言,他们由于频繁地接触电脑,反而会觉得图2的界面是直觉的,因为这样的界面使用的是为电脑用户所熟知的UI(User Interface,用户界面)元素,包括菜单、按钮、列表框和滚动条等等。
习惯半导体收音机操作的用户多半用不惯新式界面,而习惯新式界面、没使用过半导体收音机的用户却很可能对传统界面不知所以。这个例子充分说明了,在考虑直觉交互界面的时候,必须考虑用户群体的已往经验,依据不同的已往经验去断定直觉因素。并不存在唯一的、普适的、通用的直觉界面,这给了设计师以极大的挑战,但同时也是极大的创新动力。 此外,虽然直觉的定义没有直接体现对审美的考虑,但审美和直觉显然是互有关联的[3]。由于直觉使用与交互过程中唤起的先前知识有关,那么审美判断作为人类感知过程的起点之一,恰是诱发直觉的重要因素。一个富于美感的界面,可以抵消用户使用过程中的不安感和隔膜感,并在潜意识上促使和鼓励用户做出交互行为并保证交互行为的持续性和统一性。上面的例子也表明,对于传统用户,设计精美、极富质感的模拟界面有效地抵消了传统用户对电脑软件的不适感,方便他们使用,并且大大降低了潜在的学习成本。而对于年轻用户,他们也可以在自己熟悉的控件界面中运作自如,拉近了老技术(传统流媒体)与新技术间的距离。简而言之,具备良好审美特性的直觉界面具有重要的价值与意义,体现了人机交互界面的发展趋势。
二、直觉界面与虚拟现实
自上世纪70年代起,虚拟现实(Virtual Reality)技术的发展异常迅猛,从专业研究到商业应用乃至家用娱乐都可见其身影。从根本上而言,虚拟现实恰是交互界面直觉化的总趋势的一个反映,因为人机交互演进的内在逻辑在于,呈现和交互手段总在致力于让用户以更直观、更自然、更简便的操控方式去获得更丰富、更多态、更实时的数据资源。
简而言之,虚拟现实提供了一个具有沉浸性(Immersion)、交互性(Interaction)和想象性(Imagination)的虚拟数字富媒体环境;用户不仅可以如同设身处地一般沉浸在它所提供的丰富多彩的虚拟环境中,更可以通过各种创新的途径来与环境中的元素进行互动。沉浸性、交互性和想象性,正是虚拟现实的三个基本特征[4]:一是沉浸性,通过各种技术手段让用户产生“身临其境”的感觉,包括视觉(利用人的立体视觉原理产生虚拟的三维纵深感)、听觉(利用立体声产生虚拟物体的方位感)、触觉(通过力觉设备使用户以为在与真实的物理实体打交道)等等;二是交互性,用户可以实时地与虚拟现实系统中的各种物体进行互动操作,用户的操作不再局限于传统的键盘、鼠标或游戏杆,还包括先进的数据手套、穿着式回馈服等等;三是想象性,给用户呈现的虚拟现实场景具有超越现实场景的特殊魅力,真正做到某种意义上的“心想事成”。
从虚拟现实的上述特征可以看出,它的基本出发点就是要超越传统人机交互界面的非人性化的一面,不仅要让用户尽量溶入整个交互场景中(沉浸性),而且要让用户以更直觉的方式去操作计算机(交互性):首先,虚拟现实技术能够有效地将计算机交互界面直觉化,提供与日常场景尽量类似的界面,完全基于人类日常的视觉直觉。其次,虚拟现实技术能够有效地消除人机交互之间的阻隔,让用户能够通过日常的动作和行为与计算机交互。
从上文的概念分析可知,判定直觉程度要看与使用者本身的已知经验,而且使用情境和审美等其他因素也要考虑在内。虚拟现实技术本身提供了多种多样的方法,但具体的构建和应用也要遵循这样的准则。下一节将提供几个应用案例来说明这些,并综合讨论如何真正地利用虚拟现实技术去设计直觉交互界面。
三、应用案例及讨论
以虚拟现实技术为基础的直觉交互界面被广泛应用于各种层次、各种领域的实践应用之中,其目标用户群体不仅包括非专业人士(普通民众),也包括熟悉计算机但希望寻求更直观的交互操作方式的专业人士。对于前者,他们需要能够尽量降低学习和记忆成本、兼或附带娱乐趣味性的人机界面。而对于后者,操控感良好的直觉界面可以大大提升生产率和成品率,并推动整个生产流程的优化。
日本大阪大学人机工程实验室的伊藤雄一等人研发了ActiveCube(动态积木)[5],这个作品将直觉界面引入儿童和青少年认知学习及娱乐之中,并辅以虚拟现实或增强现实设备以提升其应用价值。每个积木都是一个边长五厘米的塑料立方体;积木里面有一块可编程集成电路,控制着一系列可选的感应器或小型设备,包括超声感应器(感知外界物体的接近)、坐标感应器(三维坐标的相对角度)、触觉感应器(最多可装两个,每个可以感应八个方向的触觉)、红外感应器、灯和电动机等。因此,每个积木实际上已经是一个独立的玩具,可以感知环境并产生相应的动态行为。更绝妙的是,这些积木还能彼此连接,连接起来的各个部分之间也可以互相通信,构成整体行为。儿童使用者不需要额外教学就可以通过直觉使用它们。这样的直觉操作界面,很好地避免了其内部的复杂结构对使用者的影响,小学低年级学生就可以独立操作。
ActiveCube的一大特色在于可以在虚拟现实场景里使用。在这种情形中,红外感应器捕捉搭建好的积木形态,并将符合此形态的虚拟物品显示出来。应用了虚拟现实技术之后,规整的积木可以任意变换成为植物、动物、日常器具等,不仅视觉效果有可观的提升,还借此允许用户进行进一步的玩耍和操控。
ActiveCube还可以在虚拟现实场景里使用。在这种情形中,红外感应器捕捉搭建好的积木形态,并将符合此形态的虚拟物品显示出来。由于ActiveCube本身只是一个简单的立方体,其六面自由连接功能限制了表面的装饰性,最后的拼装效果不一定能吸引儿童用户的兴趣。而应用了虚拟现实技术之后,古板规整的积木可以任意变换成为植物、动物、日常器具等,不仅视觉效果有可观的提升,还借此允许用户进行进一步的玩耍和操控。在上面的例子中,外表相对简陋的十字架形积木摇身一变,可成为精美的飞机,并随着积木在实际环境中的位移而在现实设备上呈现相应的飞行轨迹。
另一个实例来自于工业设计领域。当下的设计师一般都有较高的学历和较专业的计算机技能,但进行三维产品建模的时候,复杂的软件界面依然是最重要的阻碍因素,更遑论键盘加鼠标的操控方式根本就与人手的自然行为大相径庭,严重干扰了设计师的思维和创作习惯。荷兰Delft大学工业设计工程团队在这方面进行了大量研究,提出了新的解决方案,其关键就在于引入直观的手势来与计算机交互,于虚拟现实环境中完成建模工作[6-7]。
一般而言,手势比面部表情和眼动更易于捕捉和识别,又比全身姿势更易于实施(特别是在狭小空间中),因此比较受直觉界面研究者的青睐[8]409-420。但手势也分为几个细类,不一定都适合用于人机交互。Hummels指出了三类手势,第一类是从计算机角度去定义的手势,因而非常便于计算机识别,但需要使用者去刻意学习和掌握,称不上直觉。第二类与之相反,指的是人类日常生活中的手势,优点是非常直观,但计算机程序需要特别的设计才能对其进行识别。综合了以上两种类别之优点而又尽量规避其不足的第三类手势称为描述性手势,原本自身也有着应用范围过窄的缺憾,但辅以虚拟现实技术,便可以成为有效的途径以联通设计师和计算机。 为了提高描述性手势的效果,研究人员特地设计了一个虚拟现实实验环境,见图3。在此环境中,普通设计师作为被试,不受拘束地使用他们惯常的手势进行设计创作,而这些以直觉为基础挥舞出来的手势被动作感应器记录下来,最后进行统计分析。通过这样的过程,研究人员能够采集到和分析出最适合虚拟现实环境的直觉手势。最后,对设计师而言非常直觉、对计算机而言又是相当便于识别的手势方案即可得到确定。设计师在此系统中,可以像往常操作日常物体(胶泥或板材等)一样与计算机辅助设计软件进行人机对话,不仅直觉高效,而且得益于虚拟现实环境,整个设计流程形同真实体验,大大提高了设计效率。
四、结论与展望
一直以来,“以人为本”都是人机交互设计领域的核心口号之一。但本文的分析指出,这绝不能是一句抽象的口号,而必须落实到具体的应用情境之中。另一方面,近年来关于“用户体验”的声音不绝于耳[9],它本质上也是“以人为本”的精神的一种体现,但这个提法也存在着过于含糊的缺点,导致了许多不同的理论都以它为逻辑基础。实际上,只要明确了“人”(也即“用户”)的特定性,问题也就解决了。既然不同的人和不同的用户其自身情况多有差异,同样着眼于“以人为本”或“增进用户体验”的产品,也就必须随着人/用户的不同而给出不同的解决方案,提供不同的交互界面,才能在交互过程中让使用者满意。
直觉概念得到了厘清,但这显然并不意味着直觉交互设计的种种问题也就有了答案。如何让某种交互界面更少地占用使用者的逻辑意识(也即做到“无意识地或下意识地被使用”),以及如何明确地定性定量分析特定用户的已往经验,并以之支持交互界面的设计,这依然是非常复杂的问题。幸而在各领域学者的努力下,此领域已有许多成功的理论或实践得以依循。在这方面最重要的一项就是关于直觉交互中的手势问题,它旨在解决人机交互场景中用什么有效的手势去操作计算机。由于手势不受传统输入设备的限制,它天然地与虚拟现实技术结合在一起[8]409-420。此外,针对现在方兴未艾的商业以及家用娱乐虚拟现实应用,直觉交互界面也是其中的研发热点。限于研究的深度及文章篇幅,本文遗憾地未能在这些方面展开论述,希望能在后继研究中逐步展开。
最后要强调的是,随着普适计算(ubiquitous computing)这个概念在强大的计算机硬件的支持下渐渐变为现实,设计和实现各种直觉交互界面已成为人机交互的核心任务。普适计算要求计算机设备可以感知周围环境的变化并执行相应的任务,在这一过程中如果交互界面做不到直觉易用,那么其计算机人性化的核心价值也就无从体现了。由此,直觉交互界面的理论与实践必将日益凸显其无比的重要性和关键性。
[参考文献]
[1] Blackler A,Popovic V,Mahar users' intuitive interaction with complex artefacts[J].Applied Ergonomics,2010,41(1):72-92.
[2] 波普尔.猜想与反驳:科学知识的增长[M].傅季重,纪树立,周昌忠,等,译.杭州:中国美术学院出版社,2003.
[3] Naumann A,Hurtienne J,Israel J H,et use of user interfaces: defining a vague concept[M]∥HARRIS Psychology and Cognitive :Springer-Verlag,2007:128-136.
[4] Alonso M A G,Gutierrez M A,Vexo F,et Into Virtual Reality[M].New York: Springer-Verlag New York Inc,2008.
[5] Watanabe R,Itoh Y,Kawai M,et of ActiveCube as an intuitive 3D computer interface[M]∥Butz A,Olivier Graphics. Berlin: Springer,2004:43-53.
[6] Hummels C,Overbeeke C J. Kinaesthesia in synaesthesia:the expressive power of gestures in design[C]∥Design and semantics of form and :Eindhoven University of Technology,2006:34-41.
[7] Hummels C,Smets G,Overbeeke Intuitive T-wo-handed Gestural Interface for Computer Supported Product Design: International Gesture Workshop[C].Bielefeld:Springer Verlag,1998.
[8] Nielsen M,Strring M,Moeslund T B,et procedure for developing intuitive and ergonomic gesture interfaces for HCI[M]∥Gamurri A,Volpe Communication in Human-Computer :Springer,2004:409-420.
[9] Garrett J elements of user experience[M].Berkeley,CA:New Riders,2002.
点击下页还有更多>>>关于虚拟现实的科技论文2500字
网上搜搜国外有一些demo程序,方便你入门。图像边缘提取 常用的边缘检测算子有梯度算子、Roberts算子、Sobel算子、Prewitt算子、Canny算子 不过单用 效果不好 。不知道你是什么语言的车牌识别,建议用梯度算子。江苏视图科技专业图像识别,图片识别率高达98%以上。
基于matlab的图像识别研究的专业论文
如果是单纯的车牌识别算法的话 建议matlab中文论坛有3份1、贵州版本2、广西版本3、老衲版本 (已经发了,其他的你去论坛下载吧
随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!
图像识别技术研究综述
摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。
关键词:图像处理;图像识别;成像
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02
图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。
1 图像处理技术
图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。
1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。
2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。
3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。
4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。
5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。
2 图像识别技术
图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:
指纹识别
指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。
人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。
文字识别
文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。
3 结束语
人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。
参考文献:
[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.
[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.
[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.
[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.
[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.
[6] Sanderson C,Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.
点击下页还有更多>>>图像识别技术论文
人脸识别技术流程
人脸识别的技术原理主要包括三大步骤:首先是建立人脸图像数据库,其次是通过各种方式来获得当前要进行识别的目标人脸图像,最后是将目标人脸图像与数据库中既有的人脸图像进行比对和筛选,其技术流程如下:
应用场景广泛,安防和考勤门禁占比较高
目前,人脸识别在考勤/门禁领域的应用最为成熟,约占行业市场的40%左右;安防作为人脸识别最早应用的领域之一,其市场份额占比在30%左右;金融作为人脸识别未来重要的应用领域之一,其市场规模在逐步扩大,目前约占行业的20%。
三维人脸识别技术是发展主流
从人脸识别技术发展过程来看,未来三维人脸识别是人脸识别主要技术手段,二维人脸识别只是人脸识别发展的过渡阶段。实验结果显示,二维人脸识别系统在人脸左右偏转达到40度识别率迅速下降到50%以下;而采用三维人脸识别后,识别率可以提高至少10-20个百分点。
——以上数据来源于前瞻产业研究院《中国人脸识别行业市场前瞻与投资战略规划分析报告》。
身边的图像识别、人脸识别、文字识别应用案例,还有网络延迟方面的改进或创新之处。
1、金融领域。人脸识别当前在金融领域的应用最为广泛,当前国内金融领域监管要求严格,金融相关产品都需要实名认证,并且具有较高的安全性要求,活体识别,银行卡ocr识别,身份证ocr识别,人证对比等在各大手机银行,金融app,保险app等都已经成为不可或缺的一个环节。
2、安保领域。目前大量的企业,住宅,社区,学校等安全管理越来越普及,人脸门禁系统已经成为非常普及的一种安保方式。
3、通行领域。很多城市的火车站已经安装了人脸识别通行设备,进行人证对比过检,有些城市的地铁站也可以通过人脸识别的方式进行地铁进出站通行。
人脸识别技术在中国的发展起步于上世纪九十年代末,经历了技术引进-专业市场导入-技术完善-技术应用-各行业领域使用等五个阶段。目前,国内的人脸识别技术已经相对发展成熟,该技术越来越多的被推广到安防领域,延伸出考勤机、门禁机等多种产品,可以全面覆盖煤矿、楼宇、银行、军队、社会福利保障、电子商务及安全防务等领域,人脸识别的全面应用时代已经到来。
人脸识别技术介绍
(1)人脸识别技术流程
人脸识别的技术原理主要包括三大步骤:首先是建立人脸图像数据库,其次是通过各种方式来获得当前要进行识别的目标人脸图像,最后是将目标人脸图像与数据库中既有的人脸图像进行比对和筛选,其技术流程如下:
(2)人脸识别的主要方法
人脸识别技术是一个跨越多个学科领域知识的高端技术研究工作,涉及图像处理、生理学、心理学、模式识别等知识,目前比较常见的人脸识别方法包括基于特征脸的方法、基于几何特征的方法、基于深度学习的方法、基于支持向量机的方法以及其他综合方法。
(3)常用人脸数据库介绍
目前世界较为常用的人脸数据库包括:ERET人脸数据库、CMU Multi-PIE人脸数据库、YALE人脸数据库、YALE人脸数据库B、MIT人脸数据库、ORL人脸数据库、BioID人脸数据库、年龄识别数据集IMDB-WIKI等。
人脸识别技术具有非侵犯性
人脸识别是生物特征识别技术的一个重要方向,不同的生物识别技术在细分技术上各具优势,人脸识别技术是非接触和不需要主动接受的,具有非侵犯性。此外,人们对这种技术的排斥心理最小,因此人脸识别技术是一种最友好的生物特征识别技术,并且图像采集可以由安防中的摄像头完成,不需要重新再布置新的采集设备。
行业技术环境十分活跃
截至2019年底,在soopat专利搜索引擎上以“人脸识别”为关键词检索得到20208项专利申请记录,行业技术环境十分活跃。
从申请年来看,2010-2018年,我国专利申请数逐年增长,2018年增加至5618项,为近年来最高,2019年我国人脸识别相关专利申请数达3024项。
从公开年来看,我国最早于2002年有人脸识别相关专利公开,当年公开数量为1项,随后专利公开量保持快速增长态势,2019年我国人脸识别相关专利公开数量为6700项。
中国人脸识别技术发明专利申请量超六成
在超2万项的人脸识别技术专利中,发明专利的申请量最多,达12407项,占比为;其次为实用新型专利,占比为。
G06K专利申请量过万
从我国人脸识别相关热门专利技术申请分布领域来看,G06K(数据识别、数据表示、记录载体、记录载体的处理)申请量最多,达10134项;其次为G07C(时间登记器或出勤登记器、登记或指示机器的运行、产生随机数、投票或彩票设备、未列入其他类目的核算装置),申请数量为1302项。
人脸识别错误率逐年降低
经过了40多年的发展,人脸识别技术取得了长足进步,根据LFW测试成绩显示,目前最优的系统在千万分之一的误报下达到识别准确率准确率已经超过,甚至超过了人类的识别程度,错误验证率也控制在以下。
即使是采用评测标准最严格的FRVT测试,根据2019年7月3日NIST公布的FRVT最新报告显示了全球人脸识别算法的最高水平可以做到在千万分之一误报率下,漏报率降低于,这意味着千万分位误报下的识别准确率已经超过99%,人脸识别技术的不断进步无疑会促进其在更广泛范围内的应用。
应用场景广泛,安防和考勤门禁占比较高
目前,人脸识别在考勤/门禁领域的应用最为成熟,约占行业市场的40%左右;安防作为人脸识别最早应用的领域之一,其市场份额占比在30%左右;金融作为人脸识别未来重要的应用领域之一,其市场规模在逐步扩大,目前约占行业的20%。
三维人脸识别技术是发展主流
从人脸识别技术发展过程来看,未来三维人脸识别是人脸识别主要技术手段,二维人脸识别只是人脸识别发展的过度阶段。实验结果显示,二维人脸识别系统在人脸左右偏转达到40度识别率迅速下降到50%以下;而采用三维人脸识别后,识别率可以提高至少10-20个百分点。
以上数据来源于前瞻产业研究院《中国人脸识别行业市场前瞻与投资战略规划分析报告》。