首页 > 论文发表知识库 > 计算机毕业论文自然语言处理

计算机毕业论文自然语言处理

发布时间:

计算机毕业论文自然语言处理

很抱歉,我是小学毕业的老糟头子。视频、图像处理,涉及领域非常广阔,任何一个应用,都可以写出无数篇有价值的论文。比如CT图像的电脑判读,比如润滑油的色度检测,比如违章人脸识别,比如人脸图像的历史年轮,视频特效,图像特效等等。至于自然语言,不知道你想说啥。计算机领域没有自然语言,只有程序语言。程序语言不外乎是C、Delphi,外加VB。如果你更专,那就必须会汇编语言。不管什么语言,必须能控制硬件、数据库、媒体文件、HTML5等等。但无论如何不要碰python,那是庞氏。搞程序,随便完成一个课题,都可以用代码来实现课题中的程序控制部分,写论文也很容易。其实不管选图像、视频处理,还是程序语言,关键是你得选择一个适合自己的课题,用你的计算机技术来完成这个课题,那就是论文了。

数据科学专业的表示NLP需要的训练集太大了,也不好找。只能拿预训练模型针对特殊应用做二次开发,而且对硬件要求很高。图像/视频较NLP来说开放的训练集也好找,而且主题也很多,而且你自己编一个好实现又很实际的商用需求就比较好结题。

自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。

它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。

自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分  。

自然语言处理研究论文

自然语言处理(概念)简介自然语言(略缩为NL)指的是任何自然而然为人类所使用的语言,而非任何人造的或合成的语言,例如程序设计语言。自然语言处理(略缩为NLP),是所有试图用电脑处理自然语言的适合描述。[1]自然语言处理包括:语音合成:虽然这乍看起来不是很高端(的科技),但其实合成听起来自然的语音需要很复杂的技术并在一定程度上‘理解’在说的话,这样才能确保比如说,正确的语调。语音识别:基本上就是将持续不断的声波转换成独立的词语。自然语言理解:在这里将独立的词语(书面文件或者从语音识别得来的资料)进行处理并赋予意思。这可能会涉及完全模型系统或者‘前端’,以自然语言命令带动其他程序。自然语言生成:针对不可预测的输入问题生成恰当的的自然语言回答。补充:在自然语言处理中使用数字计算机的想法已经算旧(概念)了,这可能是因为二战时期军用解码就是计算机的应用之一。有些计算机专家甚至曾认为(其他语言)例如俄文,不过是换了一组代码的英文而已。这样想的话,因为代码可以被解开,那么俄文也可以(被翻译)。这个想法假设不论这些自然语言表面如何变化,他们都有一个共同的‘语义基’。(对此)语言学家有压倒性的共识,那就是这根本是不正确的。在程序编制器和编程语言通译器的形式下,由早期开始,‘人工语言处理’是就数字计算机的成功中不可或缺的重要部分。此成就无疑鼓励了人们进入自然语言处理的研究(领域),并同时提倡积极乐观的研究态度。

自然语言处理领域的相关内容,我明白的

title: 自然语言处理综述 date: 2021-11-18 11:03:11 自然语言是指人类日常使用的语言,比如:中文、英语、日语等。自然语言灵活多变,是人类社会的重要组成部分,但它却不能被计算机很好地理解。为了实现用自然语言在人与计算机之间进行沟通,自然语言处理诞生了。自然语言处理(Natural Language Processing, NLP)是一个融合了语言学、计算机科学、数学等学科的领域,它不仅研究语言学,更研究如何让计算机处理这些语言。它主要分为两大方向:自然语言理解(Natural language Understanding, NLU)和自然语言生成(Natural language Generation, NLG),前者是听读,后者是说写。 本文将从自然语言处理的历史与发展讲起,进而分析目前深度学习在自然语言处理领域的研究进展,最后讨论自然语言处理的未来发展方向。 1950年,计算机科学之父图灵提出了“图灵测试”,标志着人工智能领域的开端。而此时,正值苏美冷战,美国政府为了更方便地破译苏联相关文件,大力投入机器翻译的研究,自然语言处理从此兴起。从这之后的一段时期内,自然语言处理主要采用基于规则的方法,这种方法依赖于语言学,它通过分析词法、语法等信息,总结这些信息之间的规则,从而达到翻译的效果。这种类似于专家系统的方法,泛化性差、不便于优化,最终进展缓慢,未能达到预期效果。 到了20世纪80、90年代,互联网飞速发展,计算机硬件也有了显著提升。同时,自然语言处理引入了统计机器学习算法,基于规则的方法逐渐被基于统计的方法所取代。在这一阶段,自然语言处理取得了实质性突破,并走向了实际应用。 而从2008年左右开始,随着深度学习神经网络在图像处理、语音识别等领域取得了显著的成果,它也开始被应用到自然语言处理领域。从最开始的词嵌入、word2vec,到RNN、GRU、LSTM等神经网络模型,再到最近的注意力机制、预训练语言模型等等。伴随着深度学习的加持,自然语言处理也迎来了突飞猛进。 接下来,我将介绍自然语言处理与深度学习结合后的相关进展。 在自然语言中,词是最基本的单元。为了让计算机理解并处理自然语言,我们首先就要对词进行编码。由于自然语言中词的数量是有限的,那就可以对每个词指定一个唯一序号,比如:英文单词word的序号可以是1156。而为了方便计算,通常会将序号转换成统一的向量。简单做法是对单词序号进行one-hot编码,每个单词都对应一个长度为N(单词总数)的向量(一维数组),向量中只有该单词序号对应位置的元素值为1,其它都为0。 虽然使用one-hot编码构造词向量十分容易,但并不是一个较好的方法。主要原因是无法很好地表示词的语义,比如苹果和橘子是相似单词(都是水果),但one-hot向量就无法体现这种相似关系。 为了解决上述问题,Google的Mikolov等人于2013年发表了两篇与word2vec相关的原始论文[1][2]。word2vec将词表示成一个定长的向量,并通过上下文学习词的语义信息,使得这些向量能表达词特征、词之间关系等语义信息。word2vec包含两个模型:跳字模型(Skip-gram)[1] 和连续词袋模型(continuous bag of words,CBOW)[2],它们的作用分别是:通过某个中心词预测上下文、通过上下文预测某个中心词。比如,有一句话"I drink apple juice",Skip-gram模型是用apple预测其它词,CBOW模型则是用其它词预测出apple。 首先介绍CBOW模型,它是一个三层神经网络,通过上下文预测中心词。以某个训练数据"I drink apple juice"为例,可以把apple作为标签值先剔除,将"I drink juice"作为输入,apple作为待预测的中心词。 Skip-gram模型与CBOW类似,也是一个三层神经网络模型。不同在于,它是通过中心词预测上下文,即通过"apple"预测出"I drink juice"。接下来简单介绍Skip-gram模型中各层: 两种模型训练结束后,会取 作为词向量矩阵,第i行就代表词库中第i个词的词向量。词向量可用来计算词之间的相似度(词向量点乘)。比如,输入 I drink _ juice 上下文,预测出中心词为apple、orange的概率可能都很高,原因就是在 中apple和orange对应的词向量十分相似,即相似度高。词向量还可以用于机器翻译、命名实体识别、关系抽取等等。 其实这两种模型的原型在2003年就已出现[3],而Mikolov在13年的论文中主要是简化了模型,且提出了负采样与层序softmax方法,使得训练更加高效。 词向量提出的同时,深度学习RNN框架也被应用到NLP中,并结合词向量取得了巨大成效。但是,RNN网络也存在一些问题,比如:难以并行化、难以建立长距离和层级化的依赖关系。而这些问题都在2017年发表的论文《Attention Is All You Need》[4]中得到有效解决。正是在这篇论文中,提出了Transformer模型。Transformer中抛弃了传统的复杂的CNN和RNN,整个网络结构完全由注意力机制组成。 Transformer最核心的内容是自注意力机制(Self-Attention),它是注意力机制(Attention)的变体。注意力的作用是从大量信息中筛选出少量重要信息,并聚焦在这些信息上,比如:人在看一幅图像时,会重点关注较为吸引的部分,而忽略其它信息,这就是注意力的体现。但注意力机制会关注全局信息,即关注输入数据与输出数据以及中间产物的相关性。而自注意力机制则减少了对外部其它数据的关注,只关注输入数据本身,更擅长捕捉数据内部的相关性。 自注意力机制的算法过程如下: 自注意力机制不仅建立了输入数据中词与词之间的关系,还能并行地高效地计算出每个词的输出。 Transformer的总体架构如下: 它分为两部分:编码器(Encoder)和解码器(Decoder)。 编码器的输入是词向量加上位置编码(表明这个词是在哪个位置),再通过多头自注意力操作(Multi-Head Attention)、全连接网络(Feed Forward)两部分得到输出。其中,多头自注意力就是输入的每个词对应多组q、k、v,每组之间互不影响,最终每个词产生多个输出b值,组成一个向量。编码器是transformer的核心,它通常会有多层,前一层的输出会作为下一层的输入,最后一层的输出会作为解码器的一部分输入。 解码器包含两个不同的多头自注意力操作(Masked Multi-Head Attention和Multi-Head Attention)、全连接网络(Feed Forward)三部分。解码器会运行多次,每次只输出一个单词,直到输出完整的目标文本。已输出的部分会组合起来,作为下一次解码器的输入。其中,Masked Multi-Head Attention是将输入中未得到的部分遮掩起来,再进行多头自注意力操作。比如原有5个输入,但某次只有2个输入,那么q1和q2只会与k1、k2相乘,。 如果深度学习的应用,让NLP有了第一次飞跃。那预训练模型的出现,让NLP有了第二次的飞跃。预训练通过自监督学习(不需要标注)从大规模语料数据中学习出一个强大的语言模型,再通过微调迁移到具体任务,最终达成显著效果。 预训练模型的优势如下: 预训练模型的关键技术有三个: 关于预训练模型的架构,以Bert为例:输入是词的one-hot编码向量,乘上词向量矩阵后,再经过多层transformer中的Encoder模块,最终得到输出。 本文介绍了NLP领域的流行研究进展,其中transformer和预训练模型的出现,具有划时代的意义。但随着预训练模型越来越庞大,也将触及硬件瓶颈。另外,NLP在一些阅读理解、文本推理等任务上的表示,也差强人意。总而言之,NLP领域依旧存在着巨大的前景与挑战,仍然需要大家的长期努力。 [1]Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems (pp. 3111-3119). [2]Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:. [3]Yoshua Bengio, R´ejean Ducharme, Pascal Vincent, and Christian Janvin. A neural probabilistic language model. The Journal of Machine Learning Research, 3:1137–1155, 2003. [4]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008. [5]Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[J]. arXiv preprint arXiv:, 2018. [6]Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018. [7]Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:, 2018. [8]Houlsby N, Giurgiu A, Jastrzebski S, et al. Parameter-efficient transfer learning for NLP[C]//International Conference on Machine Learning. PMLR, 2019: 2790-2799.

在自然语言处理的领域内有乐观与悲观的周期性存在(我们现在大概是出于乐观期);虽然(技术上)真的有一些进步,但是达到一个全面自然语言处理系统的目标仍然遥不可及。(这里我没有用elusive的直译,难以捉摸,因为放进中文里会很怪,没有人说目标难以捉摸。)历史上,计算机专家有时对于自然语言处理(的挑战性)过于乐观,其原因很可能就是以上提到的(周期性)。因此从一开始就清楚这个(自然语言处理)的难度的原因是很重要的。同时,了解自然语言之间的不同也是很重要的一点。相对于其他自然语言来说,更多的研究重点放在了英文上,主要是因为美国研究者(在这个领域里)的重要性,尽管日本和欧洲也有很积极的研究学者。可是,在某一方面来讲,英文不是一个具有代表性的语言:它没有音调变化,并且严重依赖单词顺序。教课书和其他英文版的(自然语言处理)启蒙书籍几乎没有包括任何有关(与英语有)不同语法结构的语言的自然语言处理的合适论述。我们可以区别起码三个完全不同的自然语言处理级别:声音语法语义每一个都可以被再分为两到三个亚级别,但这不是本文的重点。在这个简介里我想要做的是阐明在处理每个级别中会遇到的一些问题。这里有以英文为母语的南英格兰人说的三个词:输入,纳入,收入(input, intake, income);(请大家)思考这三个词。很显然的,三个词都有相同语义的元素。输入,指的是把什么东西放进去;抽水机的纳入指的是水被抽进去的地方,你的收入指的是你赚的钱(就是进你口袋的钱)。三个词中的in元素(在指定说话人的情况下)都发一样的音吗?如果注意听的话就会发现并不是这样。Input 这个词在发音的时候听起来像是拼法是imput的词,而intake听起来就和它的拼法一样。 如果我们用N代表English 里边ng的发音,那么Income就有点iNcome的感觉。我特地点出了说话者是从南英格兰来的本土人,因为很多苏格兰人说英文的时候都没有这种习惯,就像所有其他英文母语者在慢慢地富有感情的说这三个词的时候一样,他们都会将in的发音发成和它拼法一样。有趣的是,不论在他们自己或是其他人的言语中,以英文为母语者通常都不会注意到这些差别。这不是因为他们没办法分辨m ,n ,N 这三种发音。Rum, Run, Rung这三个词就只有m, n, N这三个发音处不同而已,所有英文母语者都可以很好的区别它们。

自然语言处理论文6000字

有乐观和悲观的周期在领域的NLP (我们当前可能到在一个更加乐观的阶段之内); 虽然一些非常真正的前进被做了,一个一般NLP系统的目标依然是逃避。 历史上,计算机学家经常是远太过于乐观关于NLP,大概着名的某些的原因以上。 是确切正确地从外边因而是重要的任务为什么是困难的。 It也是重要注意到,有自然语言之间的区别。 由于美国研究员的重要性更多工作在英语大概被完成了比在其他语言,主要,虽然有非常活跃工作者在欧洲和日本。 然而,因为它使用少量变化并且沉重依靠词序,英语在一些方面是一种非典型语言。 用英语和其他介绍来源写的课本很少包含关于语言的NLP的充分讨论与明显不同的语法结构。 We可能区别至少三个分明‘水平’在处理NL : Sounds Grammar Meaning Each可以被划分成两个或多个分段,不需要有关我们这里。 什么我在这简要的介绍想要做是说明某些在处理每个水平的问题。 Consider这三个词,讲话由从英国的南部的一个当地讲英语者: 输入,入口,收入。 是确切全部三个词包含元素与同一个意思。 要输入是投入某事; 水泵的入口是水被采取的地方; 您的收入是您赢得,即进来的金钱。 Is元素在发音了同样在所有三个词(由指定的报告人) ? 仔细听表示,它不是。 词输入是显著的,好象被拼写的imput,而入口发音如被拼写。 如果我们让声音通常被拼写的ng的N立场用英语(即在词象唱歌或歌手),则收入是 因为苏格兰语英语许多报告人这样,不表现I指定了从英国的南部的当地讲英语者; 反而他们一贯地发音所有三个词的第一个元素,当它被拼写,即作为(象可以所有讲英语者,当慢慢地和强调地讲话)时。 Interestingly,讲英语者对这些区别通常是相当未察觉的,在他们自己的讲话和其他的讲话上。 这不是,因为他们不可能区别在三声音m、n和N.之间。 三个词兰姆酒、奔跑和阶在这三声音仅不同并且是相当分明的对所有当地讲英语者。

介绍自然语言处理 一个自然语言' (荷兰)是任何自然语言使用的人,即不是一种人为的或人为的语言,如一种编程语言。 '自然语言处理' (自由党)是一个方便的描述,所有企图利用计算机来处理自然语言。 [ 1 ]的NLP包括: 语音合成:虽然这可能不是乍一看似乎很'聪明' ,合成的自然冠冕堂皇的讲话,是在技术上复杂,几乎肯定需要一些理解,什么是口语,以确保举例来说,正确的语调。 语音识别:基本上是连续减少声波分立的话。 自然语言理解:这里当作从孤立的话(无论是书面或决心通过语音识别)的'意义' 。这可能涉及完整的模型系统或'前端' ,带动其它项目由荷兰命令。 自然语言生成:荷兰创造适当的反应不可预测的投入。 问题补充:这个想法的使用数字电脑的NLP是'旧' ,这可能是因为第一个利用计算机,打破军事守则在第二次世界大战中。一些计算机科学家似乎都认为,俄罗斯(例如)是英语在不同的代码。在这种情况下,因为代码可以被打破,因此可以俄文。这种想法假设有一个共同'的含义基地'的所有自然语言,无论其表面的分歧。压倒一切的共识,语言学家是,这是不正确的。 人工语言处理'的形式,编译器和口译编程语言,是一个关键组成部分,成功的数字化电脑从最早的天。这一成功无疑鼓舞研究的NLP (还鼓励和乐观的态度) 。

在自然语言处理的领域内有乐观与悲观的周期性存在(我们现在大概是出于乐观期);虽然(技术上)真的有一些进步,但是达到一个全面自然语言处理系统的目标仍然遥不可及。(这里我没有用elusive的直译,难以捉摸,因为放进中文里会很怪,没有人说目标难以捉摸。)历史上,计算机专家有时对于自然语言处理(的挑战性)过于乐观,其原因很可能就是以上提到的(周期性)。因此从一开始就清楚这个(自然语言处理)的难度的原因是很重要的。同时,了解自然语言之间的不同也是很重要的一点。相对于其他自然语言来说,更多的研究重点放在了英文上,主要是因为美国研究者(在这个领域里)的重要性,尽管日本和欧洲也有很积极的研究学者。可是,在某一方面来讲,英文不是一个具有代表性的语言:它没有音调变化,并且严重依赖单词顺序。教课书和其他英文版的(自然语言处理)启蒙书籍几乎没有包括任何有关(与英语有)不同语法结构的语言的自然语言处理的合适论述。我们可以区别起码三个完全不同的自然语言处理级别:声音语法语义每一个都可以被再分为两到三个亚级别,但这不是本文的重点。在这个简介里我想要做的是阐明在处理每个级别中会遇到的一些问题。这里有以英文为母语的南英格兰人说的三个词:输入,纳入,收入(input, intake, income);(请大家)思考这三个词。很显然的,三个词都有相同语义的元素。输入,指的是把什么东西放进去;抽水机的纳入指的是水被抽进去的地方,你的收入指的是你赚的钱(就是进你口袋的钱)。三个词中的in元素(在指定说话人的情况下)都发一样的音吗?如果注意听的话就会发现并不是这样。Input 这个词在发音的时候听起来像是拼法是imput的词,而intake听起来就和它的拼法一样。 如果我们用N代表English 里边ng的发音,那么Income就有点iNcome的感觉。我特地点出了说话者是从南英格兰来的本土人,因为很多苏格兰人说英文的时候都没有这种习惯,就像所有其他英文母语者在慢慢地富有感情的说这三个词的时候一样,他们都会将in的发音发成和它拼法一样。有趣的是,不论在他们自己或是其他人的言语中,以英文为母语者通常都不会注意到这些差别。这不是因为他们没办法分辨m ,n ,N 这三种发音。Rum, Run, Rung这三个词就只有m, n, N这三个发音处不同而已,所有英文母语者都可以很好的区别它们。

最近出于兴趣和需要,重新回顾中文分词技术,期间有些心得,以及一些关于自然语言处理的浅薄之见,这里简单分享一下。 首先, 中文分词_百度百科 里面简单介绍了其中主要的分词算法以及相应的优缺点,包括字符匹配法、统计法以及理解法,其中字符匹配法和统计法比较流行且可以取到相对不错的效果,而理解法则相对比较复杂高级,但是我认为这才是真正解决中文分词任务的根本算法。 如今用于中文分词的算法和模型虽算不上比比皆是,但也算是唾手可得,开源的如jieba、ltp、Hanlp等等,提供中文分词服务的如腾讯云、百度大脑、讯飞AI平台等,以及其他如Jiagu等。 其实这些平台算法的差距并不算太大,分词准确率基本上都是在80%以上,然而在98%以下(这里胡诌个数),在一些不太严格的应用场景下基本已经够用了,只要挑一个在自己的业务场景下表现最好的即可。 在我看来,对于中文分词这项任务而言,最关键最核心的其实并不是算法模型,这些都不是所谓的瓶颈,最重要的其实是高质量、大规模的词典。对于字符匹配法而言,词典是基础,没有词典自然连分都分不出来;对于统计学习法而言,其效果一方面取决于算法和模型的选择,一方面取决于其训练数据的数量与质量,需要堆人力物力,比如找专门的标注公司标注数据等。但是就算是人标的数据,也难免有所错误遗漏,所以在有错误的训练数据下,模型也不可能学的太好,同时训练数据再大,也难以覆盖全部语料,总会出现OOV,总有些句子会训练不到,此时还强求模型可以做到“举一反三”有些不切实际。 词条中还提到了关于中文分词的技术难点:歧义识别与新词识别,关于歧义识别,上面并没有提具体的解决思路,对于新词识别而言,这又是自然语言处理领域很基础并且很重要的点,可以参见一下我之前的文章: 《NLP基础任务之新词发现探索之路》 | lightsmile's Blog ,也有另一个思路,比如说爬取网上一些网站的相关条目,比如百度百科等。 简单看了一下 jieba 、 ansj_seg 、 Jiagu 的分词词典,发现其中jieba的词典质量最差,其中不少词性都是错误的,Jiagu的词典还算不错,就是一些新词不全,ansi_seg的没有细看。 尽管这些工具在一些评测数据的结果可以达到90以上的成绩,但是在我看来,还是不够的,我觉得中文分词这个基础而又艰巨的任务还是要到99%以上才可以,否则分词都分不对,那些在分词基础之上的任务更是不行,毕竟词是基本的语义单元。 然而在现在深度学习盛行的潮流下,许多任务如文本分类、命名实体识别等并不一定需要依赖于分词,直接基于字符(char)的Embedding也可以取得不错的效果,并且也可以规避OOV(out of vocabulary words,未登录词)的问题。 但是深度学习,尤其是监督学习的很关键之处是得有大规模的高质量训练数据,不然巧妇难为无米之炊,再好的模型也难以从垃圾中学到有用的知识。 话说回来,虽然自然语言处理是计算机科学与其他领域的交叉学科,深度学习、机器学习算是人工智能的一部分,然而许多时候往往十分依赖人工,而所谓的智能其实也不智能。 无论是计算机视觉领域里的图像分类还是自然语言处理领域的文本分类,其任务都是学习一个从输入 映射到输出或者说标签 的函数 ,具体来说就是将 表征为多维向量 ,将 表征为多维向量 ,然后让 进入一个模型进行一系列的运算后得到一个 ,通过不断地比较 和 的值并调整模型的参数使模型的运算结果 更为准确即更加贴近 (过程有点类似于 “猜数字”游戏 ),从而最终得到一个近似函数 ,我们就可以用来代替未知的 用于预测未来的样本 ,得到它对应的 。 我们可以发现,以上学习算法确实可以得到能够解决问题的模型,然而局限之处在于它也只能做这个任务,即对输入 预测 ,别的啥也干不了。 同时在基于深度学习的自然语言处理模型中,基本套路都是Embedding+Encoder+Decoder,其中Embedding是基于字还是基于词,是使用预训练词向量还是随机初始化,这些选择所导致的效果的差异都随着训练轮数的增加而最终减小。然而,由于梯度下降以及解空间的特点,基于bert的效果确实是要比Word2Vec的要好,那些词向量确实比Word2Vec的嵌入了(或者说学到了)更多的语言知识。 关于模型的选择和取舍,工业界和学术界的标准其实差别很大。学术界里有的论文是开创性的,而许多论文其实都是在原来基础上小修小改,将最近的较新的思想和算法一堆,实验结果比原来指标高一点又是一篇文章,程序运行占用多大内存、跑了多长时间这些都不是主要因素,也就是一切向指标看齐。 而工业界则更加看重的是性价比,不同的公司、不同的部门、不同的阶段其主要矛盾不同。比如说Facebook之前出的fastText,尽管模型很简单,最终效果可能比不上一些其他复杂的模型,但是其训练速度超快、基于CPU就可以,并且可以很方便地对模型进行压缩。许多时候,一些指标高低差几个点并没有那么关键,模型大小、训练时间、预测时间在很多时候是比较关键的因素,除非由于甲方或客户不满意,或者家大业大,有的是资源,那么这时候效果和指标又成为主要矛盾,这时的优化可能要以一定的时间和空间为代价。 原来的自然语言处理各任务基本上都构建在分词的基础之上,粗略来说有一个 语法 、 语义 到 语用 的递进的过程。这一层一层的任务虽然耦合的很好,但是 这种Pipline将会导致下层的错误都将会被积累到上层,其直接影响就是越到上层其准确率越低,甚至低到惨不忍睹的程度。然而在表示学习,尤其是深度学习崛起以后,其强大的特征学习能力,使得现在的模型多为end-to-end模型,其结果是一方面可以使得相关人员摆脱繁琐的特征工程,可以将特征提取与组合设计的工作交给神经网络模型去隐形完成,大大解放了生产力;令一方面可以将模型视为整体的一部分,即它的输入直接对应原始输入,它的输出直接是我们想要的结果,有点直达病灶的意思,摆脱了原来Pipline错误累积的困境。 不过我个人看来成也end-to-end,败也end-to-end,虽然简化了任务,但是有点太过开门见山,得到的模型一个个都是彼此孤立的,各做各的事情,然而从整体论的角度来看它们都是整个自然语言处理系统的一部分,一些特征本来是可以共享,一些结果是彼此相互依赖的。这也又涉及到参数共享、多任务学习等概念,不细表。由于神经网络的可解释性较差,这使得模型更加像一个黑盒,训练调参的过程更像是在炼丹,因为谁也不知道具体能炼出个什么玩意儿。 如下图很形象地诠释了这一现状: 下面就深度学习下的自然语言处理四大任务进行简单对比(都是个人浅薄之见,难免有不足之处,还望海涵)。自然语言处理四大任务分别是:序列标注、文本分类、句子关系、文本生成。 序列标注任务的原始语料是一连串的句子,经过标注后的语料格式大概如下(以命名实体识别为例): 我们可以发现,每一行的格式都是一个字符以及它所对应的类别,如 B_{type} 、 O ,那么对于每一个字符模型需要预测的类别数量总计为 2*len(types) + 1 ,其中2是指 BI 这种标注规范, len(types) 指类型种类的数量(如人名、地名、机构名共三种),1是指 O 。可以发现模型需要拟合的函数的值域还是很小的,即 O(len(types)) 。 文本分类任务的标注语料格式大概如下(以情感极性分析为例): 每一行的格式都包含原始文本以及它所对应的类别(或者说标签),我们可以发现模型需要预测的类别数量总计为 len(types) ,即类型种类的数量(以新闻语料分类,如 娱乐 、 军事 、 科技 、 体育 等),可以发现模型需要拟合的函数的值域也是较小的,即 O(len(types)) 。 句子关系任务的标注语料格式大致如下(以语句相似度为例): 每一行都是两个句子以及它们的关系( 1 代表语义相同, 0 代表语义不同),我们可以发现模型需要预测的类别数量总计为 len(relations) ,即关系种类的数量,可以发现模型需要拟合的函数的值域也是较小的,即 O(len(relations)) 。 文本生成任务的标注语料格式大致如下(以机器翻译为例): 我们可以发现每一行都是源语言句子以及目标语言的对应翻译。虽然此时模型和序列标注模型一样都需要对于单个样本预测多次,但是序列标注模型需要预测的次数直接等于字符的数量,是确定的,但是文本生成任务模型需要预测的次数是不确定的,并且每次预测的值域都是目标语言所有word(或者character)所组成的整体集合,即 O(len(words)) ,其规模可能是十万级或百万级的。因此我们很容易发现文本生成任务的难度和复杂程度是要远远高于其他任务的。对话任务如生成式闲聊机器人更是如此。 可能是之前的AlphaGo过于吸引广大群众的眼球,做相关业务的公司吹的太厉害,以及“人工智能”、“深度学习”这几个词听起来逼格满满,导致许多外行人认为现在的人工智能已经发展到很厉害的层次,并且可以做各种各样的事情,似乎无所不能。但是内行人心里却明白:“什么人工智能,人工智障吧”、“所谓人工智能,多是智能不够,人工来凑”。外行人看不到深度模型算法的局限性,如许多模型的精度并不能达到那么高;也看不到深度模型算法的前提条件,如高质量、大规模的数据集,他们以为模型大约聪明到随便喂点数据便成为终结者般的存在。这也就导致了他们刚开始预期很高,然而在投资或找到外包后发现效果远远不能达到预期,大失所望而潦草结束或撤资离场的局面。 如下一张图大概有点这个意思: 统观学术界与工业界,和计算机视觉领域相比,自然语言处理这种更深层次的、涉及到认知智能的领域的进展虽悠久但缓慢,并且许多任务目前为止距离真正商用还有很大的距离。然而正是科学史上如阿基米德、牛顿等伟大人物与其他相对无名之辈默默耕耘,前赴后继,才使得如今之人类齐享先辈之成果,即所谓“前人栽树后人乘凉”也。 我辈也无需悲观,须戒骄戒躁,搞算法的就多己见、少盲从,少水论文;搞工程的就多积累经验,提升实践能力,多做高质量的项目。功夫不负有心人。

计算机图像处理毕业论文

数字图像处理OK,帮你处理。

1 基于形态学运算的星空图像分割 主要内容: 在获取星图像的过程中,由于某些因素的影响,获得的星图像存在噪声,而且星图像的背景经常是不均匀的,为星图像的分割造成了极大的困难。膨胀和腐蚀是形态学的两个基本运算。用形态学运算对星图像进行处理,补偿不均匀的星图像背景,然后进行星图像的阈值分割。 要求: 1> 图像预处理:对原始星空图像进行滤波去噪处理; 2> 对去噪后的图像进行形态学运算处理; 3> 选取自适应阈值对形态学运算处理后的图像进行二值化; 4> 显示每步处理后的图像; 5> 对经过形态学处理后再阈值的图像和未作形态学处理后再阈值的图像进行对比分析。 待分割图像 直接分割图像 处理后的分割图像 2 基于数字图像处理的印刷电路板智能检测方法 主要内容: 通过对由相机实时获取的印刷电路板图像进行焊盘识别,从而提高电子元件的贴片质量,有效提高电路板的印刷效率。 要求: 1> 图像预处理:将原始彩色印刷电路板图像转成灰度图像,对灰度图像进行背景平滑和滤波去噪; 2> 对去噪后的图像进行图像增强处理,增强边缘提取的效果。 3> 对增强后的图像进行边缘提取(至少两种以上的边缘提取算法); 4> 显示每步处理后的图像(原始电路板图像可自行查找); 5> 图像处理后要求能对每个焊盘进行边缘提取,边缘清晰。

目录 一.引言……………………………………………………………………2 二.设计方法和创意 ………………………………………………………2 三.实例制作 …………………………………………………………………3 小结 …………………………………………………………………………8 参考文献 ………………………………………………8 一.引言 近年来,计算机图像技术的飞速发展和应用使个人电脑上的美术创作进入一个新的阶段,各种图像处理软件也越来越完善,普及程度不断的提高。其中的图像软件处理工具Photoshop是目前公认的、较好的通用平面美术设计软件,它功能完善,性能稳定,使用方便。Photoshop所具有的功能包括:可以对图像进行修饰、对图形进行编辑、对图像的色彩进行处理等,此外,还有绘图和输出功能。在实际生活和工作中,人们可以将数码照相机拍摄下来的照片利用Photoshop进行编辑和修饰,还可以利用PhotoShop为图像制作特效效果,如果和其它工具软件配合使用,则可以进行高质量的广告设计、美术创意和三维动画制作。由于PhotoShop功能强大,目前,正在被越来越多的图像编排、广告和形象设计以及婚纱影楼等领域广泛使用,是一个非常受欢迎的应用软件。本毕业论文中的设计实例就采用了Photoshop这一图像处理软件。 二.设计方法和创意 利用图像处理软件制作图形,要产生一个好的作品包括三个方面的内容:创意、构图能力、计算机表达。即首先要有好的创意,然后对其进行粗略构图,最后借助计算机手段,制作出所构想的最终效果图。当然,也有一些经典的创意,只用寥寥数笔即可表现,但这种情况非常少。上述所说的三个方面的内容,其中的创意需要具备跳跃思维,灵活善变,也与创作者的美术素养相关;而构图则主要指平面构成,色彩构成和立体构成。对于平面设计来说,平面构成和色彩构成尤为重要,它需要通过合理组织各种元素,确定视觉中心,使画面美观并能引导读者的目光和兴趣;计算机表达则是利用有关的图像处理软件工具,将构思的图像效果制作出来。本毕业论文的实例制作,就是利用Photoshop来制作水滴的效果图,设计思想是利用已有的素材,制作出将一个杯子的水倒入另一个杯子后产生水滴的效果。 三.实例制作 本实例制作通过制作相关素材,并运用了Photoshop中的笔刷、扭曲/波浪滤镜、自由变形等工具,最终合成所制作的素材以得到所构思的效果图。具体制作步骤如下: 1.新建一个100x100像素图像文件,背景为蓝色; 2.新建透明图层2,建立该图层的目的是因为本设计的主要操作是在图层2中进行的; 3.利用工具面板中的椭圆选框工具在图层2中选出一个圆形区域。 4.选取工具面板画笔工具(画笔颜色选白色,画笔大小13,不透明度100%)在选区的四周绘制线条。 5.再将画笔的不透明度调节为50%,绘制如下的线条;此时可以看到,所绘制的效果已经很像一颗水珠了。 6.选中图层2,可按Ctrl+A全选,拷贝图层2;然后新建一新的图像文件,大小为200x200,背景设为蓝色;把前一图像文件中的图层2中所制作好的水珠粘贴到该新建图像文件中,多粘贴几个,并调节好大小,然后合并为图层7。 7.选中当前图层(图层7),利用菜单命令:滤镜→扭曲→波浪,调节好参数值。即可得到 8.对图层7再进行波浪变形,参数要有所不同,以产生随机效果。 9.复制粘贴图层7以得到图层8,在图层8中利用自 由变换工具调节大小和角度。 10.再粘贴一次,完成后的效果。 11.对图层8、图层9分别再使用一次波浪变形滤镜; 12.将图层7、8、9合并,并作拷贝,导入一幅图片。 13.粘贴图层,用自由变换工具调整到合适位置,到此为止,整个效果图即制作完毕。 小结 平面设计是一项相当复杂的工作,要设计一件比较理想的平面作品,设计者需要具有一定的美术知识和素养。并且需要知道色彩的构成、分类与感情的关系,以及调和与配色等一系列美术知识,需要具备一定的设计经验。还要懂得如何使用相关平面设计软件,通过这次的毕业设计通过本次毕业设计,使我对Photoshop有了很深的认识,对平面设计的布局、创意都有了一定的提高。

计算机编程语言毕业论文

计算机专业毕业论文范文 摘要: 能量管理系统(EM S) 是当代大电网运行不可缺少的手段, 但是我国各电力公司EM S 应用软件的实用化程度还较低。最近, 国家电力公司对于各调度部门的EM S 提出了实用化要求, 并提出了考核标准, 各调度部门都在为这一目标而努力。因国内网省调大部分采用国外的EM S, 不具备考核统计功能, 作者根据国调中心提出的实用化要求, 对湖北EM S 进行了EM S 考核监视管理系统的研究和实施。该系统深入 EM S 核心内部, 结合外部软件编程, 对EM S 的运行参数进行人工设置并对EM S 应用软件的运行状态及结果进行实时考核统计和控制。该系统对EM S 各应用软件进行了全方位、功能全面的自动不间断规范化考核监视, 为EM S 的实用化打下了坚实的基础。关键词: EM S; 监控系统; 电力系统中图分类号: TM 734 文献标识码:A 1 引言在全国电网互联和电力市场的推动下, 为了对大电网的安全、优质、经济运行和环保及效益进行协调优化, 能量管理系统(EM S) 将会有一个更大的发展, 并将成为当代大电网运行不可缺少的手段。但是, 目前国内各电网的EM S 均缺乏全方位的, 功能全面的考核监视管理系统, EM S 的管理维护和考核监视主要是由运行人员手工完成, 自动化程度较低, 可靠性、准确性也较低。EM S 应用软件的使用和系统质量还有待时间的考验, 为进一步促进EM S 应用软件基本功能的实际应用, 充分发挥其在电网安全、优质、经济运行中的作用, 并配合中国一流电网调度机构考核验收来规范和指导基本功能的验收工作, 国家电力调度通信中心制定了EM S 应用软件基本功能实用要求及验收细则[ 1 ] , 要求狠抓EM S 的实用化工作。笔者根据国调中心调自[1998 ]126号文 “关于印发《能量管理系统(EM S) 应用软件功能要求及其实施基础条件》(试行) 的通知”及其附件, 国调中心[ 1999 ]207号文“EM S 应用软件基本功能实用要求及验收细则”, 以及湖北省电力调度通信局自动化科制订的“EM S 考核监视管理系统功能规范”, 以湖北电网EM S 功能的实用化改进和考核管理为课题, 设计并建立了EM S 考核监视管理系统。该考核监视管理系统在对EM S 应用软件的功能进行实用化改进的基础上, 可以对EM S 应用软件的运行状态及结果进行实时监视和控制, 自动计算及生成EM S 运行考核指标和报表。该考核监视管理系统可以显著地减少运行人员的分析计算工作量, 把运行人员从大量复杂、烦琐的数据检索和计算工作中解放出来, 提高了工作效率和准确性。通过对 EM S 各运行模块的监视和控制, 有效地改善了 EM S 的运行性能。该系统还可以将EM S 的实时运行状态, 中间计算信息及计算结果在Internet 网络上发布, 实现系统的无人值守及远程监控和故障诊断, 具有实用价值。该系统的研制成功为EM S 的实用化打下了坚实的基础, 充分发挥EM S 在电网安全、优质、经济运行中的作用。2 EMS 考核监视管理系统原理和结构考核监视管理系统硬件主要包括考核监视计算机、网络适配器和激光报表打印机等。其硬件配置如图1所示。考核监视计算机通过双网分别与EM S 和管理信息系统(M IS) 相连, 其中一个网出现故障时, 不影响系统的正常运行, 即具备双网切换能力。图1 EMS 考核管理系统的硬件结构 Fig. 1 Hardwares for superv isory con trol system of EMS 考核监视管理系统软件包括EM S 自动考核监视软件、考核指标统计管理软件和网上信息发布系统三部分。其流程图如图2所示。考核监视管理系统从EM S 获取有关实时数据和运行状态信息, 通过标准网络数据通信接口, 将这些实时数据和运行状态信息传送到EM S 自动考核监视管理计算机。通过数据格式转换软件, 在本地机上建立考核管理系统专用实时数据库, 并完成数据的计算、统计、分析和处理, 生成报表、曲线等考核监视结果, 刷新考核管理系统本地实时数据库。将数据与管理信息系统(M IS) 共享, 在网上发布相关信息, 并根据需要发信给电子值班员。图2 EMS 考核管理监视系统原理框图 Fig. 2 Block diagram of superv isory con trol system of EMS 流程图的第一步是在EM S 上完成必须的源程序修改和程序编制, 这是专门针对湖北EM S 系统 (ABB S. P. I. D. E. R 系统) 设计的。因为某些EM S 考核指标的统计信息在现有湖北电网EM S 的运行状况和输出条件下是无法得到的。为此, 针对EM S 源程序进行了修改和扩充。增加了EM S 的控制参数的设定和计算结果的输出。3 系统主要功能EM S 考核监视管理系统有如下具体功能: 3. 1 EMS 计算数据的实时监视3. 1. 1 母线平衡监视计算厂站母线进出线路、变压器的有功功率和无功功率实时数据的代数值和净值。并将净值和门槛值进行比较, 筛选出母线不平衡的站。用排序方式, 按净值的偏差大小显示各厂站的站名、净值及其所属的量测分量。正常厂站用绿色显示; 净值偏差超过基准值的3. 0% 时, 用黄色显示; 净值偏差超过基准值的5. 0% 时, 则用红色显示。同时可用曲线方式分别显示各厂站的净值偏差。曲线密度为每个实时数据库数据刷新周期(目前定为1 m in) 1个点, 保存时间为3天, 曲线横纵坐标可在线修改。并监视净值更新情况, 若净值连续超过30 m in 不更新, 则可认为该路RTU 停运, 记录该路RTU 停运和恢复运行的事件。事件保存时间为2个月。如果全部RTU 不更新, 则提示运行人员EM S 系统死机或EM S 考核监视管理系统与EM S 的网络通信中断, 并将此全停信息送电子值班员告警。3. 1. 2 线损监视计算线路两侧有功功率实时数据的差值。并将差值和阈值进行比较, 筛选出线损异常的线路。用排序方式, 按净值的偏差大小显示各厂站的站名、净值及其所属的量测分量。正常数据用绿色显示; 净值偏差超过基准值的3. 0% 时, 用黄色显示; 净值偏差超过基准值的5. 0% 时, 则用红色显示。3. 1. 3 变损监视计算变压器两侧、三侧的有功功率实时数据的差值。并将差值和阈值进行比较, 筛选出变损异常的变压器。输出结果同线损输出结果类似。3. 1. 4 电压合理性监视计算多母线各段母线电压实时数据的差值。并将差值和阈值进行比较, 筛选出电压异常的母线。输出结果同线损输出结果类似。3. 1. 5 遥信.遥测的一致性监视根据开关状态和线路潮流值相一致的原则, 筛选出位置异常的开关。即遥测不为零, 而遥信位置断开的开关和遥测为零, 而遥信位置闭合的开关。输出各个位置异常的开关的名称和实际状态。3. 1. 6 遥信取反监视监视实时系统中进行了遥信取反定义的开关。输出进行了取反的开关的名称和实际状态。3. 2 EMS 模块运行状态监视3. 2. 1 模块投运状态监视湖北电网EM S 的应用软件包括实时数据快照模块(SN P)、状态量和模拟量的修正模块(SAR)、网络拓扑及模型建立模块(NMB )、母线计划模块 (BSK)、状态估计模块(SE)、网络参数更新模块 (N PU )、安全分析模块(SA )、网络灵敏度分析模块 (N S)、调度员潮流模块(DPF)、短期负荷预计模块 (SL F)、自动发电控制模块(A GC) 等功能模块。EM S 考核监视管理系统可以实时监视EM S 各模块的投运状态和控制模式, 并可以区别EM S 各模块投运状态和退出状态。在必要时候将模块退出运行的信息送电子值班员进行告警。可以区别EM S 的各种控制模式: 实时状态估计、实时调度员潮流、研究状态估计和研究调度员潮流的方式。对EM S 各模块的投运状态和控制模式的变化, 作为带时标事件记录下来, 保存时间为2年。3. 2. 2 模块运行状态监视实时监视EM S 各功能模块的运行状态。可以区别EM S 各模块的关闭状态、初始化状态、起动预备状态、请求执行状态、正在执行状态、超时状态、闭锁状态、执行完成状态、出错状态和停止状态等。在 EM S 应用监视器的流程图上, 标明各模块的运行状态。并将各模块运行状态的变化, 作为带时标事件记录下来, 保存时间为2年。统计各个模块连续处于出错状态的次数。并设置各模块的连续出错状态次数的限值, 若超过此限值则将出错信息送电子值班员进行告警。3. 2. 3 模块计算中间结果分析可以检查EM S 各功能模块软件运行过程中间出现的异常情况, 检查引起异常的原因, 并获取 EM S 各功能模块软件运行过程出现的信息。将其在网页上发布允许运行人员通过远程互连网进行监视和故障诊断。3. 2. 4 模块计算结果监视可以实时监视EM S 各功能模块的计算结果, 包括状态估计(SE) 和调度员潮流(DPF) 应用模块的迭代过程和收敛情况。并按月进行SE、DPF 软件收敛、不收敛资料的统计, 将统计资料保存2年。3. 3 模块运行的控制管理可以对模块的控制方式进行在线设定, 并能够进行模块计算迭代过程和计算收敛精度的控制。这是对EM S 应用软件的源程序、画面和数据库进行改造, 调节改变有关算法的控制参数, 使运行人员可以直接在EM S 监视器画面上对状态估计和调度员潮流等模块计算的过程和计算的收敛精度进行控制。3. 4 EMS 计算结果的统计分析对SE、DPF 模块的计算结果进行统计分析。按照不同电压等级量测类型基准值, 计算状态估计的估计值和调度员潮流的计算值的偏差, 自动查找不合格的计算点, 得到EM S 状态估计合格率指标和调度员潮流计算合格率指标。将计算结果和分析结果形成报表输出。3. 5 EMS 考核指标的管理建立EM S 考核管理数据库, 根据EM S 数据库和统计的运行历史资料, 自动地逐次计算EM S 运行考核指标, 包括: ①状态估计覆盖率; ②状态估计月可用率; ③遥测估计合格率; ④单次状态估计计算时间; ⑤调度员潮流月合格率; ⑥调度员潮流计算结果误差; ⑦单次潮流计算时间; ⑧负荷预测月运行率; ⑨月负荷预测准确率; bk月最高(低) 负荷预测准确率。3. 6 EMS 考核管理的信息发布系统EM S 考核管理的信息发布系统由当地机上的考核信息查阅管理软件和网上信息发布系统组成。通过建立EM S 考核监视管理系统主页, 将考核管理信息在网上发布。使运行人员既能在EM S 考核监视管理系统的本地机上查阅信息, 也能在通过网络进行网上查阅, 便于运行和管理人员查看。EM S 考核监视管理系统在实现上述主要功能的基础上, 综合目前已有的A GC 运行统计功能, 作为EM S 考核监视管理系统的一个子系统。4 系统特点(1) EM S 功能的实用化改造EM S 考核监视管理系统的考核管理范围很广, 实现的功能全面, 实用化程度高。其考核管理范围包括EM S 应用软件的所有功能模块。其实现的功能有: EM S 计算数据的实时监视、EM S 模块运行状态监视、EM S 模块运行的控制管理、EM S 计算结果的统计分析、EM S 考核指标的管理及EM S 考核管理的网上信息发布。这其中有一部分功能在现有湖北电网EM S 的运行状况和输出条件下是无法实现的。为此, 笔者针对EM S 源程序进行了详尽的分析, 并对相关模块的功能进行了修改和扩充。增加了 EM S 状态估计(SE) 和调度员潮流计算(DPF) 计算次数和收敛次数的统计结果, 并增加了SE 和DPF 的控制参数的设定功能。(2) 全自动免人工在线维护考虑到随着电力系统的不断扩展, 由EM S 管理的电力系统元件和设备将不断增加。若要求运行人员对EM S 考核监视管理系统进行手工维护, 势必将增加运行人员的工作量, 提高对运行人员的要求和降低EM S 考核监视管理系统的自动化程度、实用性及可靠性。为此, 本EM S 考核监视管理系统采取自动跟踪EM S 元件设备参数变化的方式, EM S 对新增线路、变压器、发电机、母线和厂站等遥测、遥信量, 均可以自动增加并进行监视考核。这使得运行人员无须深入了解、学习和掌握EM S 的数据结构和数据内容, 就可以熟练操作本系统, 满足了实用性和通用性的要求, 并提高了EM S 考核监视管理系统的可靠性。(3) 系统自动不间断运行及错误监控EM S 考核监视管理系统对EM S 服务器运行状态可以进行监视, 能够自动识别EM S 服务器的在线及备用状态, 并能够在EM S 服务器进行切换之后, 自动与其同步。而在EM S 单机服务器运行时, 自动由平常与EM S 备机服务器相连的工作模式改为与EM S 主机服务器相连, 继续对EM S 进行考核监视。EM S 考核监视管理系统具有自我运行监视软件模块, 一旦发现考核监视管理系统出现异常, 能够自动复位, 可以(在硬件环境条件允许的情况下) 对 EM S 的进行连续不间断的考核监视。5 结束语EM S 考核监视管理系统于2000年8月初设计实现后, 进行了全面测试并投入试运行。测试和试运行结果表明EM S 考核监视管理系统的各项功能均已实现, 计算结果准确可靠。EM S 考核监视管理系统能自动发现EM S 系统计算数据的非正常数据, 各模块的出错状态。可以对EM S 的状态估计模块和调度员潮流计算模块的计算过程和计算结果进行控制。EM S 考核监视管理系统满足了EM S 运行管理人员进行EM S 计算数据分析, 运行状态监视、计算过程及结果分析和EM S 考核指标及报表的统计计算的需要, 可代替由运行人员手工进行的繁重而复杂的数据检索和计算, 保证计算的可靠性和准确性, 自动生成EM S 考核指标及报表, 减少了形成EM S 考核指标及报表的人为主观因素和由此可能产生的误差, 大大节省了时间, 提高了工作效率。该系统为 EM S 的实用化打下了坚实的基础, 有助于EM S 充分发挥其在电网安全、优质、经济运行中的效益。该EM S 考核监视管理系统的硬件设备包括考核监视计算机、网络适配器和激光报表打印机, 考核监视计算机可以是一台高性能的商业机或工控机实现。整个系统的硬件设备配置经济, 具有很高的性价比。该系统的软件部分除了针对湖北电网EM S (ABB SP IDER 系统) , 对其某些应用软件进行了修改和数据格式转换外, 其它功能模块均为通用型标准化设计, 适用于其它各种类型的EM S。因此该 EM S 考核监视管理系统有较高的推广应用价值。参考文献: [1 ] 国调中心[ 1999 ]207号文《关于印发“EM S 应用软件基本功能实用化要求及验收细则”的通知》[Z]. [ 2 ] SP IDER operator’ s nanual ( ABB EM S 操作手册) [Z]. 收稿日期: 2000212204; 改回日期: 2001202214。作者简介: 彭 波, 博士生, 研究方向为电力系统稳定与控制及管理信息系统; 周良松, 博士, 副教授, 研究方向为电力系统稳定与控制, 电力系统自动控制及计算机监控; 夏成军, 博士生, 研究方向为电力系统稳定与控制及人工智能的应用;万 磊, 高级工程师, 湖北电力调度通信局自动化科。

毕业论文是教学科研过程的一个环节,也是学业成绩考核和评定的一种重要方式。毕业论文的目的在于总结学生在校期间的学习成果,培养学生具有综合地创造性地运用所学的全部专业知识和技能解决较为复杂问题的能力并使他们受到科学研究的基本训练。标题标题是文章的眉目。各类文章的标题,样式繁多,但无论是何种形式,总要以全部或不同的侧面体现作者的写作意图、文章的主旨。毕业论文的标题一般分为总标题、副标题、分标题几种。总标题总标题是文章总体内容的体现。常见的写法有:①揭示课题的实质。这种形式的标题,高度概括全文内容,往往就是文章的中心论点。它具有高度的明确性,便于读者把握全文内容的核心。诸如此类的标题很多,也很普遍。如《关于经济体制的模式问题》、《经济中心论》、《县级行政机构改革之我见》等。②提问式。这类标题用设问句的方式,隐去要回答的内容,实际上作者的观点是十分明确的,只不过语意婉转,需要读者加以思考罢了。这种形式的标题因其观点含蓄,轻易激起读者的注重。如《家庭联产承包制就是单干吗?》、《商品经济等同于资本主义经济吗?》等。③交代内容范围。这种形式的标题,从其本身的角度看,看不出作者所指的观点,只是对文章内容的范围做出限定。拟定这种标题,一方面是文章的主要论点难以用一句简短的话加以归纳;另一方面,交代文章内容的范围,可引起同仁读者的注重,以求引起共鸣。这种形式的标题也较普遍。如《试论我国农村的双层经营体制》、《正确处理中心和地方、条条与块块的关系》、《战后西方贸易自由化剖析》等。④用判定句式。这种形式的标题给予全文内容的限定,可伸可缩,具有很大的灵活性。文章研究对象是具体的,面较小,但引申的思想又须有很强的概括性,面较宽。这种从小处着眼,大处着手的标题,有利于科学思维和科学研究的拓展。如《从乡镇企业的兴起看中国农村的希望之光》、《科技进步与农业经济》、《从“劳动创造了美”看美的本质》等。

计算机类的毕业论文中,插入计算机语言代码的方法如下:

1、新建一个word文本文档,将论文复制到文档中。选择插入选项,点击表格然后添加一个表格到word文档中。

2、将自己需要的计算机编程代码,复制到表格中,其中会出现错误,那个红线不影响论文。将自己的代码放到对应的解释下边即可。

3、最后可以设置,表格的底纹和边框。随自己的喜好设置即可。

设置代码字体为小五号字体步骤如下:

1、选中word文档中的代码部分,在word编辑器最上边,点击开始选项卡,之后,可以看到左上角有选择字体和字体大小的下拉框。

2、对应自己的论文要求,将代码改为相应的字体以及修改其字体大小即可。

【摘要 】 本文论述了网络通信监测的实现原理与实现过程,遵照国际标准化开放系统互联(OSI)七层体系结构,利用网络驱动接口规范WinDis32 技术,实现了在应用层对数据链路层的控制,完成了对网上流动数据帧的实时截获、解封与分析。

关键词】 网络分层 WinDis32技术 网络信息截获 数据帧 NDIS网络适配器

1.前言

随着计算机网络技术的发展,各类网络规模的扩大,远程访问的增加,虚拟专用网(VPN)的出现和Internet的普及,网络安全性已成为计算机网络领域一门重要的研究学科。

网络监控是保障网络安全性的基本措施之一。网络监控,用于监测网上流动信息,并对网络信息给予适当控制。网络监控,可用于调试网络应用程序,判断应用程序是否正确地发送或接收了数据包。网络监控,还可用于监视网络信息,杜绝不健康站点的不健康内容,维护网络环境。应用于安全防范,可监视我方信息内容、保障网络安全,截获情报、分析怀有敌意方的网站。在计算机网络上实施有效的攻击与保护,是网络监控技术在军事上的重要发展方向之一。

本文论述的网络通信实时监测的实现,是用于特殊目的数据通信程序设计的突破口,是网络监控技术的'基础部分,其实现基于网络体系结构与WinDis32技术。

2.网络体系结构

现代计算机网络设计是按高度的结构化方式进行的,国际标准化组织(ISO)为更广泛的计算机互联制定了标准化的开放系统互联(OSI)网络体系结构,如图1所示。

OSI参考模型用结构描述方法,即分层描述的方法,将整个网络的通信功能划分为七个部分(也叫七个层次),每层各自完成一定的功能。由低层至高层分别称为物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。两台网络主机之间进行通信时,发送方将数据从应用层向下传递到物理层,每一层协议模块为下一层进行数据封装,数据流经网络,到达接收方,接着再由下而上通过协议栈传递,并与接收方应用程序进行通信。

在通用网络中,数据链路层由网络适配器实现,本文中网络通信监测的立足点在于数据链路层,基于电缆是固有的广播性介质,通过对网络适配器的控制,实时截获与分析经过网络适配器的所有网上流动信息。

技术

WinDis32全称为Win32 NDIS(Network Driver Interface Specification)网络驱动接口规范,用于开发Windows产品,可在Windows 9X和Windows NT上直接访问NDIS媒体访问控制(MAC)驱动接口。图2显示了Windows网络驱动组件与Win32 NDIS结构组件:

图网络驱动组件与Win32 NDIS结构组件

WinDis32网络组件由四部分组成:NDIS适配器、PCANDIS5 NDIS协议驱动、W32N50 WinDis32 API DLL、WinDis32应用程序。WinDis32应用程序调用动态链接库提供的API应用程序接口,通过NDIS协议驱动模块,实现对NDIS适配器进行的存取操作。网络驱动接口规范NDIS的主要特征是所有适配器相关驱动均由NDIS接口打包,例如,最底层NDIS NIC驱动不能对网卡直接执行I/O,它通过NDIS打包服务来访问硬件;高层Windows NDIS网络组件使用NDIS打包界面与适配器相关驱动通信。只有NDIS协议驱动可以调用NDIS打包,访问NDIS适配器。

WinDis32应用程序接口函数包括:W32N_OpenAdapter(),打开一个已被命名NDIS适配驱动器,若操作成功,则生成一个面向适配器对象WinDis32适配器句柄,这一句柄被随后多个在该适配器上操作的W32N_XXX函数所用; W32N_CloseAdapter(),关闭已打开的适配器句柄;W32N_PacketRead(),数据帧读操作;W32N_PacketReadEx(),数据帧异步读操作;W32N_PacketSend(),发送数据帧操作;W32N_PacketSendEx()、W32N_MakeNdisRequest()等等。

WinDis32技术使得从Win32应用层进行NDIS请求如同在一个内核模式的驱动器内部进行请求一样简单,并支持多个网络适配器同时打开,完成各自的信息发送与接收。

4.网络信息监测的实现

网络信息监测程序分为信息截获与信息分析两大部分,其中信息截获程序流程如图3所示,采用多进程与多线程技术,完成数据的实时截获。

其中网络适配器列表通过读取系统注册表生成;网络适配器详细信息包括适配器型号、网络适配器物理地址、传输最大帧、传输速率以及机内标识符,通过函数W32N_MakeNdisRequest()获得。

协议过滤部分是包括PCAUSA端口的PCANDIS5协议驱动,BPF过滤器是由UNIX环境到Windows的模拟机制,为Win32应用程序提供了一种普通而又便利的机制,可过滤指定协议,由协议驱动执行,拒绝不想要的数据帧。支持协议包括:传输控制协议TCP、互连网协议IP、地址解析协议ARP、反向地址解析协议RARP、互连网控制报文协议ICMP、互连网组管理协议IGMP、Novell SPX/IPX协议IPX、用户数据报协议UDP、NetBEUI协议、AppleTalk协议。

信息分析部分利用已获知的媒体访问控制协议,提取出数据帧中的有效域值,如源主机物理地址、目的主机物理地址、帧长度等。并同时为每一被截获的数据包打上时标,注上序列号,为下一步数据重组提供可靠依据。

接收数据帧显示与信息统计结果范例如下:

包序列号:0000000032 时间:0005860470 msec 长度:54/54

Ethernet 目的: 源: 类型:0x0800

000000: 00 40 05 39 A2 B0 00 00 : B4 86 74 FA 08 00 45 00 .@.9......t...E.

000010: 00 28 26 03 40 00 20 06 : A3 25 64 64 64 7A 64 64 .(&.@. ..%dddzdd

000020: 64 65 04 06 00 8B 00 40 : BF 14 00 6C 24 B9 50 10 de.....@...l$.P.

000030: 22 38 12 EA 00 00 : "8..............

包序列号:0000000033 时间:0005860764 msec 长度:109/109

Ethernet 目的: 源: 类型:0x0800

000000: 00 40 05 39 A2 B0 00 00 : B4 86 74 FA 08 00 45 00 .@.9......t...E.

000010: 00 5F 27 03 40 00 20 06 : A1 EE 64 64 64 7A 64 64 ._'.@. ...dddzdd

000020: 64 65 04 06 00 8B 00 40 : BF 14 00 6C 24 B9 50 18 de.....@...l$.P.

000030: 22 38 DE C6 00 00 00 00 : 00 33 FF 53 4D 42 1A 00 "8.........

000040: 00 00 00 00 00 80 00 00 : 00 00 00 00 00 00 00 00 ................

000050: 00 00 03 08 25 2D 03 08 : 01 4C 08 01 08 00 80 10 ....%-...L......

000060: 00 00 10 00 00 00 00 00 : 00 00 00 00 00 ................

包序列号:0000000034 时间:0005860766 msec 长度:1514/1514

Ethernet 目的: 源: 类型0x0800

000000: 00 00 B4 86 74 FA 00 40 : 05 39 A2 B0 08 00 45 00 ....t..@.9....E.

000010: 05 DC 64 0B 40 00 80 06 : FF 68 64 64 64 65 64 64 ..d.@....hdddedd

000020: 64 7A 00 8B 04 06 00 6C : 24 B9 00 40 BF 4B 50 10 dz.....l$..@.KP.

000030: 20 B7 86 DA 00 00 00 00 : 10 00 7E 8B 77 DA D2 D0 .........~.w...

000040: D7 27 59 9A 8F 18 D3 77 : 15 D5 6C 86 0F 2C 62 3E...

停止数据帧接收应用统计:

已接收数据帧数目 :34

已发送数据帧数目 : 0

5.进一步研究与发展

本文所研究的网络信息监测属于计算机网络系统安全对策研究的一部分,属于网络信息监测的基础性研究。以此研究成果为基础,可进行进一步的软件开发,从而实现网络通信状况实时监测、情报获取、网上各站点地址分析、站点类型分析,为计算机网络的安全维护提供监测手段,因此,具有特别的意义。

参考文献:

32 文档

2.刘锦德等计算机网络大全电子工业出版社

Jamsa等INTERNET编程电子工业出版社

C++技术内幕清华大学出版社

5.廖湖声面向对象的Windows程序设计基础人民邮电出版社

6.张国峰C++语言及其程序设计教程电子工业出版社

7.汤子瀛等计算机操作系统西安电子科技大学出版社

8.刘彦明等实用网络编程技术西安电子科技大学出版社

9.何莉等计算机网络概论高等教育出版社

10.杜毅Unix系统组网技术电子工业出版社

  • 索引序列
  • 计算机毕业论文自然语言处理
  • 自然语言处理研究论文
  • 自然语言处理论文6000字
  • 计算机图像处理毕业论文
  • 计算机编程语言毕业论文
  • 返回顶部