数据挖掘技术在高校学生成绩分析中的应用研究
摘 要:本文主要讨论的是决策树挖掘技术在学生成绩分析中的应用。通过确定数据挖掘的对象、数据选择、数据分类挖掘,最后由决策树产生分类规则,得出挖掘结果和运用这个结果的指导作用。希望本文的研究能够为相关领域提供一些指导和帮助。
关键词:数据挖掘;高校学生;成绩分析
1.确定数据挖掘的对象
本文数据挖掘的对象主要是以本人所授的《大学计算机基础》课程的数据为例,对象是本校学生,总人数250人,采用授课方法是在机房上课,周学时为三节课。根据学生的基本情况来分析挖掘出哪些因素对学生的学习成绩是有影响的,如性别、基础程度、每周上机时间、生源地、出勤情况等等,分析考试成绩为在优、良、中、及格、不及格这五个等级之间分布的学生人数与上面哪些因素有关系,并希望用得到的分析结果来指导今后的教学工作,提高教学质量、改革教学方法。
2.数据选择
2.1学生的基本情况信息
数据结构包含以下属性信息:学号、姓名、性别、专业、家庭住址、籍贯、联系方式、班级、生源地。这些信息可以通过学院的“学生教务管理信息系统”来获取,存入“学生基本情况数据库”中,内部的数据结构包含以上九个属性。
2.2需要向学生调查的数据信息
需要调查的信息包括:对计算机课程是否感兴趣、基础程度、每周上机时间等。这些信息是通过对学生的调查才能得到。把调查所得到的数据存放到“调查信息数据库”中。“调查信息数据库”的数据结构包含以下属性信息:学号、姓名、是否对计算机课程感兴趣、基础程度、每周上机时间五个属性。其中是否对计算机课程感兴趣属性有感兴趣、不感兴趣两个属性值;基础程度属性有好、一般、差三个属性值;上机时间量有0、≤1、1~2、≥2四个属性值。
2.3学生的考试成绩数据
学生的考试成绩是教师在期末考试后统计的,通过学院已有的“教务管理系统”来完成录入收集的,其数据结构包含以下内容:学号、姓名、专业名称、班级、课程名称、成绩。录入的学生成绩保存在“学生成绩数据库”中,数据结构包含以下属性:学号、姓名、专业、成绩四个属性。
3.数据分类挖掘
数据分类挖掘的主要目的就是要建立学生成绩分析决策树的模型。
3.1算法的选择
本文运用决策树技术的两个经典算法 ID3算法和C4.5算法,因ID3算法是利用信息增益,作为分类评价函数来选取最优属性,这种选择容易倾向于选择取值较大的属性,但取值较大的属性并不一定是最重要的属性。且ID3算法只能处理离散值的属性,没有考虑数据中的缺值问题。C4.5算法能有效处理数值的离散化,考虑了缺值问题,因此选用了C4.5算法建立决策树进行数据挖掘分析。
3.2建立决策树模型
用于挖掘的学生成绩表中的属性很多,本文选取了与成绩属性相关性较大的性别、基础程度、每周上机时间三个属性作为建立成绩分类决策树模型的依据。建立决策树模型的步骤如下:
(1)对每个属性分别计算该属性的信息增益率。
(2)选取信息增益比率最大的属性作为根结点,并按其值划分数据集合,如果该属性只有一个值则停止划分。
(3)对划分的每个子数据集递归执行(1)~(2)。
4.生成分类规则
决策树的最大优点是能直接提取分类规则,可以以IF…THEN形式的分类规则表示。IF…THEN规则易于理解,特别是当给定的决策树很大时很实用。提取IF…THEN规则的主要做法是:对从根到叶节点的每条路径创建一个规则,沿着给定路径上的每个属性值对形成规则前面部分的一个合取项。叶节点包含类预测,形成规则的后面部分。
5.决策树挖掘结果分析
通过应用决策树算法对学生成绩进行析,可得如下结论:
(1)基础程度好的学生且每周上机时间不少于1小时的学生,成绩基本上都是优秀的。
(2)基础程度一般的学生且每周上机时间不少于1小时的学生,成绩基本上是良好的。
(3)基础程度一般的学生且每周上机时间小于1小时的学生,成绩基本是属于中等水平。
(4)基础程度差的学生但每周上机时间不少于1小时的学生,成绩大部分集中在及格左右。
(5)基础程度差的学生且每周上机时间少于1小时的学生,成绩基本上都是不及格。
(6)而从结果来看性别是不能决定成绩的。
6.决策树方法分析结果的指导作用
通过对学生成绩的决策树分析,教师可以了解到哪些因素对学生成绩有影响,根据这些影响因素,教师可以在今后的教学过程当中进行课程改革、改善教学过程当中的不足之处,可以提高学生的学习成绩,学到更多的知识。
从生成的分类规则,可以了解到,学生基础程度好且能保证每周有相当的时间来学习,那么这样的学生成绩基本上都是优秀,而基础程度差且每周能用来学习的时间比较少的那些学生,成绩基本上是属于不及格的。而基础程度一般且每周用来上机的时间相对比较多的学生,成绩大部分是集中在中、良这两个阶段。基础程度一般且每周用来上机时间比较少的那部分学生,成绩集中在及格与不及格之间。所以可以知道学生的基础程度好与差、每周能用来学习的上机时间的多与少,是影响学生成绩的主要因素。但性别不是影响学生成绩的主要因素,从决策树来看,无论从哪个分支都看不出是男生成绩好还是女生成绩好,所以性别不是能影响学生成绩的主要因素。
针对这些主次要因素,教师在教学过程当中要进行适当的教学改革。而不能再用传统的教学方法,不管基础程度好与差,一概而论;也不管学生对知识掌握与否,一堂课都是老师在讲,学生只能听。这样会使程度好的学生因为没有新知识可学而失去对这门课的兴趣,而程度差的学生因为听不明白、学不到知识,也对这门课失去兴趣,结果会使整体的教学效果不好,学生的成绩没有得到提高,因此教师要改变这样的传统教学模式,才能提高学生对知识的掌握。改革的重点是要把程度差和程度好的学生进行分开教学,对于程度好的学生可以做一些更深层次的授课,而程度差的学生在授课的时候就要有针对性的授课,必须做到提高学生学习的积极性,让他们对这个课程感兴趣。程度好的学生计算机能力也会有所提高,而程度差的学生也可以学到自己想学的知识。
参考文献:
[1]陈文伟.决策树支持系统与数据挖掘技术[M].北京:清华大学出版社,1998.
[2]陈文伟.数据挖掘技术[M].北京:北京工业大学出版社,2002