决策树算法在高职院校成绩分析中的应用研究
摘 要:高职院校的学生的成绩是一项重要的数据,它不仅是对学生学习情况的评价,也是对教师教学质量的检查。本文研究了使用决策树算法对学生的成绩进行挖掘分析,分析学生的毕业设计成绩与基础类课程、专业类课程以及专项实践类课程之间隐藏的内在联系,指导教师在今后的教学中加强学生实践操作能力的训练,进而提高教学质量。
关键词:决策树; ID3算法; 数据挖掘 ;学生成绩分析
1.引言
高职院校在多年的教学和管理工作中,积累了大量的教学管理数据,这些数据中蕴含了很多有价值的信息。如果利用数据挖掘技术对学院教务管理系统中教师和学生的数据进行挖掘,可以使教师更好的把握学生、把握教学过程,实现教学过程动态化管理,为学校合理设置课程、优化教育资源配置、提高教学质量提供可靠的数据依据,同时对提高学校教学和管理水平也有一定的帮助。[1]
数据挖掘(Data Mining),即数据库中的知识发现,就是对庞大的数据集或数据库进行分析,挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则,可以为用户提供决策的依据[2]。决策树算法是数据挖掘的核心算法之一,决策树方法以树型结构表达最终分类结果的,也能生成If-Then形式的规则,便于使用者理解。
在教务管理系统中,学生的成绩是一项重要的数据,它不仅是对学生学习情况的评价,也是对教师教学质量的检查。本文中研究使用决策树算法对学生的成绩进行挖掘分析,全面地分析学生的毕业设计成绩与实践类课程、专业类及基础类课程中隐藏的内在联系,体现出学生课程之间有一定的相互关联关系,可以及时指导教师在以后的教学工作中采取恰当的方法,加强学生实践操作能力的训练,指导学生进行专业、基础类课程的学习,提高教学质量。
2.决策树算法
2.1决策树算法基本概念
决策树是一种常用的、直观的分类归纳算法。决策树是一种类似流程图的树状结构,根据层次的不同,结点分为根结点、内部结点和叶结点三种类型。[3] 每个结点对应一个样本集,树的最高层结点就是根结点,对应整个样本集,内部结点对应一个类标志。根结点和内部结点都包含一个对样本属性的测试,根据测试的结果将样本集划分为两个或多个子集,每个子集生成一个分支,分支用测试属性值来标识。叶结点包含一个类标志,表示对应样本集的类别。决策树的中间结点通常用矩形表示;而叶子结点常用椭圆表示。
决策树的构造包括两个步骤,一是生成决策树,二是进行剪枝。决策树的生成是从一个根结点开始,从下到下的递归过程,通过不断地将训练样本分割成子集来构造决策树,从根结点开始对该样本的属性进行测试,根据测试结果确定下一个结点,直至到达叶结点为止。决策树的剪枝是对树结构进行修剪,删除多余分支的过程,得到一棵最小期望错误率的决策树。
2.2 ID3算法
ID3算法是决策树学习算法中最有影响力、使用最广泛的一种决策树算法。ID3的基本思想是自顶向下递归地使用搜索训练样本集,是一种典型的贪心算法,在决策树的每个结点处测试每一个属性,用信息增益作为属性的选择标准,选择信息增益最大的属性作为决策树结点,从而构建决策树。[4]在算法中,在决策树结点属性的选择上使用信息论中熵(Entropy)的概念来完成。
2.2.1 信息熵
信息熵是各自信息量的期望,用信息熵可以用来度量整个信息源X整体的不确性。设样本数据集为X, n是信号源所有可能的符号数,ai是可能取到的值,P(ai)是取值为ai的概率。其信息熵如下:
2.2.3平均信息增益
信息增益表示两个信息量之间的差值,在进行分类属性的选择时,应该选择最大的信息增益作为分类属性。信息增益如下:
Gain(XY)= H(X)-H(XY)
3.决策树算法在教学质量分析中的应用
学生的毕业设计通常是学生对三年来所学的各种基础素养类课程、专业类课程、专项实践类课程的综合掌握,是体现一个学生的综合素质的重要依据,也是教师培养学生的教学质量的重要体现。因此,通过对学生的毕业设计和各种基础课、专业课及专业实践课的考试成绩的挖掘,分析出其中的关系,为今后教师调整教学方案提供依据。
决策树算法对学生成绩进行分析,是将决策树的相关算法应用于学生成绩挖掘,对大量的考试成绩数据进行分析,从而更好的分析和预测成绩数据。[5]其主要过程如下:
3.1数据收集
数据收集阶段主要工作是从教务管理系统中收集与挖掘相关的学生成绩数据,并进行简单的统计分析,检查这些学生成绩数据是否完整。
在进行数据挖掘之前,主要收集了我院2008级软件技术专业0801班42名学生不同学期的课程成绩作为原始数据,一共选择了9门课程。学生成绩表的主要内容包括学号及各门课程成绩。进行分类整理后,得到学生成绩数据表。
学号 | 计算机网络基础 | C语言程序设计 | WEB开发技术 | 数据库原理与应用 | 程序设计 | C#程序设计 | 数据库设计与开发 | 基于C#的应用程序设计 | 基于C#的Windows应用程序设计 | 毕业设计 |
100080563 | 80 | 80 | 76 | 74 | 90 | 89 | 良好 | 良好 | 良好 | 中等 |
100080575 | 85 | 86 | 88 | 76 | 92 | 94 | 良好 | 优秀 | 优秀 | 优秀 |
100080593 | 60 | 75 | 95 | 69 | 79 | 80 | 中等 | 及格 | 及格 | 及格 |
…… |
3.2数据预处理
数据预处理的主要工作就是检查数据库中不完整的、含噪声的,不一致的的数据,并且进行清理,除去噪音,填补记录中遗漏的数据值、删除无效数据等,提高挖掘算法的精度和有效性。并且要对数据进行转换,生成新的属性或记录,使之适合数据挖掘处理的格式,预处理后的数据可以节省数据处理的时间。
在学生成绩表中,对学生因缺考、缓考、违纪、休学、退学等情况产生的成绩记录的缺失,可考虑进行清理,删除这些记录,确保表格数据的完整。最后形成有效数据共42条记录。
3.3数据转换
将收集到的数据信息转换为一个数据模型, 决策树算法中使用的是离散型数据,学生成绩是连续型的,因此,要将其数据属性进行离散化处理。
学生成绩的成绩评价指标可分为三个等级,A:85-100(优秀),B:70-84(良好),C:69以下(一般)。离散化后的学生成 绩表如下图所示:
学号 | 基础课 | 专业课 | 专项实践课 | 毕业设计 |
100080563 | B | B | B | B |
100080575 | A | A | A | A |
100080593 | B | C | C | C |
…… |
3.4 数据分类挖掘
根据生成的分析模型,利用决策树算法对数据进行挖掘,具体情况如下。
学生成绩表中样本类别属性为毕业设计,首先计算出毕业设计的信息熵。毕业设计成绩分为A(优秀)、B(良好)、C(一般)三种类别,其中优秀为3人,良好为28人,一般为11人,根据公式计算其信息熵如下:
(3)根据专项实践课成绩计算条件熵。
专项实践课成绩为"A"人数为7人。其中毕业设计成绩为"A"的2人,为"B"的5人,为"C"的0人。专项实践课成绩为"B"人数为25人,其中毕业设计成绩为"A"的1人,为"B"的16人,为"C"的8人。专项实践课成绩为"C"人数为10人。其中毕业设计成绩为"A"的0人,为"B"的7人,为"C"的3人。因此其条件熵为:
H(X专项实践课)=
=1.022
其信息增益为:
Gain(专项实践课)=1.168-1.022=0.146
由上述计算可见,专项实践课成绩属性所获得的信息增益最大,被作为根结点,并依次取专业课成绩、基础课成绩属性做为分支结点。通过构造和剪枝后,形成如图所示的决策树:
3.5 结果分析
通过对上述决策树的分析,可得出如下结论:
专项实践、专业课、基础课成绩均优秀的同学,毕业设计成绩优秀。专项实践优秀、专业课成绩一般的同学,无论基础课成绩如何,毕业设计成绩均为一般。由决策树分析可见,专项实践、专业课、基础课在学生的综合素质的培养中起到了不同程度的作用。专项实践课对学生的综合能力的培养有重要的影响,但不是绝对因素,基础课和专业课的教学安排,对学生的实践能力的训练起到了很大的支撑作用。因此,在专业的课程安排和教师的教学组织中,要注重学生的知识的学习与技能的训练的有机结合,提高学生的综合能力。
4.结束语
利用决策树分类算法的ID3 算法对学生的成绩进行分析,构造出学生成绩分析决策树,可以挖掘出学生的毕业设计成绩与基础课程、专业课程、专项实践课程之间的隐藏关系,同时也挖掘出各类课程的学习对学生综合素质培养的影响。教师可以根据分析结果在今后的教学过程中,注重加强学生的专业能力培养、实践能力训练,培养出合格的高端技能型人才。
参考文献:
[1]丁智斌,袁方,董贺伟.数据挖掘在高校学生学习成绩分析中的应用[J].计算机工程与设计.2006.2(590-592)
[2]邵峰晶,于忠清,王金龙,孙仁诚. 数据挖掘原理与算法[M].北京:科学出版社.2009.
[3]陈安,陈宁,周龙骧.数据挖掘技术及应用[M].北京:科学出版社.2006.
[4]廖芹,郝志峰,陈志宏.数据挖掘与数学建模[M].北京:国防工业出版社.2010.
[5]邢晓宇,余建坤,陈磊.决策树算法在学生考试成绩中的应用[J].云南民族大学学报(自然科学版).2009.1(77-80)