鸢尾花分类毕业论文

3个回答默认排序

默认排序

按时间排序

苏州大高中

已采纳

鸢尾种类繁多，分类方法不一。在园艺上常见的鸢尾分类方法主要有以下2种。

（1）按生长习性及栽培条件分

①喜欢排水良好的石灰质碱性土壤的根茎类鸢尾此类鸢尾根茎粗壮肥大。常见栽培的有矮鸢尾（Irispumila）、香根鸢尾（Iris p allasii）、有髯鸢尾类及一些假种皮鸢尾类鸢尾。

②喜欢水湿和酸性土壤的鸢尾主要种类有蝴蝶花、花菖蒲、燕子花、黄菖蒲（Iris pseudacorus）、西伯利亚鸢尾、变色鸢尾（Iris versicolor）等。园林中一般把它们栽培于水塘边。

③极耐干旱，并且在沙土、黏土中均能生长的鸢尾这类鸢尾主要有野鸢尾（Iris d ichotom a）、马蔺及拟鸢尾类（Spuriae）的一些鸢尾品种。此类鸢尾适应性强，在自然式园林中栽培，可粗放管理，可做地被。

④夏季休眠的球根鸢尾常见栽培的有西班牙鸢尾（Xiphium）、网脉鸢尾（Reticulata），包括切花型及可促成栽培的盆花型鸢尾品种。此类鸢尾大多原产于地中海地区，喜欢夏季凉爽的环境。它们的地下部分为鳞茎，栽培及管理方法比较特殊。

（2）按地下茎分

①根茎类鸢尾有5种类型。包括有髯鸢尾，此类鸢尾的垂瓣上有髯毛附属物，常又按植株或花莛高矮分为高生、中生及矮生等几类；假种皮鸢尾，此类鸢尾的特点是种子上都有假种皮，即种子一头有乳白色的附属物，垂瓣上有髯毛附属物（有些假种皮鸢尾的旗瓣上也有髯毛附属物）；无髯鸢尾，此类鸢尾的特点是垂瓣上没有附属物，可分为若干类；饰冠鸢尾，此类鸢尾的特点是垂瓣基部上都有一鸡冠状附属物；其他根茎类鸢尾。

②球根鸢尾有3种类型。包括西西里鸢尾，此类鸢尾除有球茎外，有时还有肉质、膨胀的贮藏根，它们的旗瓣很小、斜伸，叶序基部包被得如大葱状；西班牙鸢尾，此类鸢尾是重要的切花类鸢尾；网脉鸢尾，此类鸢尾的特点是球茎的外面覆有一层网状纤维质膜。

294 评论 2小时前发布

林小贱灬

这次案例还是使用鸢尾花数据分类的数据。数据路径： /datas/ 数据格式：

数据解释：

1、引入头文件

feature_selection 是做特征选择的包 feature_selection 中的方法 SelectKBest ，帮助我们选择K个最优的特征 feature_selection 中的方法 chi2-卡方检验，表示使用 chi2 的方法帮助我们在 SelectKBest 中选择最优的K个最优特征。

2、防中文乱码、去警告、读取数据

总样本数目：150;特征属性数目:4

x=data[list(range(4))] 取得样本前四列特殊数据 '花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度' iris_class = 'Iris-setosa', 'Iris-versicolor', 'Iris-virginica' y=(data[4]).codes#把Y转换成分类型的0,1,2 将目标的三种分类转换成0,1,2

PS: 在之前的例子中： 04 分类算法 - Logistic回归 - 信贷审批案例，我们自己写过一个分类的算法对部分特征进行哑编码操作: parseRecord(record) ，其实pandas自己也集成了这个转换算法： (data[4]).codes ，可以把y直接转换成0,1,2。

以上是数据预处理的步骤，和之前的例子类似。

3、数据分割(训练数据和测试数据)

训练数据集样本数目：120, 测试数据集样本数目：30

注意：这个demo中的案例在这一步还没有做 KFold-K折交叉验证。当前步骤的主要内容是对数据进行划分。K折就要生成K个互斥的子集。 KFold 的工作就是帮助我们划分子集的，划分完后我们将子集扔进建模即可。 02 分类算法 - Logistic案例中提及过K折交叉验证的内容。

4、数据标准化和数据归一化的区别

思考：行数据和列数据，哪个服从正态分布？显然，列数据是特征，和样本一样都服从正态分布。所以数据标准化和归一化的对象是列。

数据标准化： StandardScaler (基于特征矩阵的列，将属性值转换至服从正态分布) 标准化是依照特征矩阵的列处理数据，其通过求z-score: z-score=(x-μ)/σ 的方法，将样本的特征值转换到同一量纲下。z-score是N(0,1)正态分布，即标准正态分布。常用与基于正态分布的算法，比如回归。 PS：在 04 回归算法 - 最小二乘线性回归案例中对 ss = StandardScaler() 数据标准化操作进行了深入分析。

数据归一化： MinMaxScaler （区间缩放，基于最大最小值，将数据转换到0,1区间上的）提升模型收敛速度，提升模型精度。常见用于神经网络。 Normalizer （基于矩阵的行，将样本向量转换为单位向量）其目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准。常见用于文本分类和聚类、logistic回归中也会使用，有效防止过拟合。

原始数据各个特征属性的调整最小值: [ ] 原始数据各个特征属性的缩放数据值: [ ]

5、特征选择：特征选择：从已有的特征中选择出影响目标值最大的特征属性特征选择是一个transform的过程常用方法： { 分类：F统计量、卡方系数，互信息mutual_info_classif { 连续：皮尔逊相关系数 F统计量互信息mutual_info_classif 这里介绍一种特征选择方法： K方检验 SelectKBest

补充知识：K方检验

ch2 = SelectKBest(chi2,k=3) 这步操作本质是一个Transformer的步骤。Transformer的概念参考 05 回归算法 - 多项式扩展、管道Pipeline 。 K方检验的本质是：判断两个特征之间的关联程度。

看下面两个样本：

1、男女性别和是否会化妆的关联性是很强的：

2、男女性别和是否出门带口罩的关联性不强：

但大部分属性对结果的关联性我们很难用常识去判断，所以我们可以首先假设样本的特征和目标无关。

假设性别和是否会化妆无关。因此我们设男人中化妆的比例为55%，男人中不化妆的比例是45% 根据实际情况进行计算：( 列联表 ) (20-55) 2 /55 + (90-55) 2 /55 + (80-45) 2 /45 + (10-45) 2 /45 结果越大，说明性别和是否会化妆的关联程度越大，当数值较大时我们可以说拒绝原假设，即原假设错误，真实情况下性别和是否会化妆有很大的影响。 (越大越拒绝)

如果结果越小，说明假设正确，我们称之为不拒绝原假设。

注意: K方统计用于离散的特征，对连续的特征无效。

对类别判断影响最大的三个特征属性分布是: [ True False True True] [0 2 3]

这里False的属性就是K方检验分数最小的那个，如果只取3个特征，False对应的那个特征就会被丢弃。

6、模型的构建、训练、预测：

准确率: Score： Classes: [0 1 2]

7、画图：

316 评论 11小时前发布

我爱欧文

目的：了解案例背景，数据情况，准备特征，为探索性分析做准备工作特征特征描述标签标签描述三种鸢尾花：山鸢尾，变色鸢尾花，维吉尼亚鸢尾四个特征：[0,1,2,3] 每2个特征组合，画一张散点图 (4*3)/(2*1)=6，6种组合： [[0,1],[0,2],[0,3],[1,2],[1,3],[2,3]] 先用前两列特征组合画图，看效果循环绘制所有6种特征组合

88 评论 11小时前发布

鸢尾花分类毕业论文

3个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序