苏州大高中
鸢尾种类繁多,分类方法不一。在园艺上常见的鸢尾分类方法主要有以下2种。
(1)按生长习性及栽培条件分
①喜欢排水良好的石灰质碱性土壤的根茎类鸢尾 此类鸢尾根茎粗壮肥大。常见栽培的有矮鸢尾(Irispumila)、香根鸢尾(Iris p allasii)、有髯鸢尾类及一些假种皮鸢尾类鸢尾。
②喜欢水湿和酸性土壤的鸢尾 主要种类有蝴蝶花、花菖蒲、燕 子花、黄菖蒲(Iris pseudacorus)、西伯利亚 鸢尾、变色鸢尾(Iris versicolor)等。园林中一般把它们栽培于水塘边。
③极耐干旱,并且在沙土、黏土中均能生长的鸢尾 这类鸢尾 主要 有 野 鸢尾(Iris d ichotom a)、马 蔺 及 拟 鸢 尾 类(Spuriae)的一些鸢尾品种。此类鸢尾适应性强,在 自然式园林中栽培,可粗放管理,可做地被。
④夏季休眠的球根鸢尾 常见栽培的有西班牙鸢尾(Xiphium)、网脉鸢尾(Reticulata),包括切花型及可促成栽培的盆花型鸢尾品种。此类鸢尾大多原产于地中海地区,喜欢夏季凉爽的环境。它们的地下部分为鳞茎,栽培及管理方法比较特殊。
(2)按地下茎分
①根茎类鸢尾 有5种类型。包括有髯鸢尾,此类鸢尾的垂瓣上有髯毛附属物,常又按植株或花莛高矮分为高生、中生及矮生等几类;假种皮鸢尾,此类鸢尾的特点是种子上都有假种皮,即种子一头有乳白色的附属物,垂瓣上有髯毛附属物(有些假种皮鸢尾的旗瓣上也有髯毛附属物);无髯鸢尾,此类鸢尾的特点是垂瓣上没有附属物,可分为若干类;饰冠鸢尾,此类鸢尾的特点是垂瓣基部上都有一鸡冠状附属物;其他根茎类鸢尾。
②球根鸢尾 有3种类型。包括西西里鸢尾,此类鸢尾除有球茎外,有时还有肉质、膨胀的贮藏根,它们的旗瓣很小、斜伸,叶序基部包被得如大葱状;西班牙鸢尾,此类鸢尾是重要的切花类鸢尾;网脉鸢尾,此类鸢尾的特点是球茎的外面覆有一层网状纤维质膜。
林小贱灬
这次案例还是使用鸢尾花数据分类的数据。 数据路径: /datas/ 数据格式:
数据解释:
1、引入头文件
feature_selection 是做特征选择的包 feature_selection 中的方法 SelectKBest ,帮助我们选择K个最优的特征 feature_selection 中的方法 chi2-卡方检验 ,表示使用 chi2 的方法帮助我们在 SelectKBest 中选择最优的K个最优特征。
2、防中文乱码、去警告、读取数据
总样本数目:150;特征属性数目:4
x=data[list(range(4))] 取得样本前四列特殊数据 '花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度' iris_class = 'Iris-setosa', 'Iris-versicolor', 'Iris-virginica' y=(data[4]).codes#把Y转换成分类型的0,1,2 将目标的三种分类转换成0,1,2
PS: 在之前的例子中: 04 分类算法 - Logistic回归 - 信贷审批案例 ,我们自己写过一个分类的算法对部分特征进行哑编码操作: parseRecord(record) ,其实pandas自己也集成了这个转换算法: (data[4]).codes ,可以把y直接转换成0,1,2。
以上是数据预处理的步骤,和之前的例子类似。
3、数据分割(训练数据和测试数据)
训练数据集样本数目:120, 测试数据集样本数目:30
注意: 这个demo中的案例在这一步还没有做 KFold-K折交叉验证 。当前步骤的主要内容是对数据进行划分。K折就要生成K个互斥的子集。 KFold 的工作就是帮助我们划分子集的,划分完后我们将子集扔进建模即可。 02 分类算法 - Logistic案例 中提及过K折交叉验证的内容。
4、数据标准化和数据归一化的区别
思考: 行数据和列数据,哪个服从正态分布?显然,列数据是特征,和样本一样都服从正态分布。所以数据标准化和归一化的对象是列。
数据标准化: StandardScaler (基于特征矩阵的列,将属性值转换至服从正态分布) 标准化是依照特征矩阵的列处理数据,其通过求z-score: z-score=(x-μ)/σ 的方法,将样本的特征值转换到同一量纲下。z-score是N(0,1)正态分布,即标准正态分布。 常用与基于正态分布的算法,比如回归。 PS:在 04 回归算法 - 最小二乘线性回归案例 中对 ss = StandardScaler() 数据标准化操作进行了深入分析。
数据归一化: MinMaxScaler (区间缩放,基于最大最小值,将数据转换到0,1区间上的) 提升模型收敛速度,提升模型精度。 常见用于神经网络。 Normalizer (基于矩阵的行,将样本向量转换为单位向量) 其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准。 常见用于文本分类和聚类、logistic回归中也会使用,有效防止过拟合。
原始数据各个特征属性的调整最小值: [ ] 原始数据各个特征属性的缩放数据值: [ ]
5、特征选择: 特征选择:从已有的特征中选择出影响目标值最大的特征属性 特征选择是一个transform的过程 常用方法: { 分类:F统计量、卡方系数,互信息mutual_info_classif { 连续:皮尔逊相关系数 F统计量 互信息mutual_info_classif 这里介绍一种特征选择方法: K方检验 SelectKBest
补充知识:K方检验
ch2 = SelectKBest(chi2,k=3) 这步操作本质是一个Transformer的步骤。Transformer的概念参考 05 回归算法 - 多项式扩展、管道Pipeline 。 K方检验的本质是:判断两个特征之间的关联程度。
看下面两个样本:
1、男女性别和是否会化妆的关联性是很强的:
2、男女性别和是否出门带口罩的关联性不强:
但大部分属性对结果的关联性我们很难用常识去判断,所以我们可以首先假设样本的特征和目标无关。
假设性别和是否会化妆无关。 因此我们设男人中化妆的比例为55%,男人中不化妆的比例是45% 根据实际情况进行计算:( 列联表 ) (20-55) 2 /55 + (90-55) 2 /55 + (80-45) 2 /45 + (10-45) 2 /45 结果越大,说明性别和是否会化妆的关联程度越大,当数值较大时我们可以说拒绝原假设,即原假设错误,真实情况下性别和是否会化妆有很大的影响。 (越大越拒绝)
如果结果越小,说明假设正确,我们称之为不拒绝原假设。
注意: K方统计用于离散的特征,对连续的特征无效。
对类别判断影响最大的三个特征属性分布是: [ True False True True] [0 2 3]
这里False的属性就是K方检验分数最小的那个,如果只取3个特征,False对应的那个特征就会被丢弃。
6、模型的构建、训练、预测:
准确率: Score: Classes: [0 1 2]
7、画图:
论文分类号采用中图分类法确定。《中图分类法》是《中国图书馆分类法》的简称,是我国通用的类分图书的工具。根据图书资料的特点,按照从总到分,从一般到具体的编制原则,
论文分为以下几种类型:研究论文、学年论文、毕业论文、学位论文、学士学位论文、硕士学位论文、博士学位论文。 详细简介: 研究论文:研究论文是研究成果过程的文字阐述
1.1 起源 鸢尾属属于鸢尾科,该科还包括有唐菖蒲、番红花、小菖兰等,大约200个属,所以鸢尾科是个特别庞大的家族。这些花属中,在北半球发现了几千个品种。 “鸢
鸢尾种类繁多,分类方法不一。在园艺上常见的鸢尾分类方法主要有以下2种。 (1)按生长习性及栽培条件分 ①喜欢排水良好的石灰质碱性土壤的根茎类鸢尾 此类鸢尾根茎粗
存货管理论文与企业存货管理论文:维修性物资存货管理的探讨【摘要】为生产维修存储何种物资、存储多少数量和以何种方式对存货量、采购及消耗进行管理,是企业维修性物资管