浅谈投影寻踪技术在城市河湖营养状态评价中的
发布时间:2015-07-07 11:23
摘要:将投影寻踪技术运用到河湖营养状态评价中,对评价样本的各因素进行线性投影,把最优投影方向所对应的投影特征量作为评价依据,建立了河湖营养状态评价模型。选取总氮、总磷、高锰酸盐指数和叶绿素a 4个因素作为评价指标,利用建立的模型对北京市河湖21个观测点的营养状态进行了评价。结果表明:投影寻踪模型能较好的对各河湖之间营养状态的比较进行评价。
关键词:投影寻踪;城市河湖;富营养化
application of projection pursuit technique in assessment of nutritional status of urban rivers and lakes
zhang wei-na ,li pei-lei ,zhang lin ,cao yong-qiang
( of urban planning and environmental science,liaoning normal university,dalian 116029,china;
pment research center of the ministry of water resources,beijing 100038,china;
an institute of environmental sciences,jilin province,liaoyuan 136200,china)
abstract:the thesis applies the projection pursuit technology to the assessment of nutritional status of rivers and lakes,the linear projection to the factors of assessment samples,takes the projector feature corresponded with optimal projection direction as evaluating basis,establishes assessment model of nutritional status of the rivers and lakes. and selects the total nitrogen,total phosphorus, chemical oxygen demand and chlorophyll a as the assessment index,evaluates the nutritional status of 21 observation points of rivers and lakes in results show that projection pursuit technology has a better evaluation capacity for assessment of nutritional status of rivers and lakes.
key words: projection pursuit;urban rivers and lakes;eutrophication
随着城市和工业的不断发展,大量未经处理的生活污水和工农业废水流入湖泊和江河中,使湖泊中的氮、磷等营养物质不断积累,促使部分藻类以及其它水生生物异常大量繁殖,使水体功能遭到破坏,进而导致水体富营养化。水体富营养化可导致河水生生态结构的破坏,并加快河湖等水体的老化过程[1]。国内外学者在河湖富营养方面做了大量研究工作[2-3],对水体的富营养状态有不同的评价方法,其中应用较多的是营养状态指数法。杜桂森[4]利用tsim的指数计算公式,计算取样水体中总氮、总磷、高锰酸盐指数和叶绿素a四项指标的tsim指数,然后根据判别标准分析河湖的营养化。投影寻踪技术为处理多因素复杂评价问题提供了新途径。近年来,投影寻踪技术被广泛应用于各种评价中,本文尝试将投影寻踪技术应用到北京河湖营养状态评价中,把投影特征量作为评价依据对营养程度进行评价。
1 投影寻踪评估模型
投影寻踪的基本思路是:将高维数据投影到低维子空间上,然后通过优化投影指标函数,求出能反映原高维数据结构或特征的投影向量,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的,其中投影指标函数的构造及优化、数学模型的建立是应用投影寻踪解决实际问题的关键。设第i个样本第j个指标x*(i,j)(i=1,2,…,n;j=1,2…m.n为样本数,m为指标数),用投影寻踪建立河湖营养状态评价模型的步骤如下[5-7]。
1.1 评价指标的标准化
选取适当的评价指标后,对数据进行归一化处理。不同的指标类型对河湖营养状态的影响趋势不同,对于数值越大,河湖营养化越强,造成富营养化的危险性越大的指标,即正向指标采用公式(1)进行处理;对于反向指标则采用公式(2)进行处理。
x(i,j)=x*(i,j)-xmin(j)xmax(j)-xmin(j)(1)
x(i,j)=xmax(j)-x*(i,j)xmax(j)-xmin(j)(2)
式中:xmin(j),xmax(j)—第j个指标值的最小值和最大值;x(i,j)—指标特征值归一化序列。
1.2 线性投影
设α=(α1,α2,…,m)为m维单位向量,也即为各指标的投影方向的一维投影值,则第i个样本在一维线性空间的投影特征值z(i)的表达式为:
z(i)=∑mj=1αjxtj(i=1,2,…,n)(3)
在综合投影指标值时,要求投影值z(i)的散布特征为局部投影点尽可能密集,最好凝聚成若干个点团,而在整体上投影点团之间尽可能散开。为了将样本间的富营养化程度区分开,可以用分类指标作为目标函数:
q(α)=szdz(4)
式中:s2—样本投影z(i)值的标准差;dz—投影值z(i)的局部密度。
sz∑ni=1(z(i)-z)2n-1(5)
dz=∑ni=1∑nk=1(r-rik)•i(r-rik)(6)
式中:—序列{z(i)|i=1,2,…,n}的均值;r—局部密度的窗口半径,与数据特性有关,研究表明其取值范围为rmax+m2≤r≤2 m,通常可取r=m;rik=|z(i)-z(k)|(k=1,…,n);i(r-rik)—单位阶跃函数,当r≥rik时函数值取1,否则取0。
1.3 优化投影函数
当评价指标的样本值给定时,投影指标函数q(α)只随投影方向α的变化而变化。不同的投影方向反映不同的数据结构特征,最佳投影方向就是最大可能暴露高维数据某类特征结构的投影方向。因此,可通过求解投影指标函数最大化问题来估计最佳投影方向,即:
目标函数:maxq(α)=szdz (7)
约束条件:∑mj=1α2(j)=1(8)
1.4 评价
将得到的最佳投影方向α代入到式(3)中,便可得到反映各评估指标综合信息的投影特征量zi,即为评价指数,进而以zi的差异水平作为评估的依据,分析确定评估结果,或者以zi和样本序号的散点图进行直观的分类评估。本研究根据投影值的大小来对各河湖的营养化程度进行综合评价分析,投影值的大小反应了河湖的营养程度,即综合投影值越大,河湖的营养化程度就越大,富营养化发生的概率就越大。
2 实例分析
近年来,随着北京市经济和人口的发展,多数河湖处于中营养和富营养状态,其主要原因是北京城区河湖水体大范围营养盐过剩[8]。为便于资料的收集和结果的对比,本文选用文献[4]中21个河湖的4项富营养化指标的监测数据作为待评价样本,河湖营养状态评价标准如见表1第2列-5列。选取北京城区河湖的总氮tn(x1)、总磷tp(x2)、高锰酸盐指数codmn(x3)和叶绿素a chla(x4)作为评价指标,对北京市的21个河湖的营养化程度进行评价。
表1 北京市城区河湖营养化评价指标数据、标准化结果和评价结果
table 1 the assessment index date,the standardization on results and the assessment results of rivers and lakes in beijing
x1x2x3x4x*1x*2x*3x*4z(i)
团城湖0.3800.0233.45.5130.00770.00000.00000.08920.0240
八里庄桥0.6650.0623.713.1650.03450.02740.05560.40300.1463
麦钟桥0.4300.0353.95.9480.01240.00840.09260.10700.0786
西 海1.4210.2126.427.7200.10560.13290.55561.00000.6033
后 海0.7890.2326.724.2300.04620.14700.61110.85690.5621
前 海0.7740.2227.719.8860.04470.13990.79630.67870.6091
北海入口0.6590.1767.022.8900.03390.10760.66670.80190.5512
中南海入口0.3960.1226.123.7250.00920.06960.50000.83610.4448
中 海0.2980.0825.95.3450.00000.04150.4630.08230.2538
南 海0.3560.0595.710.0300.00550.02530.42590.27450.2728
筒子河0.4710.0896.911.2780.01630.04640.64810.32570.4056
松林闸2.3530.2795.58.0200.19320.18000.38890.19200.4436
三家店1.4550.0324.23.3380.10880.00630.14810.00000.1536
高 井1.3030.0264.19.05230.09450.00210.12960.23440.1805
罗道庄2.6600.1896.220.550.22210.11670.51850.70590.6022
玉渊潭入口1.4730.3005.78.8530.11050.19480.42590.22620.4130
二热闸1.0530.1545.520.0480.07100.09210.38890.68530.4167
右安门1.5810.1937.218.8800.12060.11950.70370.63740.6029
龙潭闸1.6080.2937.718.3780.12320.18990.79630.61680.6759
岳家花园3.4700.3278.525.7280.29820.21380.94440.91830.9480
高碑店10.9351.4458.819.5701.00001.00001.00000.66571.7782
选取的4个因子,总氮tn(x*1)、总磷tp(x*2)、高锰酸盐指数codmn(x*3)和叶绿素a chla(x*4)越大,富营养化发生的可能性越大,可以得到标准化后的数据(见表1第6列-9列)。
将标准化后的数据代入模型,并且结合统计软件dps中的投影综合评价模型,得到最大投影指标函数q(α)=0.6349,最佳投影方向为α=(0.7432,0.4258,0.4735,0.2052)。
将得到的最佳投影方向带入到公式(3)中,得到综合投影值z(i),将投影值作为河湖营养程度,则北京市城区河湖的营养化评价结果见表1的第10列。3 结果分析
由表1可以看出北京市各河湖的营养化程度从大到小排序依次为:高碑店、岳家花园、龙潭闸、前海、西海、右安门、罗道庄、后海、北海入口、中南海入口、松林闸、二热闸、筒子河、玉渊潭入口、南海、中海、高井、三家店、八里庄桥、麦钟桥、团城湖。文献[4]的排序为:高碑店、岳家花园、龙潭闸、前海、西海、右安门、罗道庄、后海、北海入口、松林闸、二热闸、筒子河、玉渊潭入口、中南海入口、南海、中海、高井、三家店、八里庄桥、麦钟桥、团城湖。总体的评价结果(见图1)与文献[4]基本一致。由于最大投影指标函数和最佳投影方向为α是结合统计软件dps中的投影综合评价模型得到的,并且软件中存在一定的系统误差,因此最后的总体评价结果与文献[4]有一些差别。
图1 北京市城区河湖营养化评价结果
传统的主成分分析法评价结果过于简单,而模糊综合评判虽然理论相对较为完善成熟,但在权重确定方面存在一定的不足;灰色系统评价方法能很好处理不确定性问题,但在评价指标体系方面,大多进行了归纳和简化,使得很多具体的问题被掩盖,不能全面真实地反映被评价河湖的营养状态。将综合投影值作为河湖营养化程度评价的依据,能直观的比较出各河湖间营养化程度的大小,具有一定的科学性及可操作性。另外,投影寻踪技术是将大样本数据应用到河湖营养状态评价模型中,并将高维数据投影到一维子空间上进行数据分析,能够找到观察数据结构的最佳角度,使模型的精度大大提高,也可以排除与数据结构和特征无关的,或关系很小的变量的干扰[9]。该模型既能根据样本本身寻求出各因子的重要程度(客观权重),又能根据决策者对某个(些)影响因子的偏好,对样本进行分类,解决了高维数据全局寻优的难题。尤为重点的是投影寻踪评价模型简单、直观和易于理解,因此它为涉及多因素的河湖营养状态评价提供了一条新思路。实际证明,该方法对河湖营养状态有较好的评价能力。因此,应用投影寻踪技术进行河湖营养状态评价,避免了上述方法的部分缺点。
投影寻踪技术在河湖营养状态评价应用中还存在一些问题:如,由于缺乏一定的标准,对最后结果的分析只能进行各河湖的比较,而不能直接判定营养化程度的大小。
参考文献:
[1] 胡国成.我国内陆水体富营养化的原因及其治理方法[j].
关键词:投影寻踪;城市河湖;富营养化
application of projection pursuit technique in assessment of nutritional status of urban rivers and lakes
zhang wei-na ,li pei-lei ,zhang lin ,cao yong-qiang
( of urban planning and environmental science,liaoning normal university,dalian 116029,china;
pment research center of the ministry of water resources,beijing 100038,china;
an institute of environmental sciences,jilin province,liaoyuan 136200,china)
abstract:the thesis applies the projection pursuit technology to the assessment of nutritional status of rivers and lakes,the linear projection to the factors of assessment samples,takes the projector feature corresponded with optimal projection direction as evaluating basis,establishes assessment model of nutritional status of the rivers and lakes. and selects the total nitrogen,total phosphorus, chemical oxygen demand and chlorophyll a as the assessment index,evaluates the nutritional status of 21 observation points of rivers and lakes in results show that projection pursuit technology has a better evaluation capacity for assessment of nutritional status of rivers and lakes.
key words: projection pursuit;urban rivers and lakes;eutrophication
随着城市和工业的不断发展,大量未经处理的生活污水和工农业废水流入湖泊和江河中,使湖泊中的氮、磷等营养物质不断积累,促使部分藻类以及其它水生生物异常大量繁殖,使水体功能遭到破坏,进而导致水体富营养化。水体富营养化可导致河水生生态结构的破坏,并加快河湖等水体的老化过程[1]。国内外学者在河湖富营养方面做了大量研究工作[2-3],对水体的富营养状态有不同的评价方法,其中应用较多的是营养状态指数法。杜桂森[4]利用tsim的指数计算公式,计算取样水体中总氮、总磷、高锰酸盐指数和叶绿素a四项指标的tsim指数,然后根据判别标准分析河湖的营养化。投影寻踪技术为处理多因素复杂评价问题提供了新途径。近年来,投影寻踪技术被广泛应用于各种评价中,本文尝试将投影寻踪技术应用到北京河湖营养状态评价中,把投影特征量作为评价依据对营养程度进行评价。
1 投影寻踪评估模型
投影寻踪的基本思路是:将高维数据投影到低维子空间上,然后通过优化投影指标函数,求出能反映原高维数据结构或特征的投影向量,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的,其中投影指标函数的构造及优化、数学模型的建立是应用投影寻踪解决实际问题的关键。设第i个样本第j个指标x*(i,j)(i=1,2,…,n;j=1,2…m.n为样本数,m为指标数),用投影寻踪建立河湖营养状态评价模型的步骤如下[5-7]。
1.1 评价指标的标准化
选取适当的评价指标后,对数据进行归一化处理。不同的指标类型对河湖营养状态的影响趋势不同,对于数值越大,河湖营养化越强,造成富营养化的危险性越大的指标,即正向指标采用公式(1)进行处理;对于反向指标则采用公式(2)进行处理。
x(i,j)=x*(i,j)-xmin(j)xmax(j)-xmin(j)(1)
x(i,j)=xmax(j)-x*(i,j)xmax(j)-xmin(j)(2)
式中:xmin(j),xmax(j)—第j个指标值的最小值和最大值;x(i,j)—指标特征值归一化序列。
1.2 线性投影
设α=(α1,α2,…,m)为m维单位向量,也即为各指标的投影方向的一维投影值,则第i个样本在一维线性空间的投影特征值z(i)的表达式为:
z(i)=∑mj=1αjxtj(i=1,2,…,n)(3)
在综合投影指标值时,要求投影值z(i)的散布特征为局部投影点尽可能密集,最好凝聚成若干个点团,而在整体上投影点团之间尽可能散开。为了将样本间的富营养化程度区分开,可以用分类指标作为目标函数:
q(α)=szdz(4)
式中:s2—样本投影z(i)值的标准差;dz—投影值z(i)的局部密度。
sz∑ni=1(z(i)-z)2n-1(5)
dz=∑ni=1∑nk=1(r-rik)•i(r-rik)(6)
式中:—序列{z(i)|i=1,2,…,n}的均值;r—局部密度的窗口半径,与数据特性有关,研究表明其取值范围为rmax+m2≤r≤2 m,通常可取r=m;rik=|z(i)-z(k)|(k=1,…,n);i(r-rik)—单位阶跃函数,当r≥rik时函数值取1,否则取0。
当评价指标的样本值给定时,投影指标函数q(α)只随投影方向α的变化而变化。不同的投影方向反映不同的数据结构特征,最佳投影方向就是最大可能暴露高维数据某类特征结构的投影方向。因此,可通过求解投影指标函数最大化问题来估计最佳投影方向,即:
目标函数:maxq(α)=szdz (7)
约束条件:∑mj=1α2(j)=1(8)
1.4 评价
将得到的最佳投影方向α代入到式(3)中,便可得到反映各评估指标综合信息的投影特征量zi,即为评价指数,进而以zi的差异水平作为评估的依据,分析确定评估结果,或者以zi和样本序号的散点图进行直观的分类评估。本研究根据投影值的大小来对各河湖的营养化程度进行综合评价分析,投影值的大小反应了河湖的营养程度,即综合投影值越大,河湖的营养化程度就越大,富营养化发生的概率就越大。
2 实例分析
近年来,随着北京市经济和人口的发展,多数河湖处于中营养和富营养状态,其主要原因是北京城区河湖水体大范围营养盐过剩[8]。为便于资料的收集和结果的对比,本文选用文献[4]中21个河湖的4项富营养化指标的监测数据作为待评价样本,河湖营养状态评价标准如见表1第2列-5列。选取北京城区河湖的总氮tn(x1)、总磷tp(x2)、高锰酸盐指数codmn(x3)和叶绿素a chla(x4)作为评价指标,对北京市的21个河湖的营养化程度进行评价。
表1 北京市城区河湖营养化评价指标数据、标准化结果和评价结果
table 1 the assessment index date,the standardization on results and the assessment results of rivers and lakes in beijing
x1x2x3x4x*1x*2x*3x*4z(i)
团城湖0.3800.0233.45.5130.00770.00000.00000.08920.0240
八里庄桥0.6650.0623.713.1650.03450.02740.05560.40300.1463
麦钟桥0.4300.0353.95.9480.01240.00840.09260.10700.0786
西 海1.4210.2126.427.7200.10560.13290.55561.00000.6033
后 海0.7890.2326.724.2300.04620.14700.61110.85690.5621
前 海0.7740.2227.719.8860.04470.13990.79630.67870.6091
北海入口0.6590.1767.022.8900.03390.10760.66670.80190.5512
中南海入口0.3960.1226.123.7250.00920.06960.50000.83610.4448
中 海0.2980.0825.95.3450.00000.04150.4630.08230.2538
南 海0.3560.0595.710.0300.00550.02530.42590.27450.2728
筒子河0.4710.0896.911.2780.01630.04640.64810.32570.4056
松林闸2.3530.2795.58.0200.19320.18000.38890.19200.4436
三家店1.4550.0324.23.3380.10880.00630.14810.00000.1536
高 井1.3030.0264.19.05230.09450.00210.12960.23440.1805
罗道庄2.6600.1896.220.550.22210.11670.51850.70590.6022
玉渊潭入口1.4730.3005.78.8530.11050.19480.42590.22620.4130
二热闸1.0530.1545.520.0480.07100.09210.38890.68530.4167
右安门1.5810.1937.218.8800.12060.11950.70370.63740.6029
龙潭闸1.6080.2937.718.3780.12320.18990.79630.61680.6759
岳家花园3.4700.3278.525.7280.29820.21380.94440.91830.9480
高碑店10.9351.4458.819.5701.00001.00001.00000.66571.7782
选取的4个因子,总氮tn(x*1)、总磷tp(x*2)、高锰酸盐指数codmn(x*3)和叶绿素a chla(x*4)越大,富营养化发生的可能性越大,可以得到标准化后的数据(见表1第6列-9列)。
将标准化后的数据代入模型,并且结合统计软件dps中的投影综合评价模型,得到最大投影指标函数q(α)=0.6349,最佳投影方向为α=(0.7432,0.4258,0.4735,0.2052)。
将得到的最佳投影方向带入到公式(3)中,得到综合投影值z(i),将投影值作为河湖营养程度,则北京市城区河湖的营养化评价结果见表1的第10列。3 结果分析
由表1可以看出北京市各河湖的营养化程度从大到小排序依次为:高碑店、岳家花园、龙潭闸、前海、西海、右安门、罗道庄、后海、北海入口、中南海入口、松林闸、二热闸、筒子河、玉渊潭入口、南海、中海、高井、三家店、八里庄桥、麦钟桥、团城湖。文献[4]的排序为:高碑店、岳家花园、龙潭闸、前海、西海、右安门、罗道庄、后海、北海入口、松林闸、二热闸、筒子河、玉渊潭入口、中南海入口、南海、中海、高井、三家店、八里庄桥、麦钟桥、团城湖。总体的评价结果(见图1)与文献[4]基本一致。由于最大投影指标函数和最佳投影方向为α是结合统计软件dps中的投影综合评价模型得到的,并且软件中存在一定的系统误差,因此最后的总体评价结果与文献[4]有一些差别。
图1 北京市城区河湖营养化评价结果
投影寻踪技术在河湖营养状态评价应用中还存在一些问题:如,由于缺乏一定的标准,对最后结果的分析只能进行各河湖的比较,而不能直接判定营养化程度的大小。
参考文献:
[1] 胡国成.我国内陆水体富营养化的原因及其治理方法[j].
上一篇:中国生态环境安全