统计异常检测论文

2个回答默认排序

默认排序

按时间排序

一森有你

已采纳

动态图上的异常检测任务包括：发现异常的对象、关系、时点。动态图上的异常检测与静态图上的异常检测不同的地方在于：

本文首先将异常类型分为：anomalous vertices, edges, subgraphs, and events(or change)，将使用的方法分为：community detection, MDL(minimum description length) and compression, decompression, distance, probabilistic，按每种方法使用的异常类型进行了文献学分类。各方法的主要参考文献见表1：

本文假设不同时点的节点和边都有唯一标签从而不会混淆，定义为图序列，其中为总时间步，，为节点集，为边集，时称为图流。本文的主要记号见表2：

给定，节点集 ,打分函数，定义异常节点集为，使得对于，，其中为得分的摘要式统计。

一个典型的异常节点如图1，其可由基于社区检测的方法识别，即：其中为节点所属的社会划分, 为异或操作。

给定，边集 ,打分函数，定义异常边集为，使得对于，，其中为得分的摘要式统计。

一个典型的异常边如图2，可令，其中为时间步时的权重,可以为边的概率。

给定，子图集 ,打分函数，定义异常集为，使得对于，，其中为得分的摘要式统计。

两种典型的异常子图如图3,其中(a)为图的收缩，(b)为图的分裂。图的收缩可根据子图中的的数量衡量，即，图的分裂可由不同时间点社区的数量衡量。

与异常节点、边、子图检测不同，异常事件或异常突变检测检验的是时点。

给定 ,打分函数，若时点满足: ，，则称时点为一个事件。

给定 ,打分函数，若时点满足: ，，则称时点为一个突变。

通常的异常检测都使用两步法：第一步，基于特征的图表示；第二，基于机器学习的异常检测。

基于社区检测的方法关注的是社区和关联节点的演化过程，特征向量的生成亦基于图中的社区结构。不同社区检测方法的区别在于：（1）社区结构的领域，如社区内的连接性.单个节点在每一步所属的社区；(2)社区结构的定义，如基于概率的软社区定义.硬社区定义。基于社区检测的方法可用于异常定点、子图、突变的检测。

基于软社区匹配并单独考察每一个社区，我们可以在连续时间步内计算每个节点归属的平均变化，如果某个节点归属的平均变化显著异于其他节点，则称其为演化社区异常点。

节点社区归属的变化可以构造一个时间模式，称为软时序模式。一些文献使用了最小描述长度(MDL)结合非负矩阵分解的方法来自动检测节点角色及构造转移模型。多数文献通过抽取图中不同节点的共同模式，并比较每个节点与共同模式之间的差异来定义异常节点。部分文献使用了交替迭代优化替代常用的两步法。部分文献使用了corenet的概念，该概念不同于单纯使用density,modularity,hop-distance等概念，而是使用了节点间的加权路径，即一个节点的corenet包含该节点与权重大于给定阈值的两跳邻居。假设两个强连接的节点通常属于同一社区，则如果移除一个节点的两个邻居，一个邻域具有较高的边权重，另一个具有较低的边权重，则移除较高权重邻居的影响应更大，在每一步，每个节点首先被赋予一个异常得分，该得分衡量了其corenet的变化，异常得分较高的各节点将被视为异常节点。

文献【69】定义了六种基于社区的异常：shrink, grow, merge, split, born, and vanish。其使用图和社区代表(representatives)进行比较以减少计算量，图代表为出现在t时刻，同时还出现在t-1、t+1或t+1与t-1时刻的节点集，社区代表是出现在其他社区最少的定点集合，基于社区代表和图代表，基于规则，判断社区是否落在六种异常中。

文献【73】定义了一种基于社区的异常：comet，周期性出现或消失的社区，演化图可表示为一个张量，然后基于低秩张量分解和MDL原则进行comet检测。

文献【3】基于多种信息源构造时序复网络，识别跨时间和网络的稳定社区结构。行为相似的网络可以用聚类或前验知识分组，如何一个社区结构在组内跨时间步稳定，但在组外没有对应社区，则该社区即为异常，如何两个社区共享一定比例的定点则称为对应。

社交网络可以根据特定时间窗口内的发文量定义事件，一个经历共同事件的组即构成一个异常子图。

通过划分图流为一致的分割来检测，分割是依据划分的相似性。

通过将最新图的顶点分区与当前增长分割中的图的分区进行比较，可以在线找到这些分割。【67】基于可返回随机的相关矩阵和modularity最大化来进行定点划分，当新图的划分与当前分割的划分有很大不同时，一个新段开始，并将新图的时间点输出为检测到的突变。两个划分的相似度使用Jaccard系数定义。GraphScope思路类似，但基于MDL来指导划分和分割。

基于MDL原则和基于该原则的压缩技术利用数据中的模式和规律性实现紧凑的图表示，其主要通过将图的邻接矩阵表示为一个二进制串，如果矩阵的行和列可以重新排列使矩阵的二进制字符串表示的熵最小化，那么压缩损失（也称为编码损失）就会最小化。数据指向的特征都来自于图或其特定子结构的编码代价；因此，异常被定义为抑制可压缩性的图或子结构（如边）

对于一条边和对应子图，如果包含该边的编码损失比不包含该边的编码损失高，则称该边为异常边。

【74】使用了一种两步交替迭代法进行节点的自动划分，当节点划分的熵收敛时，根据包含和不包含该边的编码损失，该方法也给出了边的异常度得分。

突变检测的主要思路是:连续时间步间的图是相似的，因而可以分为一组，从而降低压缩比。压缩比的上升表明新一个时间步的图与已有的图差异明显，因此是一个突变。

该方法将图集合表示为一个tensor，在该tensor上进行矩阵分解或降维，基于分解或降维后的图发现其模式和规律性，该方法可以融合更多属性信息，最常用的方法是SVD和PARAFAC（广义SVD）。

矩阵分解可用于计算每个节点的活跃（activity)向量，如果某个节点的活跃向量在连续时间步间变化明显，则称为异常节点。

【87】首先抽取每个节点的边相关矩阵，即该节点的每个邻域都有一行一列，对于节点的矩阵中的一个entry 代表了边和间加权频率的相关性，加权频率由衰减函数获得，时间越近权重越高。M的最大特征值和对应特征向量即顶点的活跃向量的summary及边的相关性。通过寻找这些值的变化而形成的时间序列用于计算每个时间步长中每个顶点的分数，得分高于阈值的顶点将被输出为异常。

基于分解的异常事件检测有两种方法：（1）先基于分解方法来近似原始数据，然后以重建损失作为近似优劣的指标。如果某个子张量、切片或元素的重建损失很高，则即可以视其与周围数据不同特征不同，将其标记为异常事件、子图或节点。（2）跟踪奇异值和向量，以及特征值和特征向量，以检测异常顶点的显著变化。

为解决 intermediate blowup 问题（即计算中输入和输出张量超过内存限制），【81】提出了momery-efficient tucker（MET）分解方法，该方法源于Tucker分解，Tucker分解将高阶tensor用一个core tensor和每个mode(维度)矩阵表示。【80】使用了Compact Matrix Decomposition(CMD)，其可以用来计算给定矩阵的稀疏低秩矩阵。使用CMD对图流中的每个邻接矩阵进行分解，可得到重建值的时间序列，基于重建值序列可进程事件检测，典型应用有COLIBRI, PARCUBE，其中后者在斑点(spotting)异常中的表现更高效。

【84】使用了随机图模型进行基于概率模型的检测，其将真实图邻接矩阵和期望图的邻接矩阵间的差异构造为残差矩阵，对残差矩阵执行SVD，再使用线性Ramp滤波器，基于top奇异值即可进行异常时间窗口检测，通过检查正确的奇异向量来确定相应的顶点。

除以上方法，我们还可以基于分解空间的显著变化来识别事件。【77】通过对数据执行PCA，计算的特征向量可以分为正常和异常两个集合，方法是检验数据中的值映射到特征向量。在每个时间步，根据特征值对特征向量进程降序排列，第一个特征向量则包含一个在其余值的3个标准差之外的投影点，此后的每个特征向量，都构成了异常集。第二步即是将数据映射到正常和异常子空间，一旦完成了这些操作，当从上一个时间步长到当前时间步异常成分的修改超过一个阈值时，即将其视为一个事件。【83】扩展了该方法，提出了联合稀疏PCA和图引导的联合稀疏PCA来定位异常和识别对应的顶点。通过为异常集使用稀疏的成分集，可以更容易识别负责的顶点。顶点根据它们在异常子空间中对应行的值得到一个异常分数，由于异常分量是稀疏的，不异常的顶点得分为0。

图的活跃向量为主成分，左奇异向量对应最大奇异值，奇异值和奇异向量通过对加权邻接矩阵进行SVD得到。当活跃向量大幅异于“正常活跃"向量时，即定义该时点为突变点，”正常活跃“向量由前序向量得到。

正常活跃向量，它是对最后W时间步中活动向量形成的矩阵进行SVD得到的左奇异向量。每个时点都定义一个得分 ,其代表了当前活跃向量与正常向量的差异。异常可以使用动态阈值方案在线发现，其中得分高于阈值的时间点被输出为变化。通过计算正常向量和活动向量之间的变化比率来找到负责的顶点，与变化最大的索引所对应的顶点被标记为异常，类似的方法也可以用于节点-节点相关矩阵的活跃向量，或基于邻居相似度的节点-节点相关矩阵。

基于距离的异常检测算法的不同点在于选择用于提取和比较距离度量，以及它们用于确定异常值和相应图的方法。

如果一些边的属性演化异于正常演化，则该边就是一个异常边。

边之间的权重使用衰减函数定义，在每个时间步长中，根据相似度得分的变化之和计算每条边的异常值得分，使用阈值或简单的作为异常值标准。

将网络视为边的流，意味着网络没有固定的拓扑，一个边的频率和持久性可以用来作为其新颖性的指标，【48】定义了集合系统不一致性指标来度量频率和持久性，当一条边到达时，计算其差异，并与活动边集的平均不一致性值进行比较，如果边的加权不一致性大于平均不一致性的阈值水平，则声明该边为异常边，基于异常边，可以进一步识别其他异常图元素（如顶点，边，子图）。

具有许多“异常”边的子图即是异常的子图。

【52】将边的权重视为异常得分，每个时间步长上的每条边都有它自己的异常分数，给定了该边权值在所有图序列的分布，该分数表示在该特定的边上看到该特定权值的概率函数。或者，为网络中的边分配异常值分数的现有方法的输出可以用作为该方法的输入。后一种方法允许应用于任何能够为边分配异常值分数的网络，一旦完成每条边的异常打分，即可发现显著异常的区域（SARs），即一个窗口内的固定子图，其类似于HDSs。【112】提出了一种迭代算法，该算法首先固定子图发现最优时间窗口，然后固定时间窗口发现最优子图。【97】拓展了该方法，允许子图渐变，即在相邻时间步间增加或移除顶点。

定义函数为测度图距离的函数，将其应用于连续图序列，即得到距离序列，基于该距离序列应用一些启发式算法（如基于移动平均阈值的取值）即可得到异常事件。

称每个顶点及其egonet的特征为局部特征，整张图的特征为全局特征。每个顶点的局部特征可聚合为一个向量，基于该向量的各阶矩可构造signature向量，利用signature向量间的Canberra距离（归一化的曼哈顿距离）可构造图之间的距离函数【93】。【92】利用全局特征，定义了一种基于dK-2序列的距离测度，将高于阈值的特征视为异常点。

【96】使用了顶点亲和度（即一个顶点对另一个顶点的影响，可以用于快速信念传播）得分作为signature向量，其基于连续时间步技术顶点亲和度，基于马氏距离度量两个图的相似度，亲和度得分的变化反应并适应变化的影响水平，例如桥边的移除比正常边移除的得分更高。利用单个移动范围的质量控制，可以对相似度得分的时间序列设置一个移动阈值，如指数移动平均加权。

作为特征相似度的补充，我们也可以比较两个图的结构差异来度量突变的大小，这类方法致力于发现定义距离的函数而非发现特征向量。【88】计算了异常网络的10种距离函数，使用ARMA模型构造特征值的正常模型，然后基于正常模型计算时点的残差，残差超过给定阈值的时间即可标记为异常。10种距离函数中，基于最大共有子图的方法表现最好。【90】使用了五中得分函数（顶点/边重叠，顶点排序，向量相似度，序列相似度，signature相似度）来检测三种异常（子图缺失，顶点缺失，连通性变化），表现最好的方案是抽取每个顶点和边的特征构造signature向量，使用SimHash定义距离。

我们还可以通过计算每个图的稳健性序列来检测事件，稳健性序列是图连通性的测度，具有高稳健性的图即使在去除一些顶点或边的情况下，也能保持相同的一般结构和连通性，事件检测即发现稳健性值异常变化的时点【95】。【89】使用的是图半径的变体作为稳健性指标，图半径的定义是基于所有顶点的平均离心度，而非常用的最大离心度。

基于概率理论、分布、扫描统计学等方法可以构造“正常”样本的模型，偏离该模型的样本即视为异常，这类方法的主要区别在于构造方法、建模对象、离群值定义。

主要有两种方法：一，构造扫描统计时间序列并检测离均值若干标准差的点；二，顶点分类。

扫描统计常称为滑动窗口分析，其在数据的特征区域中发现测度统计量的局部最小或最大值。对某个特定图，扫描统计量可以是图不变特征的最大值，如边的数量。

【8】使用了一个适应测度统计量的变量，即每个节点的0-2度邻居数，然后对每个顶点的局部统计量使用近期值的均值和标准差进行标准化，图的扫描统计量即最大的标准化局部统计量。标准化可以解释每个顶点的历史信息，代表每个顶点的统计量只与自己的历史信息有关而与其他顶点无关。这保证测度的最大变化与变化的绝对量无关而与比例有关。基于扫描统计量标准化时间序列，将序列均值的五个标准差作为异常值。最负责的顶点被确定为为整个图的扫描统计值所选择的顶点。

类似于使用邻居进行扫描统计，我们还可以用Markov随机场（MRF）来发现节点的状态，并通过信念传播算法推断最大似然分配，其中，每个顶点标签取决于其邻居节点。【99】通过发现二部核来检测异常点（即犯），二部核定义为犯与从犯间的交互。利用边的插入或删除只影响局部子图这一事实，它在添加新边时逐步更新模型。在传播矩阵中，一个顶点可以处于三种状态之一：欺诈者、共犯者或诚实者。

边异常检测通常使用计数过程建模，统计上显著异于该模型的边标记为异常边。

【50】用贝叶斯离散时间计数过程来建模顶点间的通信次数（边权重），并根据新图更新模型。基于学习到的计数的分布，对新观测的边进行预测值计算，基于值标记异常顶点对。

首先用固定的子图，多重图，累积图来构造预期行为的模型，对模型的偏离可作为子图异常检测的依据。

【104】结合扫描统计量和隐马尔可夫模型（HMM）建模边行为，其使用的局部扫描统计量是基于两种图形状：k-path图和星型图，其将滑动窗口的扫描统计数据与其过去的值进行比较，并使用在线阈值系统识别局部异常，局部异常是所有统计上显著的子图(代表k个路径或恒星)的并集。

另一个建模动态图的方法是基于多重图，其中平行边对应于两个连续时间步顶点间的通信，初始的多重图可分解为多个针对每个时间窗口的叠套子图（TSG），TSG满足两个条件：（1）对于任何两个有共同点的边，首先开始通信的边最后完成通信；（2）存在一个根顶点r，它没有传入的边，并且有一条到TSG中每个顶点的路径。出现概率低的TSG视为异常子图。【102】

累积图即为包含直到当前时点的所有边的图，边权重依据衰减函数定义，通过识别“持久模式”来定义子图的正常行为。该持久模型识别模型如下：首先构造一种图，该图每个边根据时间来加权，然后基于该图迭代抽取最重连接成分来发现。随着累积图的发展，提取的子图将被监控，并将其当前活动与基于最近行为的预期活动进行比较来进行子图异常检测。【101】

事件检测可以基于偏离图似然模型或特征值分布的偏差来进行。

【103】提出了一种新的蓄水池抽样方法来抽取图流的结构摘要，这种在线抽样方法维持多个网络划分以构造统计上显著的摘要，当一个新图进入图流，每个边都根据不同分区的边生成模型计算出一种似然性，然后以这些似然性的几何均值作为全局图似然性。

【98】使用了类似的边生成模型，每个边的概率都存储在矩阵中，概率基于期望最大化估计，基于所有收发对的分布，然后为每个收发对给出潜在得分，基于所有边似然得分的均值即得到每个图的得分。

【100】计算了特征值和压缩特征等式的分布（而非计算收发对的分布），基于每个顶点都存在一个顶点局部特征时间序列的假设，可在每个时间步构造一个顶点-顶点相关矩阵，通过保留最大特征值和一组低维矩阵（每个顶点对应一个矩阵），可对相关矩阵的特征方程进行压缩，通过学习特征值和矩阵的分布，即可发现异常顶点和事件。当特征值偏离期望分布时，即认为发生了事件，当顶点的矩阵偏离矩阵分布时，可认为该顶点为异常顶点。

291 评论 1小时前发布

佐鉺三鉺洞

在统计学中，统计模型是指当有些过程无法用理论分析方法导出其模型，但可通过试验或直接由工业过程测定数据，经过数理统计法求得各变量之间的函数关系。下文是我为大家整理的关于统计模型论文的范文，欢迎大家阅读参考!

统计套利模型的理论综述与应用分析

【摘要】统计套利模型是基于数量经济学和统计学建立起来的，在对历史数据分析的基础之上，估计相关变量的概率分布，并结合基本面数据对未来收益进行预测，发现套利机会进行交易。统计套利这种分析时间序列的统计学特性，使其具有很大的理论意义和实践意义。在实践方面广泛应用于个对冲基金获取收益，理论方面主要表现在资本有效性检验以及开放式基金评级，本文就统计套利的基本原理、交易策略、应用方向进行介绍。

【关键词】统计套利成对交易应用分析

一、统计套利模型的原理简介

统计套利模型是基于两个或两个以上具有较高相关性的股票或者其他证券，通过一定的方法验证股价波动在一段时间内保持这种良好的相关性，那么一旦两者之间出现了背离的走势，而且这种价格的背离在未来预计会得到纠正，从而可以产生套利机会。在统计套利实践中，当两者之间出现背离，那么可以买进表现价格被低估的、卖出价格高估的股票，在未来两者之间的价格背离得到纠正时，进行相反的平仓操作。统计套利原理得以实现的前提是均值回复，即存在均值区间(在实践中一般表现为资产价格的时间序列是平稳的，且其序列图波动在一定的范围之内)，价格的背离是短期的，随着实践的推移，资产价格将会回复到它的均值区间。如果时间序列是平稳的，则可以构造统计套利交易的信号发现机制，该信号机制将会显示是否资产价格已经偏离了长期均值从而存在套利的机会在某种意义上存在着共同点的两个证券(比如同行业的股票)，其市场价格之间存在着良好的相关性，价格往往表现为同向变化，从而价格的差值或价格的比值往往围绕着某一固定值进行波动。

二、统计套利模型交易策略与数据的处理

统计套利具体操作策略有很多，一般来说主要有成对/一篮子交易，多因素模型等，目前应用比较广泛的策略主要是成对交易策略。成对策略，通常也叫利差交易，即通过对同一行业的或者股价具有长期稳定均衡关系的股票的一个多头头寸和一个空头头寸进行匹配，使交易者维持对市场的中性头寸。这种策略比较适合主动管理的基金。

成对交易策略的实施主要有两个步骤：一是对股票对的选取。海通证券分析师周健在绝对收益策略研究―统计套利一文中指出，应当结合基本面与行业进行选股，这样才能保证策略收益，有效降低风险。比如银行，房地产，煤电行业等。理论上可以通过统计学中的聚类分析方法进行分类，然后在进行协整检验，这样的成功的几率会大一些。第二是对股票价格序列自身及相互之间的相关性进行检验。目前常用的就是协整理论以及随机游走模型。

运用协整理论判定股票价格序列存在的相关性，需要首先对股票价格序列进行平稳性检验，常用的检验方法是图示法和单位根检验法，图示法即对所选各个时间序列变量及一阶差分作时序图，从图中观察变量的时序图出现一定的趋势册可能是非平稳性序列，而经过一阶差分后的时序图表现出随机性，则序列可能是平稳的。但是图示法判断序列是否存在具有很大的主观性。理论上检验序列平稳性及阶输通过单位根检验来确定，单位根检验的方法很多，一般有DF，ADF检验和Phillips的非参数检验(PP检验)一般用的较多的方法是ADF检验。

检验后如果序列本身或者一阶差分后是平稳的，我们就可以对不同的股票序列进行协整检验，协整检验的方法主要有EG两步法，即首先对需要检验的变量进行普通的线性回归，得到一阶残差，再对残差序列进行单位根检验，如果存在单位根，那么变量是不具有协整关系的，如果不存在单位根，则序列是平稳的。EG检验比较适合两个序列之间的协整检验。除EG检验法之外，还有Johansen检验，Gregory hansan法，自回归滞后模型法等。其中johansen检验比较适合三个以上序列之间协整关系的检验。通过协整检验，可以判定股票价格序列之间的相关性，从而进行成对交易。

Christian L. Dunis和Gianluigi Giorgioni(2010)用高频数据代替日交易数据进行套利，并同时比较了具有协整关系的股票对和没有协整关系股票对进行套利的立即收益率，结果显示，股票间价格协整关系越高，进行统计套利的机会越多，潜在收益率也越高。

根据随机游走模型我们可以检验股票价格波动是否具有“记忆性”，也就是说是否存在可预测的成分。一般可以分为两种情况：短期可预测性分析及长期可预测性分析。在短期可预测性分析中，检验标准主要针对的是随机游走过程的第三种情况，即不相关增量的研究，可以采用的检验工具是自相关检验和方差比检验。在序列自相关检验中，常用到的统计量是自相关系数和鲍克斯-皮尔斯 Q统计量，当这两个统计量在一定的置信度下，显著大于其临界水平时，说明该序列自相关，也就是存在一定的可预测性。方差比检验遵循的事实是：随机游走的股价对数收益的方差随着时期线性增长，这些期间内增量是可以度量的。这样，在k期内计算的收益方差应该近似等于k倍的单期收益的方差，如果股价的波动是随机游走的，则方差比接近于1;当存在正的自相关时，方差比大于1;当存在负的自相关是，方差比小于1。进行长期可预测性分析，由于时间跨度较大的时候，采用方差比进行检验的作用不是很明显，所以可以采用R/S分析，用Hurst指数度量其长期可预测性，Hurst指数是通过下列方程的回归系数估计得到的：

Ln[(R/S)N]=C+H*LnN

R/S 是重标极差，N为观察次数，H为Hurst指数，C为常数。当H>时说，说明这些股票可能具有长期记忆性，但是还不能判定这个序列是随机游走或者是具有持续性的分形时间序列，还需要对其进行显著性检验。

无论是采用协整检验还是通过随机游走判断，其目的都是要找到一种短期或者长期内的一种均衡关系，这样我们的统计套利策略才能够得到有效的实施。

进行统计套利的数据一般是采用交易日收盘价数据，但是最近研究发现，采用高频数据(如5分钟，10分钟，15分钟，20分钟收盘价交易数据)市场中存在更多的统计套利机会。日交易数据我们选择前复权收盘价，而且如果两只股票价格价差比较大，需要先进性对数化处理。Christian L. Dunis和Gianluigi Giorgioni(2010)分别使用15分钟收盘价，20分钟收盘价，30分以及一个小时收盘价为样本进行统计套利分析，结果显示，使用高频数据进行统计套利所取得收益更高。而且海通证券金融分析师在绝对收益策略系列研究中，用沪深300指数为样本作为统计套利配对交易的标的股票池，使用高频数据计算累计收益率比使用日交易数据高将近5个百分点。

三、统计套利模型的应用的拓展―检验资本市场的有效性

Fama(1969)提出的有效市场假说，其经济含义是:市场能够对信息作出迅速合理的反应,使得市场价格能够充分反映所有可以获得的信息,从而使资产的价格不可用当前的信息进行预测,以至于任何人都无法持续地获得超额利润.通过检验统计套利机会存在与否就可以验证资本市场是有效的的，弱有效的，或者是无效的市场。徐玉莲(2005)通过运用统计套利对中国资本市场效率进行实证研究，首先得出结论：统计套利机会的存在与资本市场效率是不相容的。以此为理论依据，对中国股票市场中的价格惯性、价格反转及价值反转投资策略是否存在统计套利机会进行检验，结果发现我国股票市场尚未达到弱有效性。吴振翔，陈敏(2007)曾经利用这种方法对我国A股市场的弱有效性加以检验，采用惯性和反转两种投资策略发现我国A股若有效性不成立。另外我国学者吴振翔，魏先华等通过对Hogan的统计套利模型进行修正，提出了基于统计套利模型对开放式基金评级的方法。

四、结论

统计套利模型的应用目前主要表现在两个方面：1.作为一种有效的交易策略，进行套利。2.通过检测统计套利机会的存在，验证资本市场或者某个市场的有效性。由于统计套利策略的实施有赖于做空机制的建立，随着我股指期货和融资融券业务的推出和完善，相信在我国会有比较广泛的应用与发展。

参考文献

[1] . Burgess：A computational Methodolology for Modelling the Dynamics of statistical arbitrage, London business school,PhD Thesis,1999.

[2]方昊.统计套利的理论模式及应用分析―基于中国封闭式基金市场的检验.统计与决策,2005,6月(下).

[3]马理,卢烨婷.沪深 300 股指期货期现套利的可行性研究―基于统计套利模型的实证.财贸研究,2011,1.

[4]吴桥林.基于沪深 300 股指期货的套利策略研究[D].中国优秀硕士学位论文.2009.

[5]吴振翔,陈敏.中国股票市场弱有效性的统计套利检验[J].系统工程理论与实践.2007,2月.

关于半参统计模型的估计研究

【摘要】随着数据模型技术的迅速发展，现有的数据模型已经无法满足实践中遇到的一些测量问题，严重的限制了现代科学技术在数据模型上应用和发展，所以基于这种背景之下，学者们针对数据模型测量实验提出了新的理论和方法，并研制出了半参数模型数据应用。半参数模型数据是基于参数模型和非参数模型之上的一种新的测量数据模型，因此它具备参数模型和非参数模型很多共同点。本文将结合数据模型技术，对半参统计模型进行详细的探究与讨论。

【关键词】半参数模型完善误差测量值纵向数据

本文以半参数模型为例，对参数、非参数分量的估计值和观测值等内容进行讨论，并运用三次样条函数插值法得出非参数分量的推估表达式。另外，为了解决纵向数据下半参数模型的参数部分和非参数部分的估计问题，在误差为鞅差序列情形下，对半参数数据模型、渐近正态性、强相合性进行研究和分析。另外，本文初步讨论了平衡参数的选取问题，并充分说明了泛最小二乘估计方法以及相关结论，同时对半参数模型的迭代法进行了相关讨论和研究。

一、概论

在日常生活当中，人们所采用的参数数据模型构造相对简单，所以操作起来比较容易;但在测量数据的实际使用过程中存在着相关大的误差，例如在测量相对微小的物体，或者是对动态物体进行测量时。而建立半参数数据模型可以很好的解决和缓解这一问题：它不但能够消除或是降低测量中出现的误差，同时也不会将无法实现参数化的系统误差进行勾和。系统误差非常影响观测值的各种信息，如果能改善，就能使其实现更快、更及时、更准确的误差识别和提取过程;这样不仅可以提高参数估计的精确度，也对相关科学研究进行了有效补充。

举例来说，在模拟算例及坐标变换GPS定位重力测量等实际应用方面，体现了这种模型具有一定成功性及实用性;这主要是因为半参数数据模型同当前所使用的数据模型存在着一致性，可以很好的满足现在的实际需要。而新建立的半参数模型以及它的参数部分和非参数部分的估计，也可以解决一些污染数据的估计问题。这种半参数模型，不仅研究了纵向数据下其自身的t型估计，同时对一些含光滑项的半参数数据模型进行了详细的阐述。另外，基于对称和不对称这两种情况，可以在一个线性约束条件下对参数估计以及假设进行检验，这主要是因为对观测值产生影响的因素除了包含这个线性关系以外，还受到某种特定因素的干扰，所以不能将其归入误差行列。另外，基于自变量测量存在一定误差，经常会导致在计算过程汇总，丢失很多重要信息。

二、半参数回归模型及其估计方法

这种模型是由西方著名学者Stone在上世纪70年代所提出的，在80年代逐渐发展并成熟起来。目前，这种参数模型已经在医学以及生物学还有经济学等诸多领域中广泛使用开来。

半参数回归模型介于非参数回归模型和参数回归模型之间，其内容不仅囊括了线性部分，同时包含一些非参数部分，应该说这种模型成功的将两者的优点结合在一起。这种模型所涉及到的参数部分，主要是函数关系，也就是我们常说的对变量所呈现出来的大势走向进行有效把握和解释;而非参数部分则主要是值函数关系中不明确的那一部分，换句话就是对变量进行局部调整。因此，该模型能够很好的利用数据中所呈现出来的信息，这一点是参数回归模型还有非参数归回模型所无法比拟的优势，所以说半参数模型往往拥有更强、更准确的解释能力。

从其用途上来说，这种回归模型是当前经常使用的一种统计模型。其形式为：

三、纵向数据、线性函数和光滑性函数的作用

纵向数据其优点就是可以提供许多条件，从而引起人们的高度重视。当前纵向数据例子也非常多。但从其本质上讲，纵向数据其实是指对同一个个体，在不同时间以及不同地点之上，在重复观察之下所得到一种序列数据。但由于个体间都存在着一定的差别，从而导致在对纵向数据进行求方差时会出现一定偏差。在对纵向数据进行观察时，其观察值是相对独立的，因此其特点就是可以能够将截然不同两种数据和时间序列有效的结合在一起。即可以分析出来在个体上随着时间变化而发生的趋势，同时又能看出总体的变化形势。在当前很多纵向数据的研究中，不仅保留了其优点，并在此基础之上进行发展，实现了纵向数据中的局部线性拟合。这主要是人们希望可以建立输出变量和协变量以及时间效应的关系。可由于时间效应相对比较复杂，所以很难进行参数化的建模。

另外，虽然线性模型的估计已经取得大量的成果，但半参数模型估计至今为止还是空白页。线性模型的估计不仅仅是为了解决秩亏或病态的问题，还能在百病态的矩阵时，提供了处理线性、非线性及半参数模型等方法。首先，对观测条件较为接近的两个观测数据作为对照，可以削弱非参数的影响。从而将半参数模型变成线性模型，然后，按线性模型处理，得到参数的估计。而多数的情况下其线性系数将随着另一个变量而变化，但是这种线性系数随着时间的变化而变化，根本求不出在同一个模型中，所有时间段上的样本，亦很难使用一个或几个实函数来进行相关描述。在对测量数据处理时，如果将它看作为随机变量，往往只能达到估计的作用，要想在经典的线性模型中引入另一个变量的非线性函数，即模型中含有本质的非线性部分，就必须使用半参数线性模型。

另外就是指由各个部分组成的形态，研究对象是非线性系统中产生的不光滑和不可微的几何形体，对应的定量参数是维数，分形上统计模型的研究是当前国际非线性研究的重大前沿课题之一。因此，第一种途径是将非参数分量参数化的估计方法，也称之为参数化估计法，是关于半参数模型的早期工作，就是对函数空间附施加一定的限制，主要指光滑性。一些研究者认为半参数模型中的非参数分量也是非线性的，而且在大多数情形下所表现出来的往往是不光滑和不可微的。所以同样的数据，同样的检验方法，也可以使用立方光滑样条函数来研究半参数模型。

四、线性模型的泛最小二乘法与最小二乘法的抗差

(一)最小二乘法出现于18世纪末期

在当时科学研究中常常提出这样的问题：怎样从多个未知参数观测值集合中求出参数的最佳估值。尽管当时对于整体误差的范数，泛最小二乘法不如最小二乘法，但是当时使用最多的还是最小二乘法，其目的也就是为了估计参数。最小二乘法，在经过一段时间的研究和应用之后，逐步发展成为一整套比较完善的理论体系。现阶段不仅可以清楚地知道数据所服从的模型，同时在纵向数据半参数建模中，辅助以迭代加权法。这对补偿最小二乘法对非参数分量估计是非常有效，而且只要观测值很精确，那么该法对非参数分量估计更为可靠。例如在物理大地测量时，很早就使用用最小二乘配置法，并得到重力异常最佳估计值。不过在使用补偿最小二乘法来研究重力异常时，我们还应在兼顾着整体误差比较小的同时，考虑参数估计量的真实性。并在比较了迭代加权偏样条的基础上，研究最小二乘法在当前使用过程中存在的一些不足。应该说，该方法只强调了整体误差要实现最小，而忽略了对参数分量估计时出现的误差。所以在实际操作过程中，需要特别注意。

(二)半参模型在GPS定位中的应用和差分

半参模型在GPS相位观测中，其系统误差是影响高精度定位的主要因素，由于在解算之前模型存在一定误差，所以需及时观测误差中的粗差。GPS使用中，通过广播卫星来计算目标点在实际地理坐标系中具体坐标。这样就可以在操作过程中，发现并恢复整周未知数，由于观测值在卫星和观测站之间，是通过求双差来削弱或者是减少对卫星和接收机等系统误差的影响，因此难于用参数表达。但是在平差计算中，差分法虽然可以将观测方程的数目明显减少，但由于种种原因，依然无法取得令人满意的结果。但是如果选择使用半参数模型中的参数来表达系统误差，则能得到较好的效果。这主要是因为半参数模型是一种广义的线性回归模型，对于有着光滑项的半参数模型，在既定附加的条件之下，能够提供一个线性函数的估计方法，从而将测值中的粗差消除掉。

另外这种方法除了在GPS测量中使用之外，还可应用于光波测距仪以及变形监测等一些参数模型当中。在重力测量中的应用在很多情形下，尤其是数学界的理论研究，我们总是假定S是随机变量实际上，这种假设是合理的，近几年，我们对这种线性模型的研究取得了一些不错的成果，而且因其形式相对简洁，又有较高适用性，所以这种模型在诸多领域中发挥着重要作用。

通过模拟的算例及坐标变换GPS定位重力测量等实际应用，说明了该法的成功性及实用性，从理论上说明了流行的自然样条估计方法，其实质是补偿最小二乘方法的特例，在今后将会有广阔的发展空间。另外文章中提到的分形理论的研究对象应是非线性系统中产生的不光滑和不可微的几何形体，而且分形已经在断裂力学、地震学等中有着广泛的应用，因此应被推广使用到研究半参数模型中来，不仅能够更及时，更加准确的进行误差的识别和提取，同时可以提高参数估计的精确度，是对当前半参数模型研究的有力补充。

五、总结

文章所讲的半参数模型包括了参数、非参数分量的估计值和观测值等内容，并且用了三次样条函数插值法得到了非参数分量的推估表达式。另外，为了解决纵向数据前提下，半参数模型的参数部分和非参数部分的估计问题，在误差为鞅差序列情形下，对半参数数据模型、渐近正态性、强相合性进行研究和分析。同时介绍了最小二乘估计法。另外初步讨论了平衡参数的选取问题，还充分说明了泛最小二乘估计方法以及有关结论。在对半参数模型的迭代法进行了相关讨论和研究的基础之上，为迭代法提供了详细的理论说明，为实际应用提供了理论依据。

参考文献

[1]胡宏昌.误差为AR(1)情形的半参数回归模型拟极大似然估计的存在性[J].湖北师范学院学报(自然科学版)，2009(03).

[2]钱伟民，李静茹.纵向污染数据半参数回归模型中的强相合估计[J].同济大学学报(自然科学版)，2009(08).

[3]樊明智，王芬玲，郭辉.纵向数据半参数回归模型的最小二乘局部线性估计[J].数理统计与管理，2009(02).

[4]崔恒建，王强.变系数结构关系EV模型的参数估计[J].北京师范大学学报(自然科学版).2005(06).

[5]钱伟民，柴根象.纵向数据混合效应模型的统计分析[J].数学年刊A辑(中文版).2009(04)

[6]孙孝前，尤进红.纵向数据半参数建模中的迭代加权偏样条最小二乘估计[J].中国科学(A辑：数学)，2009(05).

[7]张三国，陈希孺.EV多项式模型的估计[J].中国科学(A辑)，2009(10).

[8]任哲，陈明华.污染数据回归分析中参数的最小一乘估计[J].应用概率统计，2009(03).

[9]张三国，陈希孺.有重复观测时EV模型修正极大似然估计的相合性[J].中国科学(A辑).2009(06).

[10]崔恒建，李勇，秦怀振.非线性半参数EV四归模型的估计理论[J].科学通报，2009(23).

[11]罗中明.响应变量随机缺失下变系数模型的统计推断[D].中南大学，2011.

[12]刘超男.两参数指数威布尔分布的参数Bayes估计及可靠性分析[D].中南大学，2008.

[13]郭艳.湖南省税收收入预测模型及其实证检验与经济分析[D].中南大学，2009.

[14]桑红芳.几类分布的参数估计的损失函数和风险函数的Bayes推断[D].中南大学，2009.

[15]朱琳.服从几类可靠性分布的无失效数据的bayes分析[D].中南大学，2009.

[16]黄芙蓉.指数族非线性模型和具有AR(1)误差线性模型的统计分析[D].南京理工大学，2009.

统计异常检测论文

2个回答 默认排序 默认排序 按时间排序

相关问答

学术论文

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序