图片拼接算法研究论文

2个回答默认排序

默认排序

按时间排序

爱吃的呆猫

已采纳

浅析现阶段高通量测序中的拼接问题论文

摘要：近年来，随着第二代测序技术的普及和第三代测序技术的逐步发展，高通量测序技术在实际研究中的应用越来越广泛。高速率、高性价比是其主要优点。相对于传统的桑格（Sanger）法测序来言，高通量测序得到的片段长度较为短小，故如何拼接得到完整的序列一直是炙手可热的研究方向。本文总结了现阶段高通量测序中拼接问题的研究结果，针对现在流行的各种算法进行了简单介绍。

关键词：高通量测序；reads 拼接；contigs 组装；OLC、De brujin 图

一、测序技术的发展过程和现状[1]

（一）桑格法

桑格法又叫做双脱氧链终止法，由Sanger在1977年提出。通过加入带有放射标记的dd NTP（双脱氧核苷酸）使DNA合成终止。再通过电泳，并使用放射自显影技术读出碱基。此方法得到的片段较长，能达到1000bp左右。

（二）第二代测序技术

随着科学技术的发展，传统的桑格法已经不能满足研究的需要。科学家们需要更快的速度、更高的通量以及更低廉的价格，于是第二代测序技术应运而生。其核心思想是边合成边测序。现在主要有454 GS FLX、SOLi D和Illumina/Solexa GenomeAnalyzer三个平台。第二代测序是现阶段测序技术的主流，也是高通量测序的开始。

（三）第三代测序技术

第三代测序技术是指单分子测序技术。不需要经过PCR的过程即可测序，速度可以达到每秒十个碱基。通量更大，读长更短，是现阶段测序技术的发展方向。

二、高通量测序中的拼接工作

（一）高通量测序所得片段的特点

高通量测序之后所得到的序列片段称为reads（读取），其主要特点两点。一是长度短，一般在200bp以下，最长的454平台能达到的长度也不过1000bp,因此需要进行大量的拼接才能得到整条DNA序列。二是有部分重叠，由于测序位置具有随机性，故各reads总会有一定的重叠，这些重叠是拼接工作的关键。

（二）拼接过程

整个拼接过程分为两步。第一步，考察reads的重复序列，并拼接成更长的片段，称为contigs（重叠群），这一步称为reads的拼接；第二步，确定contigs之间的顺序关系，并按此排列，形成称为scaffolds的序列，这一步叫做contigs的组装。

三、Reads的`拼接

（一）拼接过程的难点

reads拼接过程中要克服的难点主要有两点，一是高通量测序得到的reads长度较短，故内含信息较少，不易确认相对顺序。二是远程连接信息（Long-range linking information）的不可靠性。 2这两点制约着reads拼接过程的准确率。

（二）方法[3]

reads拼接过程中算法的基本要求是de novo（从头测序），即不需要任何序列信息即可对原料进行测序。由此衍生出两种主流的算法：

1.OLC

OLC,即交叠-排列-共有序列算法（Overlap-layout-consensus），是一个比较传统的算法，其基本思想为根据reads间的重复部分，确定可能性的reads连接顺序。

其步骤为：构建交叠图：对每两个reads进行比对，计算它们的重叠度---排列reads:将reads进行排列，确定它们之间的相对位置，建立overlap图---生成共有序列：通过多序列比对等方法，确立最后的contig.

OLC算法的计算量主要体现在交叠图的构建，而高通量测序得到的海量短序列有大量的交叠，往往需要大量的运算时间。故OLC算法并不适合现在高通量测序的发展趋势。现在某些拼接软件，如Shorty、CABOG等仍在使用基于此的算法。虽然这些软件针对OLC算法有一定的改进和优化，但其拼接速度和准确性仍受到限制。

2.De brujin图

基于De brujin图（DBG）的算法是现在最流行的算法，许多常用的拼接软件如Velvet、ABy SS等都在使用这种算法。其特点为把基因序列的拼接问题转化为了数学上的图论问题，大大提高了拼接效率。

（1）基本思想

reads中连续的k个碱基称为k -mer,作为DBG的节点，两个k-mer如果在同一read中相邻，则形成一条边。故每个read都会对一些边加权，最后形成一个含有节点、有权值的边的DBG,由此生成最佳的contig.

（2）步骤

筛选reads:对reads进行检测，去除掉可能错误的reads---确定k值：k的值直接影响速度和精度。 K值较大时，精度有所提高，但更容易受覆盖率的影响。故应该根据覆盖率、reads长度等确定合适的k值---处理DBG:根据确定的k值，做出DBG,同时完成化简和修正---根据DBG,拼接成contig.

（3）优缺点

DBG算法在处理海量短reads的时候效果优秀，与现在测序技术的发展趋势相匹配。然而，由于k-mer的长度较短，此方法受重复序列、测序错误的影响较大。

（三）不同拼接软件的效果差异

不同的拼接软件在reads拼接过程中表现为三点：一是比起软件来说，reads质量对拼接结果影响更大；二是与标准序列的接近度随reads和拼接软件的不同有很大改变；三是各软件拼接的正确率差别很大，但与接近度的结果不一致。

四、Contigs的组装

与reads的拼接相比，contigs的组装的难度相对较小。这是因为contigs的长度较reads长很多，所含信息较多。故可以较为准确的组装成scaffold

（一）组装过程的难点[4]

Contigs组装过程中的难点主要有二。一是contigs中含有大量的重复序列，不易确定contigs之间的相对顺序；二是由于contigs由reads拼接而成，其中不免会有一些错误，这些错误也会对contigs的组装产生干扰。

（二）方法

Contigs组装的方法较reads拼接而言较多，一般常用的有图论法和光学图谱法（Optical mapping）两种。

1.图论法[5]

图论法是比较传统的方法，与reads拼接有相似的地方。它以contigs作为节点，由相连的读取对（Linking reads pair）作为边，由此形成算图。

其一般步骤为：库的构建：构建出含有所有reads的库---计算相连读取对之间的距离，并由此计算gap的长度---把长度放在边上，作为算图的数据。

其理想的输出结果是一条scaffold序列，对应一条染色体，包含以正确顺序排列的contigs和contigs之间gap的长度。

2.光学图谱法[6]

光学图谱法是一种较为新颖的方法。通过内切酶将DNA切断，此时DNA的片段的谱表现出一种特殊的指纹或是识别码的性质。利用光学方法追踪此信息得到相对位置，由此组装成正确的scaffold.

主要步骤为：将contigs放置在光学图谱上---修正光学图谱---做出contigs的连接图，由此决定最佳的contigs连接顺序。

光学图谱法的组装结果有着很高的覆盖率，巧妙运用光学图谱法可以获得很高的成本效益。

有研究表明，当与454平台获得的实验结果相结合的时候，光学图谱法可以迅速、价廉的得到排列好的定向的contigs组，由此可以产生一个将近完整的基因组。

（三）发展方向

Contigs组装过程的关键点在于如何得到正确的连接顺序。现阶段此方面研究多集中在这一方向。

五、前景与展望

随着生物学研究向微观、向基因领域逐步延伸，高通量测序作为获得基因序列的主要方法，越来越受到重视，拼接技术也在不断发展。高通量测序的基因片段会变得海量且短小，应对此变化，拼接技术也会由确定“唯一的基因序列”向确定“最可能的基因序列”完成转变。因此，新一代的拼接技术会在准确率、覆盖率和速度上，作出超于现在拼接技术的改进。

参考文献：

[1]Anderson MW, Schrijver I. Next Generation DNASequencing and the Future of Genomic Medicine.?Genes.2010;1（1）：38-69. doi:10.3390/genes1010038.

[2]Salzberg SL, Phillippy AM, Zimin A, et al. GAGE: Acritical evaluation of genome assemblies and assemblyalgorithms.Genome Research. 2012;22 （3）：557 -567. doi:10.1101/gr.131383.111.

[3]Deng X, Naccache SN, Ng T, et al. An ensemble strategythat significantly improves de novo assembly of microbialgenomes from metagenomic next -generation sequencingdata.Nucleic Acids Research. 2015;43 （7）：e46. doi:10.1093/nar/gkv002.

[4]Latreille P, Norton S, Goldman BS, et al. Opticalmapping as a routine tool for bacterial genome sequencefinishing.BMC Genomics. 2007;8:321. doi:10.1186/1471 -2164-8-321.

[5]Hunt M, Newbold C, Berriman M, Otto TD. Acomprehensive evaluation of assembly scaffolding tools.Genome Biology. 2014;15 （3）：R42. doi:10.1186/gb -2014 -15-3-r42.

[6]Nagarajan N, Read TD, Pop M. Scaffolding andvalidation of bacterial genome assemblies using opticalrestriction maps.Bioinformatics. 2008;24 （10）：1229 -1235.doi:10.1093/bioinformatics/btn102.

97 评论 2小时前发布

qq496257996

本文研究了无人机（UAV）遥感图像拼接过程中重叠区域的不匹配问题。为了解决这个问题，首先通过将双重匹配与随机抽样共识（RANSAC）方法相结合来过滤特征点。其次，为了保证每幅图像与全景照片的投影关系的一致性，我们提出了一种局部拼接的方法。为了避免随着图像数量的增加透视变化累积而导致图像倾斜的错误，我们建立了图像旋转坐标系，并将图像之间的关系限制为平移和旋转。用坐标原点的相对位置来表示平移距离，通过迭代求解最优旋转角度。最后，图像的重叠部分通过线性加权融合。通过实验结果验证，本文提出的方法在大量图像的情况下能够保证更快的处理速度和更高的处理精度，从而达到理想的拼接效果。近年来，随着计算机视觉的不断进步，图像拼接技术在海洋和矿产勘探、遥感勘探、医学成像、效果生成、虚拟现实等方面得到了广泛的应用。许多航拍遥感图像可以通过配备摄像头的无人机在地面拍摄得到。通常，由于无人机飞行高度、相机焦距等因素，单幅图像存在信息量少、全局分辨率低等问题。因此，要获得广角高分辨率的照片，就需要研究全景图像拼接技术。Brown 在 2003 年引入了著名的 AutoSitich 算法，很快就被用于商业产品，如 Photoshop。但是，该算法假定图像的重叠区域没有深度变化。2013 年，萨拉戈萨 J 等人。将图像拆分为密集的网格，并为每个网格使用单个更改，称为网格变形。该方法在一定程度上解决了图像变形、尺寸缩放、重定向等问题。图像拼接技术一般分为图像几何校正、图像预处理、图像对齐、图像融合四个步骤。由于相机镜头的畸变，需要对无人机的图像进行校正，使得到的图像满足个别地图的投影关系。图像预处理是几乎所有图像处理技术的重要组成部分，包括去噪、灰度变化等。这个过程可以降低匹配难度，提高匹配精度。然而，对于无人机遥感图像的拼接，图像匹配和图像融合是成功的关键。图像匹配技术是图像拼接的基础。1975年米尔格拉姆提出了计算机拼接技术。于是，在重叠区域寻找最优接缝线就成为一个重要的研究方向。同年，Kuslin 提出了一种相位相关方法，通过傅里叶变化将图像转换到频域，并利用功率谱计算平移。1987 年，Reddy 提出了一种扩展的相位相关方法，该方法可以计算图像的平移和旋转关系并解决图像缩放问题。图像拼接的另一个分支是基于图像特征。1988年Harris提出经典的Harris点检测算法，它使用特定的旋转不变性哈里斯点进行特征匹配。2004 年，Lowe 提出了一种完美的尺度不变特征变换算法（SIFT），对平移、旋转、尺度缩放、不均匀光照等图像领域应用最广泛的技术具有良好的适应性。C Aguerrebere 根据输入图像的 SNR 条件给出的问题难度级别显示不同的行为区域。Wu通过建立模型，将深度学习和进化算法应用于遥感图像的拼接，实现概率意义上的全局优化。图像融合技术是遥感图像拼接技术中的另一项核心技术，分为像素级融合、特征级融合、决策级融合。像素级融合仍然是现阶段最常用的图像融合方法之一。对于无人机的遥感图像，存在图像数量多、光照条件多变等问题。每次拼接过程中的小错误都难以避免。随着图像数量的增加，误差不断累积，图像拼接后期会出现图像失真和重影。S Bang 创建高质量全景图，过滤掉视频的模糊帧，选择关键帧，并校正相机镜头失真。Zhang 提出了基于 STIF 的 GA-SIFT 并给出了一种自适应阈值方法来解决计算量大和拼接时间长的问题。李明基于动态规划解决无人机侧视问题寻找最佳接缝线。然而，当图像数量逐渐增加时，现有的拼接算法存在误差累积。也有一些基于网格变形的图像拼接算法，但计算量太大。在本文中，图像被匹配两次以过滤特征点以提高准确度。拼接问题对应于通过坐标系转换的旋转角度解，应用高斯-牛顿迭代计算最优旋转角度。此外，我们练习局部匹配方法以减少错误并使用加权融合来实现过度平滑。 SIFT特征点不仅在空间尺度和旋转上保持不变，而且在光照和视角变化的条件下，还具有优异的抗干扰能力和良好的稳定性。为了实现空间尺度的不变性，SIFT特征点可以根据物体远看小而模糊，反之大而清晰的特点，建立高斯金字塔模型。差分金字塔 (DoG) 是通过计算金字塔中相邻两层图像之间的差异来获得的。使用函数拟合在 DOG 空间中测试极值。通过对确定场中基于SIFT特征点的梯度信息进行统计，选择加权幅度最大的梯度方向作为主梯度方向。通过将特征点与其主梯度方向相关联，可以解决图像特征点的旋转不变性问题。最后，利用特征点周围像素的信息建立一个128维的向量作为特征点的描述符。提取特征点后，需要对两幅图像的特征点进行匹配。通过特征点成对匹配，可以计算出两个特征点对应的描述符之间的欧氏距离，选择欧氏距离最小的点作为匹配点对。为了减少不匹配的发生率，被用作正确匹配的阈值。具有大于的描述符欧几里得距离的匹配点对被消除。 RANSAC 是特征点匹配中最常用的方法之一。它首先从匹配结果中随机选择四对特征点并计算单应矩阵。其次，根据上一步得到的单应矩阵，计算第一幅图像在第二幅图像中的重投影坐标，并计算该坐标与第二幅图像中匹配点对坐标的距离。通过设置距离阈值记录所有匹配点对中正确匹配特征点对的个数。重复上面的过程，最终留下与最多点对数的正确匹配。高斯-牛顿迭代是求解非线性最小二乘优化问题的算法之一，可以描述为：我们选择一个初始值，然后不断更新当前优化变量以减小目标函数值。高斯-牛顿迭代的主要思想是对函数进行一阶泰勒展开，计算及其雅可比矩阵对应的函数值。使用和计算的增量，直到足够小。加权平均法是图像融合中简单有效的方法之一。第一幅图像和第二幅图像重叠区域的像素值由两幅图像像素的加权求和得到，表示为：其中：越接近 img1，的值越大。的值从1逐渐变为0，重叠区域从第一幅图像逐渐过渡到第二幅图像，从而实现画面的平滑过渡。照片的加权平均融合因其直观的简单性和快速的运行速度而被广泛使用和图像拼接。对于两幅图像的拼接，由于无人机的遥感相机通常安装在一个稳定的平台上，通过选择合适的坐标系，将图像对齐问题转化为单幅图像旋转问题，如图1所示。此外，大多数具有相关高光频的常用相机通常在连续帧之间具有较大的重叠区域。因此，在图像拼接过程中，第幅图像在全局位置上的投影关系，不仅受第幅图像的影响，还与图像相关。为了保证图像变形的一致性，首先将张图像拼接在一起，然后将结果整合到整幅图像中。大量的实验测试证明，当i设置为3时效果最佳。整个过程如图图2。图像中的特征点有很多种，本文使用最常见的SIFT特征点。我们提取并匹配两张输入图像的特征点，结果如下所示。特征点的匹配精度直接影响旋转角度的计算，因此使用前必须对特征点对进行过滤。鉴于过滤特征点的方法很多，本文先将左图与右图进行匹配，再将右图与左图进行匹配。两次相同结果配对的匹配点将被保留。在此基础上，使用RANSAC方法对结果进行优化，成功匹配了上图中的121个特征点。从无人机拍摄的两张照片之间通常存在旋转和平移。为了独立优化旋转角度，我们首先建立如图 5所示的坐标系。以图像匹配成功的特征点坐标值的平均值作为该坐标的原点，坐标轴与像素坐标系的两个坐标轴平行。根据公式（3），特征点从图像坐标系转换为图像旋转坐标系：其中为滤波后的特征对的总数，为特征点在原始图像坐标系中的坐标值，并且是新的值。在计算图像的旋转角度之前，我们首先需要分析图像的缩放比例。由飞行高度引起的尺寸变化将在轴上具有相同的缩放比例。因此，根据所有特征点与图像旋转坐标系原点的欧氏距离比，可以计算出两幅图像之间的缩放比例，对图像进行缩放和改变。图像缩放后，计算图像旋转的角度。高斯牛顿迭代的方式计算旋转角度的最优解。首先设置目标函数：通过迭代选择最优的使得：使用误差函数的泰勒展开进行迭代。其中根据我们可以发现增量值每次迭代。最终，当我们计算出的满足条件时，停止迭代过程。可以使用最佳旋转角度和旋转中心来求解图像的变换矩阵。由于拍摄图像时光线不均匀，连续两张图像之间可能存在一些颜色差异。此外，图像旋转不可避免地存在小误差，因此我们练习线性加权融合以消除两幅图像之间的拼接线和色度变化。图像的重叠是按距离加权的，这样拼接结果自然是从img1到img2过度了。我们利用OpenCV的功能从遥感图像中提取SIFT特征点并进行匹配。从Stitch拼接功能、基于透视变化的图像拼接结果以及本文的拼接速度的对比可以看出，本文采用的方法具有一定的优越性。从表1数据可以看出，在拼接少量图像时，三种算法的拼接结果相似，没有出现明显的拼接误差。但是，Stitcher 算法比其他两种拼接方法花费的时间要多得多。图 11很明显，随着图像数量的增加，基于透视变换的图像拼接算法出现了严重的失配。然而，本文采用的方法取得了比较满意的结果，因为在无人机拍摄的图像中，地面上的所有特征都可以近似地视为在同一平面上。根据透视变换，无人机的远近抖动会引入图像拼接导致错误。图像数量的不断增加会导致错误的积累，从而导致严重的失配。另外，这使得程序中断，从而无法完成所有60幅图像的拼接。假设同一平面上图片的仿射变化会更符合无人机遥感图像的实际情况。最后，可以通过线性加权融合来解决误差问题，以提高拼接效果。考虑到stitch算法耗时过长，本文不会对两者进行比较。在上面的图 12 中，使用 100 张图像来测试本文中的方法。图像的仿射变换是通过计算围绕图像特征点中心的旋转角度来进行的。变换后的图像采用线性加权融合后，可以得到大量图像数据处理后的结果。拼接自然，符合人类视觉体验。我们在网络上跑了一组数据，结果如下。鉴于以上实验结果，该方法具有一定的抗干扰能力，可以高速运行。与高度集成的Stitcher和基于透视变换的图像拼接结果相比，我们可以发现，基于透视变化的图像拼接结果随着图像数量的增加而逐渐变差。然而，尽管拼接效果很好，但 Stitcher 需要更长的处理时间。在本文中，我们研究了无人机遥感图像的拼接技术，主要贡献可以总结如下：通过实验结果可以看出，本文提出的方法比现有方法具有更好的实时性，对于相机平面与成像平面平行的情况具有更好的拼接效果。

333 评论 6小时前发布

图片拼接算法研究论文

2个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序