MindTheGapPlz
二代高通量测序技术已广泛应用于疾病和癌症的研究,但由于其短读长的特点,对结构变异的检测有一定的局限性。以Pacbio和ONT为代表的三代长读长测序技术弥补了这一不足,但因成本相对较高限制了其广泛应用。三代目标区域测序技术,不仅保留了长读长的测序优势,又可以针对感兴趣的基因或区域以更高的性价比进行高深度测序研究。目前,三代目标区域测序技术已被应用于疾病或癌症领域HLA、STR、融合基因、甲基化检测等研究中。目标区域富集的方法主要有三类:长片段PCR扩增、CRISPR/Cas9靶向捕获和液相探针捕获。下面为大家进行一一介绍。 长片段PCR扩增因其引物设计成本低,实验流程规范,是基因组靶向富集常用的方法之一。但PCR过程中容易产生嵌合体、出现参考比对偏差[1],此外,基因组的复杂区域和高GC区域往往会影响PCR扩增效果,制约了其应用范围。长片段PCR扩增一般适用于非复杂区域变异检测研究。 Long-Read Nanopore Sequencing Validated for Human Leukocyte Antigen Class I Typing in Routine Diagnostics[2] 发表期刊:The Journal of Molecular Diagnostics(IF:) 发表时间:2020年7月 人类白细胞抗原(HLA)的高分辨率分析是确定造血干细胞移植患者和供者相容性的金标准。Nanopore长读长测序能够直接跨越HLA区域,提供明确分型,但碱基的高错误率限制了其应用。该文章中第一阶段,选择已知HLA分型的33例样本,针对HLA I类基因 HLA-A 、 HLA-B 、 HLA-C 进行了特定基因全长扩增(扩增引物见表1),使用MinION 1D2建库试剂盒(SQK-LSK308)建库,MinION测序,使用2种HLA分析软件JSI和GenDx进行HLA分型分析,结果表明其分型结果与前期Sanger测序分型结果100%一致(表2),MinINO测序和分析流程图见图1。为了进一步验证该方法,第二阶段选择了67例临床样本进行MinION测序分析,与Sanger测序数据分析结果一致,该结果进一步表明了纳米孔测序技术已经发展到可以用于常规诊断并具有较高的准确性。 表1 扩增引物 表2 33例样本MinION分型结果和Sanger分型结果对比(仅展示前3行) Cas9靶向捕获技术,首先将DNA末端去磷酸化,然后用Cas9/guideRNA复合物引入新的切口,将测序接头特异性连接到剪切区域,从而达到靶向测序的效果。该技术无PCR扩增环节,可以同时进行结构变异、STR及碱基修饰鉴定等研究。 Targeted Nanopore Sequencing with Cas9-guided Adapter Ligation[3] 发表期刊:Naute Biotechnology(IF:) 发表时间:2020年4月 目前的测序方法仍然受到无法检测碱基修饰,读长过短,核酸总量要求高,产量过低或实验流程过长等限制。该文章中作者开发了一种基于Cas9靶向捕获的纳米孔序列方法(nanopore Cas9-targeted sequencing,nCATS),该方法使用基于CRISPR–Cas9的靶向DNA捕获策略(图2A),将捕获的DNA进行纳米孔长读长测序。该文章表明nCATS技术可以同时进行SNP,SV,单体型和CpG甲基化鉴定。文章中研究发现多种guideRNAs组合可将 KRT19 基因的覆盖率从47X提高到407X(图2B),MinION整个cell的覆盖率中位数提升到680X(图2C)。文章中将nCATS方法在GM12878细胞系上检测的SNV与白金数据集进行比较,验证了双链数据过滤后SNP检测的准确性,结果显示只有一个假阳性位点存在于胸腺嘧啶密集的均聚物区域。将nCATS甲基化数据与WGBS数据进行了比较,结果显示每个CpG相关性为。该方法将促进长读长测序技术在医学研究和临床中的应用。 针对感兴趣的基因或区域定制特异性探针,通过探针与基因组DNA进行杂交,将目标区域片段捕获富集后进行测序分析研究。但该技术由于建库环节中存在PCR扩增环节,会丢失碱基修饰信息,且需要额外考虑定制探针的周期。 Efficient Sequencing, Assembly, and Annotation of Human KIR Haplotypes[4] 发表期刊:Frontiers in Immunology() 发表时间:2020年10月 天然杀伤细胞免疫球蛋白样受体(KIR)区域具有高度同源性、重组率、多态性及重复序列等特点,利用二代高通量测序不能得到完整的单倍型信息。文章中提出了一种自主设计探针捕获目标区域,利用长读长测序来组装人类二倍体 KIR 单倍型的新方法。该方法设计了18个捕获探针来捕获 KIR 区间长度为2-8kb的DNA片段。采用PacBio Sequel平台CCS模式进行测序,使用Canu软件进行组装,按照 KIR 基因划分区域,基于每个基因和 KIR 全长进行组装,最后注释序列的位置信息。为了评估该流程的可靠性,作者对16个样本(单倍型信息已知)进行组装和注释评估。组装结果表明,仅使用18个探针对 KIR 区域进行捕获,就覆盖了参考基因组的97%,序列一致性为。该研究所提出的靶向探针捕获测序方法是第一个对人类所有 KIR 二倍体进行完整测序和组装的方法,可以有效地应用于人群规模研究和临床研究中。 综上,三代目标区域测序技术有PCR扩增,Cas9靶向捕获和探针液相捕获三类靶向富集方法,其优劣势总结如下(表3),可结合具体研究需求进行选择。 表3不同目标区域捕获方法比较汇总 参考文献 [1]Laver TW, Caswell RC, Moore KA,et of haplotype phasing from amplicon-based long-read sequencing[J]. Scientific Reports. 2016;17(6):21746. [2]Matern BM, Olieslagers TI, Groeneweg M, et al. Long-Read Nanopore Sequencing Validated for Human Leukocyte Antigen Class I Typing in Routine Diagnostics[J].The Journal of Molecular Diagnostics. 2020 ;22(7):912-919. [3]Gilpatrick T, Lee I, Graham JE, et al. Targeted nanopore sequencing with Cas9-guided adapter ligation[J]. Naute Biotechnology. 2020;38(4):433-438. [4]Roe D, Williams J, Ivery K, et al. Efficient Sequencing, Assembly, and Annotation of Human KIR Haplotypes[J]. Frontiers in Immunology . 2020;9(11):582927.
侯丹丹0518
论文原文:
YOLO(you only look once)是继RCNN、faster-RCNN之后,又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下,解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比:
如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测,那么yolo则是更进一步,将 目标区域预测 与 目标类别判断 整合到单个神经网络模型中。各检测算法结构见下图:
每个网格要预测B个bounding box,每个bounding box除了要回归自身的位置之外,还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息,其值是这样计算的:
其中如果有object落在一个grid cell里,第一项取1,否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。
每个bounding box要预测(x, y, w, h)和confidence共5个值,每个网格还要预测一个类别信息,记为C类。即SxS个网格,每个网格除了要预测B个bounding box外,还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。(注意:class信息是针对每个网格的,即一个网格只预测一组类别而不管里面有多少个bounding box,而confidence信息是针对每个bounding box的。)
举例说明: 在PASCAL VOC中,图像输入为448x448,取S=7,B=2,一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示:
在test的时候,每个网格预测的class信息和bounding box预测的confidence信息相乘,就得到每个bounding box的class-specific confidence score:
等式左边第一项就是每个网格预测的类别信息,第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率,也有该box准确度的信息。
得到每个box的class-specific confidence score以后,设置阈值,滤掉得分低的boxes,对保留的boxes进行NMS(非极大值抑制non-maximum suppresssion)处理,就得到最终的检测结果。
1、每个grid因为预测两个bounding box有30维(30=2*5+20),这30维中,8维是回归box的坐标,2维是box的confidence,还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间,w,h除以图像的width和height也归一化到0-1之间。
2、对不同大小的box预测中,相比于大box预测偏一点,小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题,作者用了一个比较取巧的办法,就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解,小box的横轴值较小,发生偏移时,反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。
3、一个网格预测多个box,希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大,就负责哪个。这种做法称作box predictor的specialization。
4、损失函数公式见下图:
在实现中,最主要的就是怎么设计损失函数,坐标(x,y,w,h),confidence,classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足:
解决方法:
只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候,才会对box的coordinate error进行惩罚,而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。
作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段,采用网络中的前20卷积层,外加average-pooling层和全连接层。模型训练了一周,获得了top-5 accuracy为(ImageNet2012 validation set),与GoogleNet模型准确率相当。
然后,将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层,提高了模型输入分辨率(224×224->448×448)。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation,其它层使用 leaky rectified linear。
作者采用sum-squared error为目标函数来优化,增加bounding box loss权重,减少置信度权重,实验中,设定为\lambda _{coord} =5 and\lambda _{noobj}= 。
作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮,batch size为64,动量为,学习速率延迟为。Learning schedule为:第一轮,学习速率从缓慢增加到(因为如果初始为高学习速率,会导致模型发散);保持速率到75轮;然后在后30轮中,下降到;最后30轮,学习速率为。
作者还采用了dropout和 data augmentation来预防过拟合。dropout值为;data augmentation包括:random scaling,translation,adjust exposure和saturation。
YOLO模型相对于之前的物体检测方法有多个优点:
1、 YOLO检测物体非常快
因为没有复杂的检测流程,只需要将图像输入到神经网络就可以得到检测结果,YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且,YOLO的mAP是之前其他实时物体检测系统的两倍以上。
2、 YOLO可以很好的避免背景错误,产生false positives
不像其他物体检测系统使用了滑窗或region proposal,分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息,因此YOLO在检测物体时能很好的利用上下文信息,从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比,YOLO的背景错误不到Fast-R-CNN的一半。
3、 YOLO可以学到物体的泛化特征
当YOLO在自然图像上做训练,在艺术作品上做测试时,YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征,从而迁移到其他领域。
尽管YOLO有这些优点,它也有一些缺点:
1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。
2、YOLO容易产生物体的定位错误。
3、YOLO对小物体的检测效果不好(尤其是密集的小物体,因为一个栅格只能预测2个物体)。
论文原文: YOLO(you only look once)是继RCNN、faster-RCNN之后,又一里程碑式的目标检测算法。yolo在保持不错的准确度的
论文原文: YOLO(you only look once)是继RCNN、faster-RCNN之后,又一里程碑式的目标检测算法。yolo在保持不错的准确度的
有些同学在进行知网查重时,经常会出现这样的失误。即容易漏掉标题,或者没有写完整。所以他们会担心,这样的小失误会不会影响论文的查重率。这样的举动会不会产生影响呢?
法医学毕业论文写具体的案例分析可以的。当时也不太会弄,还是上届师姐给的雅文网,有高手帮忙简单多了法医临床鉴定细节问题的探讨病案在法医活体检验鉴定中的作用论法医鉴
sci论文查重只需要找到论文查重平台,例如,上学吧论文查重,再把论文提交,系统就直接把查重结果发到邮箱了,还可以根据提示把重复率高的地方改一下就好。建议选用知网