欢迎来到学术参考网
当前位置:发表论文>论文发表

生信分析类论文

发布时间:2023-12-09 00:19

生信分析类论文

只要找对问题和解决方法就不难:

问题:

第一,近几年有非常多的生信分析类文章,导致“通货”膨胀了。

第二,做数据分析,需要明白相关性和因果性的区别。

第三,大量生信分析类文章结论简单,可靠性很低。

第四,很多作者不愿意或者没有条件对生信分析结论进行验证。

解决方法:

首先,对于生信的分析不要流于表面,要找到重要的问题.

其次,提高编程和生信分析的技能,从多角度多数据作出更全面的分析。

第三,尽可能地对结果或者预测进行实验验证,或者与有条件的实验室进行合作。

第四,除了采用公共数据集,对于在医院的小伙伴,可以产生自己的一些数据。

生信综述?带你解锁高分单细胞发文骚操作!

我们都知道在科研论文中有两大类:一类是研究型论文;另一类是综述型论文。其中,前者主要是以研究为主的行文思路,根据研究发现的不同发表在不同级别的杂志上;而后者多是本身没有新的研究发现,主要是对前人的研究结果进行评价综述。然而,这两种分类都是针对以实验为主论文分类,那么这两年生信为主的文章发文量逐年增加,是否也有这样的分类呢?

Immugent今天就来解读特别的一类生信文章,姑且把它称为“生信综述”吧,因为我人微言轻,并不会我把它叫什么,以后都是这种叫法,就不绞尽脑汁想这个名字了。

这类“生信综述”文章已经有很多年的发展史了,主要都是围绕对各种火爆一时(引领科研)的重大技术来展开,比如近些年火热的单细胞测序技术。那么今天我就来以单细胞测序为主题,来解读一下如何利用此类思路发表高分文章,注意全都是一分钱没花的那种!

我先讲的第一篇是2021年发表在J Am Soc Nephrol(IF:10.12)的篇名为“How to Get Started with Single Cell RNA Sequencing Data Analysis”的文章。好吧,看了一下日历,今年已经2022年了,就不吐槽这个文章时效性的问题了。但全文真的很简单,就是介绍了一下单细胞测序数据分析的基本流程。

来看看它的摘要:在过去的5年里,单细胞方法已经能够在一个实验中监测数千个单个细胞的基因和蛋白质表达、遗传和表观遗传变化。随着测量方法的改进以及反应和测序成本的降低,这些数据集的大小正在迅速增加。关键的瓶颈仍然是对单细胞实验产生的丰富信息的分析。在这篇综述中,我们对分析管道进行了一个简化的概述,因为它们通常在该领域中使用。我们的目标是使研究人员开始单细胞分析,以获得挑战和最常用的分析工具的概述。此外,我们希望能够帮助其他人了解单细胞数据集的典型读数在已发表的文献中是如何呈现的。好吧,确实是一篇综述!

全文虽然有7副图,但大多都是那种最基础的绘图,想必大家都会。但是这里Immugent想说的是这篇文章虽然是综述类,但其实比真正的综述好写多了。类比这篇文章,等到下一次再出现类似于单细胞测序这种现象级技术,是不是有的小伙伴也整一篇类似的呢!

接下来要讲的第二篇是2020年发表在Comput Struct Biotechnol J (IF:7.27)的篇名为“Benchmarking algorithms for pathway activity transformation of single-cell RNA-seq data”的文章。这类文章就比上一类有些技术含量了,起码像综述的感觉了!

就像这篇是总结了对单细胞数据进行通路评分的各种算法,并使用已经发表的数据对各类算法的优缺点进行了比较,并在最后给出了自己的见解。嗯,怎么说呢!还是比一般的综述好写一点,比纯算法开发类文章好开发一些。那么如果这类算法在不久的将来出现了更多,那么是不是就科研考虑写一个更新版的呢?

接下来要讲的第三篇是2021年发表在Genome Biol(IF:13.58)的篇名为“Over 1000 tools reveal trends in the singlecell RNA-seq analysis landscape”的文章。这个文章作为汇总类综述,真的不是吹的了,一篇文章总结了1000+种分析单细胞数据的工具,我对这个作者也是膜拜之至。

并且作者还开发了一个网站: ,并这个网站收录的工具还会一直更新,这真是圈内的劳模啊。

这类文章虽然需要耗费一些时间,但思路还是很简洁的,但是主要是得掌握住时效性,而且最好是自己研究的领域,那样能提出自己的一些思考,就能给文章增色不少。

第四篇是2020年,同样发表在Genome Biol(IF:13.58)的篇名为“A benchmark of batch-effect correction methods for single-cell RNA sequencing data”的文章。作者对当时存在的14种对不同来源的单细胞数据进行去批次处理的算法进行比较,深入揭示它们之间的优缺点和功能表现。

全文的图做的都是很精美的,而且从数据处理的效果来看,这应该是一个大型生信实验室的作品。建议大家有时间都读一下这篇文章,将会有助于以后在处理不同来源的单细胞数据时选择最合适的算法。

放在最后一篇的文章当然是压轴出场了,那就是在2019年发表在Nat Biotechnol(IF:54.91)杂志上,篇名为“A comparison of single-cell trajectory inference methods”的文章。对来自数千个单细胞的全基因组组学数据进行轨迹分析,目前已有很多算法来推断这些细胞沿着发展轨迹的分布。基于这些结果,作者开发了一套指导方针,以帮助用户为他们的数据集选择最佳的方法。

事实上,虽然到目前已经开发了70多种推断单细胞轨迹的工具,但比较它们的性能是具有挑战性的,因为它们需要的输入和产生的输出模型差异很大。在这篇文章中,作者在110个真实数据集和229个合成数据集上对其中的45种方法进行了基准测试,以了解细胞排序、拓扑结构、可伸缩性和可用性。结果表明了现有的一些工具之间的互补性,方法的选择应该主要取决于数据集的维度和轨迹拓扑。

最后,作者还免费提供了多种单细胞数据轨迹分析的评估网站( ),这将有助于开发更多轨迹分析的工具,用于探索日益庞大和复杂的单细胞数据集。对于这篇文章,我不做过多评述,只想着大家有时间都要去读一下,其中无论是对数据的处理还是对结果的讨论上都是前面文章无法媲美的,是难得的优质文章。

如今科技发展日新月异,在21世纪做出有价值的科研成果往往缺的不是技术,而是对热点的灵敏嗅觉以及对时局的掌控。张泽民,汤富酬,郭国骥老师均是凭借单细胞测序技术跻身世界一流领域的科学家,就是因为他们把控住了时局。

同样的,上述几类“生信综述”的着力点均是当时迫切需要解决的单细胞测序技术热点问题,才得以不花费半毛钱发表一系列高分文章。而且,因为是热点科学问题,这些文章截止到目前的引用率都很高,后面肯定还会持续升高。如果说单细胞测序是一个制高点,倒不如说是起点,因为此类技术在未来还会有很多,希望本篇推文能给大家带来一些思考,欢迎有推荐类似生信文章的小伙伴通过后台与我们联系。

求一篇生物信息学的论文

这种最基本的东西没必要求论文啊,自己随便写写就好了,用个DNAMAN,随便挑个基因,分分钟搞出来。再者没人会拿这种东西单独去发一篇论文吧?这点东西根本不够资格,只够在某篇论文里的两句话的分量。

如何做生物信息,学发 SCI 文章

就有人问,生信的文章能发到多少分?如果你是像华科薛宇教授一样的大牛,弄一套算法,编一个生信分析工具,十几分妥妥的,引用量杠杠的。但是,那是大牛,一般来说,按「常规套路」出牌的这种生信分析文章分值在 0-2 分之间。但也有些不做实验的生信分析文章能发到个 4-5 分,那么生信分析的文章怎么样能达到一个比较高的层次呢?
这里,我们给大家分享两篇文章来说一说一些进阶的文章思路,一篇是发表在我们的老朋友「Oncotarget」上的,另一篇是发表在「Journal of Proteome Research」(IF = 4.1)上的。
先看 Oncotarget 这篇「Genomic expression differences between cutaneous cells from red hair color individuals and black hair color individuals based on bioinformatic analysis」,文章是做的黑色素瘤的两种不同表型的个体的差异基因的生信分析。
Abstract 里说到 MC1R 这个基因的突变会导致高患癌率的 RHC 表型两种不同的表型,其中 RHC 表型会增加皮肤癌的发生率,那么 MC1R 的突变究竟影响了哪些基因?文章通过 PPI 网络分析,分别对比分析两个不同表型(RHC 和 BHC)的正常皮肤细胞和癌细胞中的差异基因。结果表明,在癌细胞的对比中没有差异,而在正常皮肤细胞中筛选出 23 个 hub 基因,并且其中 8 个基因异常表达,这一结果提示这 8 个基因的异常表达可能是 RHC 表型患癌风险提高的重要原因。

这篇文章利用了 3 个数据包进行综合分析,从而得到了一个 novel 的结论,文章利用 GSE44805 中的差异基因构建 PPI 网络筛选 hub 基因,再利用别的数据包中的测序结果验证这些基因确实存在异常表达,多方验证说明自己生信分析结果是可靠的。虽然作者一点实验也没有做,但是从数据量还有可靠性上来说,可能比自己辛辛苦苦地做小样本量测序还要靠谱。

文章中的分析方法(差异基因以及 PPI 分析)都是我们非常熟悉的。筛选出差异基因,将上调和下调的基因分别构建 PPI 网络,得到文中的 4 张图(不管怎么说,这图的颜值比上一期套路中分析的文章要高得多)。

这张图的构建方法这里不再赘述
小结
这篇文章的方法完全是可以借鉴和复制的,难点在于找到足够多的具有相似性和可比性的数据结果,以及找到一个合适的切入点得到一个相对 novel 的结论。
下面看 Journal of Proteome Research 上的这篇文章「Weighted Protein Interaction Network Analysis of Frontotemporal Dementia」。
一看这流程图就觉得这文章是生信专业的人做的文章。(本宫上学的时候,就觉得我们生命学院的学生都是码农,生物信息专业、生物医疗工程、生物科学这些专业的人天天都在编代码,完全感受不出生物专业的气息。)

这文章讲得啥咧,就是先选出 13 个种子基因,然后根据 PPI 数据库中蛋白质互作关系构建这 13 个种子基因的第一层网络结构。

再以第一层网络为种子构建第二层网络结构(然后电脑就死机了)。

然后分析第二层网络的拓扑学结构,从中筛选出 hub 基因(图中绿点表示最初的 13 个种子基因,蓝点表示第一层的基因)。在构建过程中,随着基因数量的不断增加,最先选出的 13 个种子基因未必就是后来的 hub 基因。文中还设置了对照组,并详细讲述了这 13 个种子基因的筛选方法。因为整个分析过程都是建立在生信分析的基础上,属于完全架空的,所以整个研究过程十分讲究逻辑上的严谨性。
小结
之所向大家介绍这篇文章,是觉得这种思路在生信分析的文章中可以借鉴,种子基因的选择可以通过临床上疾病中基因突变的概率来进行筛选,然后构建两层 PPI 网络,进行 GO,KEGG 分析,从而预测新的未知的疾病相关基因,如果后续能从别的数据包中得到表达量的验证或者是自己在临床样本中进行验证,那么整个文章的内容将会更加丰富。
局限性:PPI 数据库中其实很多蛋白质互作结果是没有意义的,因为在实际生物体中很多蛋白质互作情况是不可能发生的,只有在实验人为干预情况下才会发生。

上一篇:期刊编辑部流程

下一篇:论文文献分类号