基因家族分析论文写作指导

发布时间：2023-02-16 16:41

基因家族分析论文写作指导

基因家族（gene family），是来源于同一个祖先，由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因，它们在结构和功能上具有明显的相似性，编码相似的蛋白质产物，同一家族基因可以紧密排列在一起，形成一个基因簇，但多数时候，它们是分散在同一染色体的不同位置，或者存在于不同的染色体上的，各自具有不同的表达调控模式。

按功能划分：把一些功能类似的基因聚类，形成一个家族，例如GH家族（糖苷水解酶家族）等。按照序列相似程度划分：一般将同源的基因放在一起认为是一个家族，一般使用 orthoMCL进行聚类

motif 是蛋白质分子具有特定功能的或者作为一个独立结构域一部分相近的二级结构聚合体

NBS-LRR抗病基因家族： NBS-LRR(nucleotide-binding site and leucine-rich-repeat)是植物中最大类抗病基因家族之一。

MADS-box 基因家族是植物体内的重要转录因子,它们广泛地调控着植物生长、发育和生殖等过程。在植物中参与花器官的发育，开花时间的调节，在果实、根、茎、叶的发育中都起着重要的作用。

热激蛋白70家族(HSP70) 是一类在植物中高度保守的分子伴侣蛋白,在细胞中协助蛋白质正确折叠。

钙依赖蛋白激酶(CDPK) 是一类仅依赖Ca2+而不依赖钙调素的蛋白激酶,参与调控多种信号转导途径,而膜结合脂肪酸脱氢酶(membrane-bound FAD)是一类不饱和脂肪酸合成途径的关键酶。

这两类基因分别在低温环境胁迫下的信号转导和稳定质膜性质中起着非常重要的作用。

WRKY 基因家族是植物前十大蛋白质家族之一，大量研究表明， WRKY 基因家族的许多成员参与调控植物的生长发育、形态建成与抗病虫等。

在这些常规的生信分析后，一般的文章还会加上一些湿实验去验证，例如不同非生物条件下基因家族的表达等(PCR为主)。

如果你想研究基因家族，阅读别人的文献，从中体会其研究的思路与方法是必不可少的，下面给大家推荐一些近期发表的文章。

auxin response factor gene family

SBP-box gene family

ARF gene family

这周主要是热一热身，后面会按照每个生信分析的点，结合实例详细给大家介绍如何进行基因家族的生物信息分析。敬请期待！

参考链接：

继续和大家分享在推特上看到的有趣的内容：很多人都没有意识到安装生信工具并没有那么简单，并且就算你安装好了该工具，你用该工具运行你自己的数据远远没有想象那么简单。就像下图提到的，作为一个生信工作者，你是否也遇到这一系列头痛的经历？

欢迎大家在评论区留言，分享一些你在生信中所遇到的头痛经历。

TBtools基因家族分析详细教程（1）

一共分为4个部分 TBtools基因家族分析详细教程(1) TBtools基因家族分析详细教程(2)基因家族成员的基本分析 TBtools基因家族分析详细教程(3)基因家族成员的进化分析1 TBtools基因家族分析详细教程(3)基因家族成员的进化分析2

Introduction 基因是染色体上一段可以发生转录的区域（内含子外显子启动子）转录本才是基因的研究实体基因家族来源于同一个祖先，由同一个gene通过基因重复而产生两个或更多的拷贝而构成的一组gene，其在结构和功能上就有明显的相似性，编码相似的蛋白质产物，同意家族gene可以紧密排列在一起，形成一个基因簇，但多数时候，他们分散在同一染色体的不同位置，或存在于不同的染色体上，各自有不同的表达调控模式序列高度相似的序列，互为同源gene，归属于一个基因家族（拷贝数目多于1）结构域的角度来说，具有保守结构域（某个或多个）的序列，即为某个基因家族的序列（可能同时要不具有另外的某个结构域）

基因组序列信息：fasta格式文件基因组基因结构注释信息：制表符分隔，存储基因的外显子内含子，CDS等坐标信息的.gff3或.gtf文件（区分基因结构注释与基因功能注释）

fasta文件每个名称后面有+号，简化

比对得到的结果，去重复得到uniq ID。就是query序列匹配到上一步由CDS得到的protein序列（target）的结果。下面再extract上述42个ID的protein sequence的fasta数据

用TBtools把xml格式转化为table格式

按Query_def删除重复项，保留的都是第一个hit，也就是最匹配的hit。为了判断是不是全部都家族成员，可以对可疑的基因进行文献搜索通过初步筛选，上述42个基本都是基因家族成员，为了进一步确定，进行下一步基于保守结构域进一步筛选

ncib web cd search 或pfam

pineapple的(这个图有问题，可以直接在修改short name列名就可以，注意空格等，这里我就不再改了，后面改过来了)

直接删除，若严谨，重新截取此基因组序列的前后序列，具体

打开genePose文件，查找刚才可疑的某个gene比如Aco005453.1

结果说明该基因本来该两个结构域，现在却一个。基因组注释需要更加完善。可以替换信息进去。其余三个类似。

为什么要做基因家族（前言）

基因家族 : 来源于同一个祖先，由一个基因通过基因复制而产生的两个或多个拷贝而构成的一组基因，他们在结构和功能上面具有明显的相似性，编码相似的蛋白质产物。

包括直系同源和旁系同源

A：全基因组复制：全基因组复制造成的重复区通常是一大片区域中所有基因的重复，而不是单个基因或几个基因的重复。高等植物，很多都经历过多倍化过程，那么基因组在多倍化的过程中，就会发生基因的成倍增加 B：串联重复复制：串联复制主要发生在染色体重组区域，串联复制形成的基因家族成员通常紧密排列在同一条染色体上，形成一个序列相似、功能相近的基因簇。 C：转座子介导的复制：由转座子介导的复制 D：散在复制：导致复制的基因距离较远，甚至位于不同的染色体 E：逆转录复制：指已经转录和剪切的mRNA，再经过逆转录过程形成cDNA，然后随机插入到染色体的某一位置形成新的重复基因的过程。

积累突变，最终失去功能，形成假基因

分化，突变积累亚功能化产生新功能趋同，单个基因成员共享相同或几乎相似的序列。基因家族维持高度同质性的过程（致同进化）

超家族家族亚家族

1. 基因家族的基因在物种之间都是比较保守的，通过基因家族分析可以得到某物种特有的家族基因，而这些基因则有可能与该物种的特异性有关。 2. 通过对多物种构建系统发育树，从而得到物种起源进化或亲缘关系方面的信息，并为后续遗传操作提供参考。 3. 基于单拷贝基因家族，可估算出物种间的分歧时间。 4. 可以挖掘某物种中哪些基因发生了明显的扩增/收缩，这些变化可能与该物种某些强/弱化的生物学分子功能有关。 5. 通过分析家族基因在进化过程受到的正向选择，确定与该物种环境适应性相关的基因。

1.搜索基因家族成员蛋白保守结构域，鉴定基因家族成员 2. 构建系统发育树 3.基因家族成员在染色体上的分布（circos图，核型图） 4.基因结构分析 5.基因家族成员Motif分析及绘图 6. 表达分析（不同组织和生长阶段，生物与非生物胁迫，实验设计qRT-PCR） 7.进化分析（多个物种进化树构建，物种间的共线性分析） 8.结合转录组数据分析该基因家族成员的表达

基因家族扩张与收缩分析及物种进化树构建（上）

首先，选取不同物种的Protein数据集：；；；；；；；；；；；
然后进行数据处理，去冗余，只保留最长转录本，去除可变剪切：
python3 -i -o

将处理好的数据置于一个文件夹中“Dataset”

OrthoFinder这个软件，之前有一篇文章已经介绍过了，这里就不在赘述，这个软件安装十分友好，直接conda安装即可；
nohup orthofinder -f Dataset -M msa -S diamond -T iqtree -t 24 -a 24 2> &
orthofinder参数详情：
-t 并行序列搜索线程数（默认= 16）
-a 并行分析线程数（默认值= 1）
-M 基因树推断方法。可选：dendroblast和msa（默认= dendroblast）
-S 序列搜索程序（默认= blast）选项：blast，mmseqs,，blast_gz，diamond（推荐使用diamond，比对速度很给力）
-A 多序列联配方式，需要添加参数-M msa时才有效；（默认= mafft）可选择：muscle，mafft
-T 建树方法，需要添加参数-M msa时才有效，（默认 = fasttree）可选：iqtree，raxml-ng，fasttree，raxml
-s <文件> 可指定特定的根物种树
-I 设定MCL的通胀参数（默认 = 1.5）
-x Info用于以othoXML格式输出结果
-p <dir>将临时pickle文件写入到<dir>
-l 只执行单向序列搜索
-n 名称以附加到结果目录
-h 打印帮助文本
如果只需要查找直系同源基因，只需接“-f” 参数即可；此步也可建树，采用默认的建树方法fasttree，为无根树。
nohup orthofinder -f Dataset &
如果添加-M msa -T iqtree设定制定参数，可按照设定的参数使用最大似然法构建有根的物种进化树，构建的树为STAG树。
nohup orthofinder -f Dataset -M msa -S diamond -T iqtree -t 24 -a 24 2> &

关于构建系统进化树，有很多种做法，常见的有利用物种全部的蛋白序列，构建STAG物种树；也有使用单拷贝直系同源基因构建的物种进化树，关于这一点，OrthoFinder查找同源基因，可以输出直系单拷贝同源基因的序列结果，后续也可使用其他构树软件及算法进行进化树构建。关于建树方法，则有距离矩阵法、最大简约法、最大似然法以及贝叶斯；当然目前主流采用的基本为最大似然法和贝叶斯，其中贝叶斯算法计算量巨大，耗时最久，其构建的树也认为最为“逼真”，但文章中使用较多的还是最大似然法，其耗时也需蛮久。

OrthoFinder输出的结果会在OrthoFinder文件夹下面的以日期命名的文件夹中，如：~/OrthoFinder/Results_May08

其中，我们可以用来作为CAFE的输入文件，分析基因家族的扩张与收缩；使用作为推断的物种树，并使用r8s，从中提取超度量树（ultrametric tree）即时间树；

python -i -o -s 6650255 -p 'Oryza_sativa,Arabidopsis_thaliana' -c '152'
参数：
-i path_tree_file: path to .txt file containing tree in NEWICK format
-s n_sites: number of sites in alignment that was used to infer species tree
-p list_of_spp_tuples: list of tuples (each tuple being two species IDs whose mrca's age we are constraining; e.g., [('ENSG00','ENSPTR'),('ENSFCA','ENSECA')]
-c list_of_spp_cal_points: list of flats, one for each tuple in list_of_spp_tuples (e.g., [6.4,80])
-s 即用于推断物种树的比对序列碱基数目；
-p 已知物种树中的一对物种；
-c 已知一对物种的分化年限：
可在 timetree 网站查询：为152 mya

conda install cafe

vim

tree即为r8s提取的超度量树；

python -i -o reports/summary_run
：统计每个节点中扩张，收缩的基因家族数目；
：具体发生变化的基因家族

python3 / -pb 0.05 -pf 0.05 --dump test/ -g svg --count_all_expansions
输出svg格式的文件，可导入AI编辑美化；

CAFE_fig运行报错：（module 'ete3' has no attribute 'TreeStyle'）
报错解决：
vim /

程序还在运行，后续贴出结果图。

OrthoFinder
timetree

r8s
【OrthoFinder】
Emms, D.M., Kelly, S. OrthoFinder: solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy. Genome Biol 16, 157 (2015) ( )
Emms, D.M., Kelly, S. OrthoFinder: phylogenetic orthology inference for comparative genomics. Genome Biol 20, 238 (2019) )
【CAFE v.4.2.1】
Han, M. V., Thomas, G. W. C., Lugo-Martinez, J., and Hahn, M. W. Estimating gene gain and loss rates in the presence of error in genome assembly and annotation using CAFE 3. Molecular Biology and Evolution 30, 8 (2013)
【iqtree v. 1.6.12】
Lam-Tung Nguyen, Heiko A. Schmidt, Arndt von Haeseler, and Bui Quang Minh (2015) IQ-TREE: A fast and effective stochastic algorithm for estimating maximum likelihood phylogenies. Mol Biol Evol, 32:268-274.
【modelFinder】
Subha Kalyaanamoorthy, Bui Quang Minh, Thomas KF Wong, Arndt von Haeseler, and Lars S Jermiin (2017) ModelFinder: Fast model selection for accurate phylogenetic estimates. Nature Methods, 14:587–589.
【R8s v. 1.81】
Sanderson M J. R8s: inferring absolute rates of molecular evolution and divergence times in the absence of a molecular clock. Bioinformatics, 2003, 19(2): 301-302.
【STAG tree】
Emms D.M. & Kelly S. STAG: Species Tree Inference from All Genes (2018), bioRxiv

直系同源低拷贝核基因（orthologous low-copy nuclear genes, LCN）：在进化过程中，新基因通常来自事先存在的基因，新基因的功能从先前基因的功能进化而来。新基因的原材料来自基因组区域的重复，这种重复可包括一个或多个基因。作为物种形成的伴随事件而被重复，并继续保持相同功能的基因，称为直系同源基因（orthologous）。新的基因功能可由在单个物种的基因组中发生的重复引起的。在一个基因组内部的重复导致旁系同源基因（paralogous gene）。
最大似然法（maximum likelihood method）：使用概率模型，寻找能够以较高概率产生观察数据的系统发生树。
外群的选择：大多数的种系发生重建方法会产生无根树，但是观察树的拓扑结构无法识别树根应在哪一分支上。实际上，对于要证实哪一个分类单元的分支先于其他的分类单元，树根必须确定。在无根树中设定一个根，最简单的方法是在数据集中增加一个外群（outgroup）。外群是一种分类操作单元，且有外部信息表明外群在所有分类群之前就已分化。研究演化历史，一般选择比目标序列具有较早进化历史的序列作为外类群。
Bootstrap support: bootstrap是统计学上一种非参数统计方法，通过有放回的随机抽样，构建分类回归树。Jackknife与bootstrap类似，只是每次抽样时会去除几个样本，像小刀一样切去一部分。所谓bootstrap法就是从整个序列的碱基（氨基酸）中任意选取一半，剩下的一半序列随机补齐组成一个新的序列。这样，一个序列就可以变成许多序列，一个序列组也就可以变成许多个序列组。根据某种算法（距离矩阵法、最大简约法、最大似然法），每个多序列组都可以生成一个进化树。将生成的许多进化树进行比较，按照多数规则（majority-rule）就会得到一个最“逼真”的进化树。

上一篇：中国科技核心期刊包括哪些

下一篇：哪些杂志需要儿童绘画投稿

基因家族分析论文写作指导