中药高通量转录组研究进展
[摘要]中药是中华传统文化的瑰宝,是中华民族智慧的结晶。新方法技术的不断应用使得中药研究与时俱进。高通量转录组研究经过数年的发展,已经成为一项较为成熟的研究手段。该文对中药转录组研究概况进行了综述,比较了Roche公司的GS FLXTM平台和Illumina公司的HiSeqTM 2000平台两大测序平台,介绍了中药转录组分析的流程,并以西洋参和金银花为例,阐述了中药转录组研究的特色。对传统中药进行高通量转录组研究,可以从整体水平上了解目标物种的功能基因概况,明确活性成分的代谢通路,为中药研究奠定分子生物学基础,为传统中医药理论提供现代生物学阐释。但是,目前的中药转录组研究仍面临着分子基础薄弱,测序投资成本高,分析人员紧缺等困难。未来,伴随测序技术的发展与完善,转录组与蛋白质组、代谢组等组学的联合应用,将为开创高通量筛选与高效率研发相结合的新型中药产业发展模式奠定坚实的基础。
[关键词]中药; 转录组; 西洋参; 金银花
中药经过数千年的积累沉淀,承载着丰富的中医理论。近年来,中药研究进展飞速,不仅为医药产业提供了巨大的新药创制资源,更成为未来多靶点药物研发的源泉,弥补了西药治疗位点单一的不足。目前,指纹图谱技术和质谱色谱技术的应用,促进了中药有效成分的发现与鉴定[1-2]。然而尚有许多中医药理论因缺少现代自然科学的支撑和验证,难以被社会所接受。转录组(transcriptome)是指特定生物体在某种状态下所有基因转录产物的总和,转录组研究属于功能基因组学研究的范畴,是连接基因组与蛋白质组的纽带。转录组研究着重于功能基因的表达,阐述生物学过程中的分子机理,已经成为生物学领域较为成熟的研究手段。应用高通量转录组分析技术,可以从基因层面上解读中医药的现代内涵,阐述中药有效成分的代谢通路,为高通量发掘新型活性药物成分奠定了坚实的基础。自2009年以来,已有青蒿Artemisia annua[3]、西洋参Panax quinquefolius[4]、淫羊藿Epimedium Sagittatum[5]、金银花Lonicera japonica[6-7]等数种传统中药材进行了高通量转录组的测序和分析。本文综述了转录组技术在中药领域的研究进展,对金银花、西洋参等代表物种的研究进行了详细阐述,总结了中药转录组分析的特色与不足,并对中药转录组的研究进行展望。
1中药转录组研究
1.1中药转录组研究概况
截至2014年1月,已有17种中药进行了高通量转录组的研究。其中,开展研究最早的是青蒿A. annua[3],随后,中药转录组研究发展迅猛,2012年,有8种中药进行了转录组研究(表1)。除了胡黄连Picrorhiza kurrooa[8]和百合Lilium regale[9],剩余的15种中药的转录组测序工作均由中国人完成,体现了我国在中药研究领域的霸主地位。早期的转录组测序主要以GS FLXTM System和GS FLXTM Titanium System平台为主;到2012年,主要的测序平台变为Illumina HiSeqTM 2000;只有罗汉果Siraitia grosvenorii[10]和金银花L. japonica[6]的转录组研究采用了Illumina GAⅡ platform平台。金银花L. japonica[6]注释得到的基因数目最少,为5 330~6 591个,梅花鹿鹿茸Cervus nippon [14]注释得到的基因数目最多,为138 642个。梅花鹿鹿茸转录组注释得到了较多的基因,除了其本身基因丰富、可变剪切较多之外,还可能是由于其转录组的拼接效果较差,contig的N50为 90 bp,使得原本由多个外显子构成的基因注释成了分别的几个较短的基因,从而使得注释得到的基因数目偏多。
1.2中药转录组的测序平台比较
表1可知,中药转录组研究的两大平台为Roche公司的GS FLXTM平台和Illumina公司的HiSeqTM 2000平台。GS FLXTM平台的历史可以追溯到2005年,454公司推出了基于焦磷酸测序法的高通量基因组测序系统[22],这一技术开创了边合成边测序(sequencing-by-synthesis, SBS)的先河,其后的第二代基因组测序系统——Genome Sequencer FLXTM System(GS FLX)[23]就是在此基础上建立起来的(图1)。454公司被Roche公司收购之后,于2008 年10 月,推出了全新的测序试剂——GS FLXTM Titanium,全面提升了测序的准确性、读长和测序通量。目前,Roche 454 GS FLXTM Titanium System每次运行能产生100万条序列,平均读长能达到400~600 nt,且第400个碱基的准确率能达到99%。一次运行所需时间不到10 h,便能获得40 Gb左右的测序数据。HiSeqTM 2000平台是Illumina公司Solexa平台中最为成功的商业化型号,一次运行可以获得60亿条序列,总数据量达到540~600 Gb,弥补了平均读长较短的不足[24]。其测序的原理基于桥式PCR,HiSeqTM 2000平台在此基础上改进了聚合酶,并使用甲酰胺变性,提高了桥式PCR的扩增效率(图1)。另外,HiSeqTM 2000平台价格相对较低,因此,成为目前应用最为广泛的二代测序平台。
2中药转录组研究的特色
2.1中药转录组分析流程
最早进行转录组研究的青蒿A. annua[3],采用454 GS FLXTM平台,共获得406 044条序列,平均读长为210个碱基;组装得到42 678条contig和147 699条singleton。可以说,数据拼接是转录组研究中数据分析的第一步。根据测序平台的不同,所采用的数据拼接软件也各不相同。例如,在GS FLXTM平台上,甘草Glycyrrhiza uralensis[11]、丹参Salvia miltiorrhiza[12]和人参Panax ginseng[15]均采用该平台自带的拼接软件GS De Novo Assembler software v2.0.01 (454 Life Sciences, Roche)来完成序列的组装;而在HiSeqTM 2000平台上,首乌Polygonum cuspidatum[16]和红花Carthamus tinctorius[17]采用的软件为SOAPdenovo,白木香Aquilaria sinensis[21]采用的软件为Trinity。
原始数据经过拼接之后,就可以进行下一步的基因注释。在基因注释的过程中,通过不同数据库的交叉比较,可以得到较好的注释效果。通常第一步是在 NCBI(美国国立生物技术信息中心)的非冗余(non-redundant,nr)蛋白库中通过BLASTX进行比对,设定阈值为1×10-5。由于非冗余蛋白库中存放着大量物种的蛋白质序列,这一步通常耗费较多的时间,得到的注释结果也较为全面。为了对注释得到的基因进行功能分类,常采用 InterProScan[25]和Blast2GO[26]进行GO(Gene Orthology,基因本体论)注释。GO注释包含三大层面:细胞组分(cellular component)、分子生物学功能(molecular function)和生物学途径(biological process),每个层面下又有不同级别的细分类,可以较为清晰的呈现转录组的功能分类情况[27]。另外,常采用的还有COG(clusters of orthologous group,直系同源聚类分析)注释[28]。通过COG注释,可以根据同源比对注释未知蛋白序列,还可以查看特定条目下的蛋白数目及缺失情况,从而能推测特定代谢通路是否存在。另一个可以用于基因通路分析的数据库是KEGG(Kyoto encyclopedia of genes and genomes,京都基因与基因组百科全书)[29]。KEGG 的PATHWAY 数据库整合了分子互动网络(比如通道,联合体)的知识,实现了基因目录与更高级别的细胞、物种和生态系统水平的系统功能的关联。KEGG强大的图形功能,能够更为直观全面的展现基因在代谢途径上的分布以及各代谢通路之间的相互关系。早期研究中,青蒿A. annua[3]的转录组研究只使用了nr库注释和GO注释,西洋参[4]P. quinquefolius的转录组研究只使用了nr库注释和KEGG注释;而在近期研究中,金银花L. japonica[6]、虎杖Polygonum cuspidatum[18]、杜仲Eucommia ulmoides[19]等的转录组研究全面的使用了nr库注释、GO注释、COG注释和KEGG注释,标志着中药转录组研究的方法体系日趋完善。
2.2转录组技术在中药中的应用及优势
虽然中药转录组的研究尚处于起步阶段,相关研究还很零散,但是,已有数种中药物种的转录组研究取得了突破性进展,显示出转录组技术在中药研究中的巨大潜力,为后续中药转录组的研究奠定了基础。中药转录组研究能够通过数据分析,发现与中药活性成分相关的新基因型和新代谢通路。例如,甘草G. uralensis[11]的转录组研究通过数据分析发现了甘草酸骨架合成相关的16个酶的候选基因,通过与Real-time PCR实验相结合,又发现了9个可能参与甘草酸合成的基因,包括3个细胞色素P450和6个糖基转移酶基因,加深了对甘草酸生物合成途径的认识。红花C. tinctorius[17]的转录组研究着重对类黄酮和不饱和脂肪酸的生物合成通路进行分析,KEGG预测结果表明相关通路基因在红花中较为保守。另外,中药转录组研究还能有效结合转录组和生化实验数据,明晰其活性成分的作用机制,从基因表达的层面上,更好地阐释中医药理论的深刻内涵。例如,西洋参 P. quinquefolius[4]的转录组研究结合了甲基茉莉酸诱导实验和Real-time PCR实验,确定了5个可能参与人参皂苷合成的候选基因,包括一个细胞色素P450和4个UDP-糖基转移酶基因。金银花L. japonica[6]的转录组研究结合气象色谱质谱及高效液相色谱技术,建立起了基因表达量与活性物质含量之间的关联。
2.3代表中药转录组研究解析
2.3.1 西洋参转录组研究 西洋参P. quinquefolius[4]是目前应用最广泛的传统中药材之一,也是较早开展转录组研究的中药材之一。西洋参转录组研究采用454 GS FLXTM Titanium System平台,共得到209 747条高质量序列,平均读长为427个碱基,数据组装得到16 592条contig和14 496条singleton。通过nr库注释,得到21 684个基因。通过KEGG通路注释,发现西洋参的转录组中包含了甾醇骨架合成通路、油菜素类固醇合成通路和豆甾醇合成通路的所有基因。人参皂苷的合成途径中有2步是由细胞色素P450基因催化的,第一步是催化达玛烷转化为原人参二醇,第二步是催化原人参二醇转化为原人参三醇。因此,在西洋参转录的研究中,着重进行了细胞色素P450的注释和分析,共获得了150个细胞色素P450基因,并进行了甲基茉莉酸诱导实验的验证,筛选得到了一系列与人参皂苷合成相关的细胞色素基因。另外,该研究在新基因型发掘方面,还发现了235个糖基转移酶基因。西洋参的转录组研究结合了高通量测序、数据分析和后期的实验验证,研究体系完整,实验结果详实。实现了对西洋参人参皂苷代谢通路的分析,有利于今后工程西洋参的研发和应用。
2.3.2 金银花转录组研究 金银花L. japonica是另一种具有较高药用和经济价值的传统中药材,其有效成分具有消炎抗菌抗病毒的功效。2012年和2013年相继有2篇文章开展了对金银花转录组的研究[6-7]。2012年的文章着重研究了金银花不同花期(花苞期、花期1、花期2)的转录组,证实了金银花花苞期八大活性物质的生物合成明显高于花期的规律,为今后对金银花的质量监控提供了新方法新思路。另外,该研究还对金银花活性物质——绿原酸和木犀草苷,进行了基因及通路水平的阐释,加深了对对萜类化合物和脂肪酸生物合成的认识。除此之外,该文章还对金银花和金银花变异种的转录组进行了比较,揭示了不同品种活性物质的差异。通过传统的 KEGG,COG,GO注释分析,并结合Real-time PCR,GC-MS和HPLC技术,在功能基因表达量与活性物质含量之间建立起关联。
通过对不同发育时期中药转录组的比较分析,可以明确其功能基因的表达规律,与活性代谢产物的数据相结合,可筛选获得活性成分的指示标记,简化后续的质量监控,实现微量样品、高精确度、连续监测的目的。另外,通过对不同中药品种的转录组比较,结合不同品种药效活性的数据,可以确定主效基因,为今后中药转基因工程提供候选基因。
3中药转录组研究的不足
通过近几年的飞速发展,中药高通量转录组研究获得了一定的成果,但是,中药转录组的研究仍存在许多不足,需要更多的科研工作者投身到中药转录组领域的研究中。
3.1分子基础弱,基因注释困难
数千年来,在中医药理论的指导下,中药经历了由单味药到复方药的发展,其技术的精髓在于提取、分离和配伍。色谱技术、红外光谱技术等技术广泛的应用于中药研究中[30-32]。但是,分子生物学在中药领域起步较晚,中药的分子生物学研究基础薄弱,进行基因组和转录组的研究,很多关键的功能基因在已有数据库中难以得到准确注释。另外,中药博大精深,明代李时珍著成的《本草纲目》中就有1 892种药物,每一种中药都有自己的独特之处,相关代谢通路各具特色,不能一概而论,这又给中药转录组的研究提出了新的挑战。
3.2生长周期长,样本难以获得
中药质量的优劣,取决于有效成分含量的高低。部分中药的生长周期长,而且药效伴随生长周期的延长而增加,活性物质也随之积累。正如中医“脾胃学说”的创始人李杲所说的,“凡诸草、木、昆虫、产之有地;根、叶、花、实,采之有时。失其地,则性味少异;失其时,则气味不全”。但是,较长的中药培植周期,使得样本难以获得,不便进行转录组的研究。另外,一些珍贵药材,数量有限,甚至已经处于短缺状态,使得转录组的研究受到了较大的局限。
下一篇:浅谈中医护理在社区中的用处