代谢组学数据分析投稿期刊

2个回答默认排序

默认排序

按时间排序

AstrophelandStella

已采纳

网站： Click here to start 如果你上传的列表中每一列为一个样本，Format选择Samples in columns；如果每一行为一个样本，Format选择Samples in rows 点击Submit Data Integrity Check: Data Filtering: Filtering features if their RSDs are > 25% Interquantile range (IQR) Normalization overview: 点击proceed

295 评论 1小时前发布

海棠花花

1.代谢物提取，一般要求每组至少10个样； 2.在所有提取好的样本中取等量混合作为QC； 3.QC样本与实验样本穿插上机，开始十个QC，结尾三个QC，中间每十个样本穿插一个QC样本。

得到质谱谱图数据经软件处理后得到峰表。峰表格式一般为：每行为一个m/z，每列为一个样本数值表示该样本中某个m/z的信号响应。

第一列为保留时间_质荷比来代表离子，如 0.10_96.9574m/z 。

一般有如下几点： 1.数据预处理。如缺失值过滤填充、数据归一化等。 2.数据质控。包括CV分布、QC等。 3.统计分析。包括单变量、多变量等。 4.功能分析。包括Pathway、网络分析、Biomarker筛选等。

缺失值处理 1）缺失原因 a. 信号很低检测不到； b. 检测错误，如离子抑制或者仪器性能不稳定； c. 提峰的算法限制，不能从背景中将低的信号提取出来； d. 解卷积时不能将重叠的峰全部解析出来。

2）缺失值过滤比如： QC样本中缺失超过50%的去除；样本中缺失值超过80%的去除。

3）缺失值填充 -- 最小值填充 -- 平均值/中值填充 -- KNN（ k-nearest neighbour）填充 -- BPCA（Bayesian PCA）填充 -- PPCA（probabilistic PCA）填充 -- Singular Value Decomposition (SVD) 一般推荐KNN。

噪音信号去除一般是低质量的离子。 1）低质量离子的确定：计算某个离子在QC样本中的RSD（标准差/均值）；其值越小，说明偏差越小；

2）判断标准： -- 对单个离子峰而言，RSD<0.3，则该离子峰合格，否则去除； -- 对于整体数据而言，RSD<0.3，峰所占比例>60%，则整体数据合格；

样本归一化目的是为了提高样本间的可比性。样本间有差异性，如不同人的尿液浓度不同，不能直接拿来比较。

可在采集前归一化，如肌酸酐归一化；也可在采集后归一化，如sum，pqn，quantile等。对于数据分析而言，通常是后者，如总和归一化（sum）。

数据转换下游的分析一般要求数据为正态分布或者高斯分布；所以数据通常要进行Log转化或power转化，这两者都能够将极大值的抑制效应消除，并且能够调整数据的分布，如下图；

Log转化对0值比较敏感，必须首先去除零值。

数据转换——scaling 目的是消除极大值效应。对不同样本中同一个m/z的强度差异过大进行调整，极大值的存在往往会掩盖较低值的变化特征。

可将某个m/z在所有样本中的强度的值，除以一个因子（SD值）；方法如auto (uv)，pareto（推荐），vast， range等。

相当于上面样本归一化是为了样本可比，scaling是为了离子可比。

QC样本的TIC重叠情况

一般认为：所有的QC样本峰重叠良好；峰强度波动差别不大；

QC样本中CV<30%的峰所占比例

PCA中QC样本的聚集程度

QC样本的相关性

单变量分析一次只分析一个变量，即一个m/z，考察不同组别不同样本的这个m/z表达有无差异？常见的方法有倍数分析，t检验，秩和检验，方差分析等。

聚类分析核心思想就是根据具体的指标(变量)对所研究的样品进行分类；聚类分析需要设定一个方法来衡量样本间的相似性或者不相似性（常用欧式距离，相关性系数等）；常见聚类的方法：系统聚类（层次聚类）、K-均值聚类等。

K-均值首先要估计出将要分出几个类，然后将全部的基因按照相似性的距离，归入这几类中。 K– means计算量要小得多，效率比层次聚类要高。

无论哪种分类方法，最终要分成多少类，并不是完全由方法本身来决定，研究者应结合具体问题而定。聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法，也会的得到不同的分类结果。分类的结果没有对错之分，只是分类标准不同。使用聚类方法时，首先要明确分类的目的，再考虑选择哪些变量(或数据)参与分类，最后才需要考虑方法的选择。

多变量分析 1）PCA分析以下分别是得分图（样本在新的坐标系中的位置）和载荷图(loading图，原变量与主成分间的夹角)

PCA怎么看？

2）偏最小二乘法 PLSDA的图和PCA类似。只是一种监督学习的方法，事先给样本分类，最后看能否将不同组分开。

用R2和Q2进行模型评价。 R2是相关性系数，表示这个模型的拟合效果，是一个定量的测量（范围0-1），意味着所建立的模型能在多大程度上代表真实的数据；一般当R2在0.7-0.8表示模型解释能力较好，较差的模型的R2往往为0.2-0.3

Q2表示PLS-DA模型的预测能力；一般Q2大于0.5表示预测能力较好，并且R2与Q2的值应该比较接近。

使用permutation test模型进行过拟合检验。

VIP ( Variable Importance in Projection) 变量重要性投影每一个m/z都有VIP值，表示这个m/z在某一个主成分上的投影，即重要程度；一般我们使用第一、第二主成分的VIP来表示这个m/z对模型分型的贡献程度， VIP>=1被认为是具有显著贡献的。

代谢组学数据分析最后两部分内容——功能分析和生物标志物筛选见下节内容

273 评论 3小时前发布

代谢组学数据分析投稿期刊

2个回答 默认排序 默认排序 按时间排序

相关问答

论文发表

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序