医学论文随访数据处理

4个回答默认排序

默认排序

按时间排序

火山红虎

已采纳

作者丨Lily 来源丨医数思维云课堂（ID:Datamedi）在医学临床实验研究中，我们经常会收集到患者的多次重复测量纵向随访数据，即每一个患者都有多次观测值，这些观测值是在不同时间记录的，观测次数、时间和间隔都不一定一样，且多次观测值都具有潜在相关性，往往在做分析时是我们更需要关注的。那么问题来了，面对不同于我们经常收集到的横断面数据，该如何处理分析这些纵向数据呢？别急，听我慢慢道来。针对纵向随访数据，结合数据特点，应利用线性混合效应模型进行建模。该模型包含了固定效应以及随机效应，其中随机效应描述的是在不同层次的不同水平中，各变量对总体观察变量的贡献。那针对线性混合效应模型，如何建模分析呢？今天我推荐R语言当中线性混合效应模型的两个包： 1、 nlme包，这是相对成熟的R包，它除了可以分析分层的线性混合效应模型，也可以处理非线性模型。在优势方面，个人认为它可以处理相处复杂的线性和非线性模型，可以定义方差协方差结构，也可以在广义线性模型中定义连接函数。缺点呢，随机效应的定义过于呆板，并且当数据量很大时，速度很慢，也不能处理多元数据。 2、 lme4包，相对于nlme包而言，它的运行速度快一点，对于固定效应、随机效应的结构也可以相对更复杂一点。但是不能处理协方差和相关系数结构。接下来通过案例，让我们更好的理解这个模型：例：牛奶蛋白质含量这个数据是纵向数据的一个典型的例子。曾经被Diggle,.(2013)等研究过，这个数据关于79头澳大利亚的奶牛牛奶蛋白质含量和三种饲料的关系，对每一头奶牛计划观测19次，每周一次，但是结果得到，有些奶牛观测了19周，有些不到19周，还有最少的观察了12次。变量名称变量解释 id牛的编号 week第几周 protein蛋白质含量 diet饲料种类：;; 01 数据的基本描述 library(lattice) data_milk<("") head(data) xyplot(protein ~ week | diet, data = data_milk, type = c("b", "smooth"), lwd = 2, = TRUE, ylab = "protein", xlab = "Time (weeks)") 02 建立线性混合效应模型 1、 nlme包 library(nlme) model1<-lme(protein~week+diet,random=~week|id,data_milk,method="ML") summary(model1) 结果如下：接下来我们可以用 F检验来看各个变量的显著性： anova(model1) 结果如下：通过上述结果来看，两个变量都显著，但week的系数是负数，这是由于总体上，一开始试验时牛奶的蛋白质含量大多相对较高，后面有几周下降，然后有回升，所以总体来说似乎随时间是下降的。 2、 lme4包，但是推荐使用 lmerTest包，它的结果可以输出P值，即显著性结果值。 library(lme4) library(lmerTest) model2<-lmer(protein~week+diet+(week|id),data_milk) summary(model2) 结果如下：通过上述两个包建立的模型可以看出，得到的结果几乎一样，但是 lmer()函数针对变量较多时建立模型较好，运行速度较快。同时也可以看得出，我们的响应变量是定量变量，因此，我们选择建立线性混合效应模型，但若是我们的响应变量是分类变量，那方法就不一样咯。怎么样？是不是挺简单的，希望大家多多练习。如果你有关于回归分析方面的问题，可以及时联系我，我一定不遗余力哟，期待我们的再次相约。

159 评论 1小时前发布

脑子已停机

绝大多数的论文撰写,均需通过一定数量临床病例(或资料)的观察,研究事物间的相互关系,以探讨客观存在的新规律。如确定新诊断、新治疗等措施是否优于原沿用的方法,就需进行两种方法比较,这就涉及统计处理;统计设计又是整个课题研究设计中一个重要的组成部分。显然,经正确统计处理的结果可信度高,论文的质量也高。

226 评论 7小时前发布

端木青烟

缺失值的处理：缺失值是人群研究中不可避免的问题，其处理方式的差异可能在不同程度上引入偏倚，因此，详细报告数据清理过程中缺失值的处理方法有助于读者对潜在偏倚风险进行评价。例如，瑞舒伐他汀试验在统计分析部分详细说明了缺失值的填补策略，包括：将二分类结局中的缺失值视为未发生事件；将生物标志物和心电图测量中的缺失值进行多重填补（multiple imputation）；为了证明缺失值处理的合理性和填补结果的稳定性，研究还比较了多重填补与完整数据（complete-case）分析的结果。2、数据的预处理：实施统计分析之前往往需要将原始数据进行预处理，如：对连续变量进行函数转换使其更接近正态分布，基于原始数据构建衍生变量，将连续变量拆分为分类变量或将分类变量的不同类别进行合并等。医学论文应报告处理原始数据的方法及依据，瑞舒伐他汀试验即在统计分析部分描述了对血液生物标志物的对数转换。3、变量分布特征描述：确定统计分析使用的变量，并针对每一个变量的分布特征进行描述，是决定研究选用何种统计分析方法的基础。医学期刊虽然普遍对此提出要求，但作者往往套用常用方法，如：连续变量符合正态分布时，采用均数（标准差）描述，否则采用中位数（四分位间距）描述；分类变量采用频数（百分比）描述等。事实上，应根据研究设计类型、统计分析目的和数据特征选择恰当的描述方法。例如，CKB选择采用年龄、性别和地区校正的均值和率来描述人群分布特征，而非简单的报告连续变量的均数和分类变量的构成比。4、主要分析（primary analysis）：指针对研究结局的统计分析，是研究论文的核心证据。因此，医学论文应详细描述主要分析的实施过程和适用性。在试验性研究中，应明确统计分析数据集、试验效应指标、相对或绝对风险及其置信区间的计算方法、以及假设检验的方法。

263 评论 9小时前发布

doctorsher

统计分析方法的选择:对于定量资料,应根据所采用的设计类型、资料所具备的条件和分析目的,选用合适的统计分析方法,不应盲目套用t检验和单因素方差分析;对于定性资料,应根据所采用的设计类型、定性变量的性质和频数所具备的条件以及分析目的,选用合适的统计分析方法,不应盲目套用χ2检验。对于回归分析,应结合专业知识和散布图,选用合适的回归类型,不应盲目套用简单直线回归分析,对具有重复实验数据的回归分析资料,不应简单化处理;对于多因素、多指标资料,要在一元分析的基础上,尽可能运用多元统计分析方法,以便对因素之间的交互作用和多指标之间的内在联系作出全面、合理的解释和评价。

121 评论 9小时前发布

医学论文随访数据处理

4个回答 默认排序 默认排序 按时间排序

相关问答

医学论文

向你推荐

热门问题

4个回答默认排序

默认排序

按时间排序