生存分析论文期刊
生存分析论文期刊
在2017年到2018年的时候,纯生信的确是一个好发的时代,非常简单、非常常规的生信分析都可以随便发一篇SCI论文,最简单的分析就是利用GEO2R做差异分析——绘制韦恩图——GO、KEGG富集分析、PPI分析——生存分析,我们甚至不用R言语,只用一些在线工具就可以把文章里面的内容全部搞定并且可以发表SCI论文, 例如像这篇文章一样:
现在这种文章很难找到愿意出版的期刊了,因为实在太简单了,现在这些操作大家都会了,竞争达到了前所未有的激烈。 现在流行的是纯生信结合研究热点发文章,看谁的手速快,发的越早越有优势,最后发的只能看些这些热点烂大街,自己只能默默地被人拒稿 。
几年前开始做纯生信的临床医生,估计现在有不少拿到了自己的课题,有的可能拿了国自然基金;有的可能拿了省级课题或者市级课题。 所以竞争就变得更加激烈,因为人家有了经费可以补实验,做生信的时候更有优势发表,可以选择的期刊更多 。
可惜了,几年前那个好发的纯生信时代一去不复返,现在的纯生信对创新性越来越高,竞争越来大,越来越多的期刊抛弃纯生信,上演与meta分析类似的发展历程。 不过纯生信可以补实验,一旦补了实验就会令人刮目相看,文章的命运自然就会不同。
之前的纯生信好发主要因为会做的人少,所以竞争小,非常容易发表。 这个跟10年前的meta分析一样,那时候会meta分析的人也不多,所以那个时候的meta分析非常好发,根本就不存在单位拉黑、不能毕业或者评职称的说法。
总结:纯生信好不好发,就看你能不能成为第一个吃螃蟹的人。
生存分析(Survival analysis)的总结整理
生存分析(Survival analysis)是指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法,也称生存率分析或存活率分析。
起始事件 (initial event):反应生存时间起始特征的事件,如疾病确诊、某种疾病治疗开始等。 失效事件 (failure event):在生存分析随访研究过程中,一部分研究对象可观察到死亡,可以得到准确的生存时间,它提供的信息是完全的,这种事件称为失效事件,也称之为死亡事件、终点事件。 生存时间 :广义上指某个起点事件开始到某个终点事件发生所经历的时间,度量单位可以是年、月、日、小时等,常用符号 t 所示。 完全数据 (Completed Data):从观察起点到发生死亡事件所经历的时间。 不完全数据 (Incomplete Data):生存时间观察过程的截止不是由于死亡事件,而是由其他原因引起的。不完全数据分为: 删失数据 (censored Data)和 截尾数据 (truncated Data)。不完全主要原因:失访:指失去联系;退出:死于非研究因素或非处理因素而退出研究;终止:设计时规定的时间已到而终止观察,但研究对象仍然存活。 删失分类 : 1.左删失(left censored):研究对象在某一时刻开始接受观察,但是在该时间点之前,研究所感兴趣的事件已经发生,无法明确具体时间。 2.右删失(right censored):在进行随访观察中,研究对象观察的起始时间已知,但终点事件发生的时间未知,无法获取具体的生存时间,只知道生存时间大于观察时间。 3.区间删失(interval censored):在实际的研究中,如果不能够进行连续的观察随访,只能预先设定观察时间点,研究人员仅能知道每个研究对象在两次随访区间内是否发生终点事件,而不知道准确的发生时间。 参考 注意:删失数据不等于截尾数据。 截尾 是所有样本的综合特性,指的是观察的总体是有偏的,只有当事件的失效时间出现在观测区间内,我们才能知道这个事件及其观测数据的存在。 左截尾(left truncation):只能观测到一个时间点之后发生的失效事件。左截尾时间点之前发生的失效事件不知情/不关心(如样本来自退休中心,都是>60岁的老人)。 右截尾(right truncation):只能观测到一个时间点之前发生的失效事件。右截尾时间点之后发生的失效事件不知情/不关心。
1.描述生存过程 生存曲线(survival curve) :以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。 Kaplan-Meier曲线,在画说统计中 中讲得很直观。 生存率 :又叫生存概率或者生存函数,表示一个病人的生存时间长于时间t的概率,用s(t)表示,s(t)=P(T≥t)。生存率的估计方法有参数法,非参数法,半参数法,实际中常用非参数法中的乘积极限法及半参数法中的Cox回归模型。 2.比较生存过程:一般用Log-rank检验。 Log-rank检验属于非参数检验,用于比较两组或多组生存曲线或生存时间是否相同,检验统计量为卡方 χ2 ,自由度df=组数-1。
1.总生存期(Overall Survival, OS):指从随机化(random assignment)开始至(因任何原因)死亡的时间(失访患者为最后一次随访时间,研究结束时仍然存活患者,为随访结束日)。 2.中位生存期:又称半数生存期,表示恰好有50%的个体尚存活的时间。由于删失数据的存在,计算不同于普通的中位数。利用生存曲线,令生存率为50%时,推算出生存时间。 3.无病生存期(Disease Free Survival, DFS):指从随机化开始至肿瘤复发/转移或(因任何原因)死亡的时间(失访患者为最后一次随访时间,研究结束时仍然存活患者,为随访结束日)。(通常作为根治术后的主要疗效指标) 4.无进展生存期(Progress Free Survival, PFS):指从随机化开始到肿瘤发生(任何方面)进展或(因任何原因)死亡的时间。(通常作为晚期肿瘤疗效评价的重要指标) 5.疾病进展时间(Time To Progress, TTP):指从随机化开始到第一次肿瘤客观进展的时间。 :实体瘤疗效评价标准,Response Evaluation Criteria in Solid Tumors :完全缓解,Complete Response。所有靶病灶消失,无新病灶出现,且肿瘤标志物正常,至少维持 4 周。 :部分缓解,Partial Response。靶病灶最大径之和减少 ≥ 30%,至少维持 4 周。 : 疾病稳定,Stable Disease 。靶病灶最大径之和缩小未达 PR,或增大未达 PD。 : 疾病进展, Progressive Disease。靶病灶最大径之和至少增加 ≥ 20% 或出现新病灶。 :总有效率,Overall Response Rate。经过治疗 CR+PR 患者总数占对于总的可评价病例数的比例。
生存分析(survival analysis)
一、生存分析(survival analysis)的定义 生存分析:对一个或多个非负随机变量进行统计推断,研究生存现象和响应时间数据及其统计规律的一门学科。
生存分析:既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因素进行分析。 生存分析不同于其它多因素分析的主要区别点:生存分析考虑了每个观测出现某一结局的时间长短。
应用场景
什么是生存?生存的意义很广泛,它可以指人或动物的存活(相对于死亡),可以是患者的病情正处于缓解状态(相对于再次复发或恶化),还可以是某个系统或产品正常工作(相对于失效或故障),甚至可是是客户的流失与否等。 在生存分析中,研究的主要对象是寿命超过某一时间的概率。还可以描述其他一些事情发生的概率,例如产品的失效、出狱犯人第一次犯罪、失业人员第一次找到工作等等。 在某些领域的分析中,常常用追踪的方式来研究事物的发展规律,比如研究某种药物的疗效,手术后的存活时间,某件机器的使用寿命等。
在医学研究中,常常用追踪的方式来研究事物发展的规律。如,了解某药物的疗效,了解手术的存活时间,了解某医疗仪器设备使用寿命等等。对生存资料的分析称为生存分析。所谓生存资料就是描述寿命或者一个发生时间的数据。更详细的说一个人的生存时间的长短与许多因素有联系的,研究因素与生存时间的联系有无及程度大小,称为生存分析。
例如研究病人感染了病毒后,多长时间会死亡;工作的机器多长时间会发生崩溃等。 这里“个体的存活”可以推广抽象成某些关注的事件。 所以SA就成了研究某一事件与它的发生时间的联系的方法。这个方法广泛的用在医学、生物学等学科上,近年来也越来越多人用在互联网数据挖掘中,例如用survival analysis去预测信息在社交网络的传播程度,或者去预测用户流失的概率。
生存分析研究的内容 1.描述生存过程 研究生存时间的分布特点,估计生存率及平均存活时间,绘制生存曲线等,根据生存时间的长短,可以估算出各个时点的生存率,并根据生存率来估计中位生存时间,也可以根据生存曲线分析其生存特点,一般使用Kaplan-Meier法和寿命表法。 2.比较生存过程 可通过生存率及其标准误对各样本的生存率进行比较,以探讨各组间的生存过程是否存在差异,一般使用Log-rank检验和Breslow检验。 3.分析危险因素 是通过生存分析模型来探讨影响生存时间和终点事件的保护因素和不利因素,因素作用的大小及方向,相对危险度的大小,基本使用Cox回归模型。 4.建立数学模型 建立最终的数学模型,也是通过Cox回归模型完成。
生存分析对资料的基本要求 1.样本由随机抽样方法获得,要有一定的数量,死亡例数和比例不能太少 2.完整数据所占的比例不能太少,即截尾值不宜太多 3.截尾值出现的原因无偏性,为防止偏性常常对被截尾的研究对象的年龄、职业、地区、病情轻重等情况进行分析 4.生存时间尽可能精确 5.缺项要尽量补齐
生存资料的共同特点 1.蕴含有结局和时间两个方面的信息 2.结局为两分类往斥事件 3一般是通过随访收集得到,随访观察往往是从某统一时间点(如入院或实施手术等某种处理措施后)开始,观察到某规定时间点截止。 4.常因失访等原因造成研究对象的生存时间数据不完整,分布类型复杂,不能简中地套用以前的方法
二、生存分析的基本概念
起始事件(initial event): 反应生存时间起始特征的事件,如疾病确诊、某种疾病治疗开始等。 失效事件(failure event): 在生存分析随访研究过程中,一部分研究对象可观察到死亡,可以得到准确的生存时间,它提供的信息是完全的,这种事件称为失效事件,也称之为死亡事件、终点事件。
终点事件和起始事件是相对而言的,它们都由研究目的决定,须在设计时明确规定,并在研究期间严格遵守,不能随意改变。
生存时间: 广义上指某个起点事件开始到某个终点事件发生所经历的时间,度量单位可以是年、月、日、小时等,常用符号t所示。这个时间也未必是通常意义上的时间,也可以是和时间相关的变量。比如距离等,具体要根据研究目的而定义。 1)分布类型不易确定。一般不服从正态分布,多数情况下不服从任何规则的分布类型。 2)影响因素多而复杂且不易控制。 3)根据研究对象的结局,生存时间数据可分为两种类型: 完全数据 (Completed Data):从观察起点到发生死亡事件所经历的时间。 不完全数据 (Incomplete Data):生存时间观察过程的截止不是由于死亡事件,而是由其他原因引起的 不完全数据分为 :删失数据(censored Data),截断数据(truncated Data) 不完全主要原因: 失访:指失去联系; 退出:死于非研究因素或非处理因素而退出研究; 终止:设计时规定的时间已到而终止观察,但研究对象仍然存活。
删失的表现形式 右删失(Right Censoring):只知道实际寿命大于某数; 左删失(Left Censoring):只知道实际寿命小于某数; 区间删失(Interval Censoring):只知道实际寿命在一个时间区间内。
条件死亡概率: 表示某时段开始存活的个体,在该时段内死亡的可能性,如年死亡概率q=某年内死亡人数/某年年初人口数,如果年内存在删失数据,需要对分母进行校正,校正人口数=年初人口数-删失例数/2
条件生存概率 (conditional probability of survival):某时段开始时存活的个体,到该时段结束时让然存活的可能性p=某年存活满一年的人数/某年年初人口数=1-q,如果年内存在删失数据,需要对分母进行校正,校正人口数=年初人口数-删失例数/2
生存函数
若含有删失数据,须分时段计算生存概率 。假定观察对象在各个时段的生存时间独立,应用概率乘法定理将分时段的概率相乘得到生存率。
生存率与条件生存概率不同。 条件生存概率是单个时段的结果,而生存率实质上是累积条件生存概率(cumulative probability of survival ),是多个时段的累积结果。例如,3 年生存率是第1 年存活,第2 年也存活,第3 年还存活的可能性。
生存率s(t)的估计方法有参数法和非参数法。 常用非参数法,非参数法主要有二个,即,乘积极限法与寿命表法,乘积极限法主要用于观察例数较少而未分组的生存资料,寿命表法适用于观察例数较多而分组的资料,不同的分组寿命表法的计算结果亦会不同,当分组资料中每一个分组区间中最多只有1个观察值时,寿命表法的计算结果与乘积极限法完全相同。
生存曲线 (survival curve):以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。 生存曲线是一条下降的曲线,分析时应注意曲线的高度和下降的坡度。平缓的生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生存期。
中位生存期 (median survival time):又称半数生存期,表示恰好有50 %的个体尚存活的时间。中位生存期越长,表示疾病的预后越好;中位生存期越短,预后越差。估计中位生存期常用图解法或线性内插法。
概率密度函数f(t)
[图片上传失败...(image-f5d8a7-1630478089306)]
生存函数S(t)
危险函数h(t)
累计危险函数H(t)
三、生存分析目的
估计 :根据样本生存资料估计总体生存率及其它有关指标 ( 如中位生存期等 ) , 如根据脑瘤患者治疗后的生存时间资料 , 估计不同时间的生存率 、生存曲线以及中位生存期等 。 比较 :对不同处理组生存率进行比较,如比较不同疗法治疗脑瘤的生存率,以了解哪种治疗方案较优。
影响因素分析 :目的是为了探索和了解影响生存时间长短的因素 , 或平衡某些因素影响后 , 研究某个或某些因素对生存率的影响 。 如为改善脑瘤病人的预后 , 应了解影响病人预后的主要因素 , 包括病人的年龄 、 性别 、 病程 、 肿瘤分期 、 治疗方案等 。 预测 :具有不同因素水平的个体生存预测 ,如根据脑瘤病人的年龄 、 性别 、 病程 、 肿瘤分期 、 治疗方案等预测该病人t 年 ( 月 )生存率 。
四、生存分析的具体方法 生存分析方法可以分为描述法、参数法、半参数法和非参数法 1.描述法 根据样本观测值提供的信息,直接用公式计算出每一个时间点或每一个时间区间上的生存函数、死亡函数、风险函数等,并采用列表或绘图的形式显示生存时间的分布规律。 优点:方法简单且对数据分布无要求 缺点:不能比较两组或多组生存时间分布函数的区别,不能分析危险因素,不能建立生存时间与危险因素之间的关系模型。
2.非参数法 估计生存函数时对生存时间的分布没有要求,并且检验危险因素对生存时间的影响时采用的是非参数检验方法。 常用方法:乘积极限法、寿命表法 优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,对生存时间的分布没有要求。 缺点:不能建立生存时间与危险因素之间的关系模型。
3.参数法 根据样本观测值来估计假定的分布模型中的参数,获得生存时间的概率分布模型。 生存时间经常服从的分布有:指数分布、Weibull分布、对数正态分布、对数Logistic分布、Gamma分布。 优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型。 缺点:需要事先知道生存时间的分布
4.半参数法 不需要对生存时间的分布做出假定,但是却可以通过一个模型来分析生存时间的分布规律,以及危险因素对生存时间的影响,最著名的就是COX回归。 优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型,不需要事先知道生存时间的分布。
Cox 比例风险回归模型(Cox’s proportional hazards regression model) , 简称Cox 回归模型
如果Cox PH Model中的变量会随时间变化,那么就成了extended Cox model,此时HR不再是一个常量。很简单的例子,如果病人的居住地也是一个变量,病人有可能会搬家,例如在北京吸霾了5年,再跑去厦门生活,那么他旧病复发的概率肯定会降低。所以住所这个变量是和时间相关的。一种简单的做法是,按照变量改变的时刻,把时间切割成区间,使得每个区间内的变量没有变化。然后再套用Cox PH模型。
浅谈生存分析
在生物医学研究中,生存分析是非常重要和常见的分析方法。本文对生存分析中的Kaplan–Meier模型、Cox比例风险模型进行简要的介绍,帮助大家更好地理解生存分析等相关概念。
生存分析经常用在癌症等疾病的研究中,例如在对某种抗癌药物做临床试验时,会首先筛选一部分癌症患者随机分为两组,一组服用该试验药物,一组服用对照药物,服药后开始统计每个患者从服药一直到死亡的生存时间,通过考察两组之间的病人在生存时间上是否有统计学差异来判断试验药物是否有效。
在这里,死亡是整个实验中重点观测的事件,即event。对于每个病人,需要记录他们发生该事件的具体时间。因此,生存分析可以抽象概述为,研究在不同条件下,特定事件发生与时间的关系是否存在差异。
这些具体事件可以是死亡,也可以是肿瘤转移、复发、病人出院、重新入院等任何可以明确识别的事件,而不同条件即为不同的分组依据,可以是年龄、性别、地域、某个基因表达量的高低、某个突变的携带与否等等。
A列是从试验开始起,持续的观测时间,星号代表在该时间有删失数据发生;
B列是指在A列对应的时间开始之前所有存活的研究对象个数,也可以叫做at risk的人数,表示当前具有死亡风险的有效人群,是排除了已经死亡和删失的数据之后剩余的人数;
C列为恰好在A列对应的时间死亡的人数;
D列是在该时间点删失的个数,即在实验过程中丢失的、失去跟踪的数据。
在引入Kaplan–Meier公式之前,大家可以先尝试自己去思考下如何计算每个时间节点的生存概率,即研究对象从试验开始直到某个特定时间点仍然存活的概率S(t)。比如在1.536年这个时间点,即表中的第五行,病人在该点的生存概率是多少呢?
很容易可以想到,要想在1.536这个时间点存活,他/她必须在1.536之前的所有时间点存活才行,也就是说在0.909、1.112、1.322、1.328这几个时间点,病人都必须存活。那么在1.536这个时间点的生存概率实际上就等于在包括1.536 在内的所有之前的时间点都不死亡的概率乘积,即:P(存活至1.536) = P(0.909时不死亡) * P(1.112时不死亡) * P(1.322时不死亡) * P(1.328时不死亡) * P(1.536时不死亡)
对于某个特定时间点不死亡的概率,可以用 1 – 死亡概率 来估算,举个例子:P(0.909时不死亡) = 1 – P(0.909时死亡) = 1 – (0.909时死亡的人数)/(0.909之前的所有人数) = 1 – 1/10 = 0.9
当我们计算出每个时间点不死亡的概率之后,我们就可以通过连续乘积算出每个时间点的生存概率,即存活至该时间点的概率。如下表所示:
该表中E列即不死亡概率,F列则表示累积的生存概率,可以看到随着时间增加,死亡人数增多,越到后期,生存概率越低。
上面这个例子的思路就是Kaplan–Meier方法的主要思路,我们也可以用数学公式来表示。一共有m个时间点,每个时间点用下标 i 来表示, i 为从 1 到 m 的整数, 生存概率 S(ti) 可以表示为:
其中,ti 表示第 i 个时间点,ni 表示在 ti 之前的有效人数,di 表示在 ti 死亡的人数,S(ti-1) 表示在上一个时间点 i-1 的生存概率。
根据这一公式,我们可以画图来展示生存率的变化情况,即Kaplan-Meier生存曲线,如下图所示:
图中横轴即时间轴,纵轴是累积存活比例,也就是生存概率,加号表示删失数据。
一般来说,生存分析是要比较不同组之间的一个生存情况,因此Kaplan-Meier生存曲线一般不止一条曲线。如果想比较整体生存时间分布是否存在统计学差异,一般我们可以采用Logrank统计方法来对生存数据进行统计分析。Logrank统计方法假设两组的生存时间分布一致,去检验是否能拒绝该假设。
除了Logrank检验之外,常用的检验包括Breslow检验,即Wilcoxon检验。该方法加入了权重因子,即每个时刻的总人数,使得试验前期的权重较大,贡献更大,所以Breslow检验对试验前期的差异更加敏感。
Kaplan-Meier方法只能针对单一的变量进行分析,无法同时考察多个因素。当需要同时考察多个因素的影响时,这时我们可以使用Cox比例风险回归模型。
Cox比例风险回归模型(Cox's proportional hazards regression model),简称Cox模型,Cox来自提出者英国统计学家的名字,主要用于肿瘤和其他疾病的预后分析。这个模型是一种半参数回归模型,因为它的公式中既包含参数模型又包含非参数模型。
其中
t是生存时间,
x1, x2到xp指的是具有预测效应的多个变量,
b1,b2到bp则是每个变量对应的effect size,即效应量,可以理解为结果的影响程度。
h(t)就是不同时间t的 hazard,即风险值,例如在观测死亡事件时,指的是研究对象从试验开始到某个特定时间t之前存活,但在t时间点发生死亡的概率。
h0(t)是基准风险函数,也就是说在其他协变量x1, x2到xp都为0时,即不起作用时,衡量风险值的函数。
根据公式我们可以看到指数部分是参数模型,因为其参数个数有限,即b1,b2到bp,而基准风险函数h0(t)由于于其未确定性,可根据不同数据来使用不同的分布模型,因此是非参数模型。所以说, Cox模型是一种半参数模型。
从公式中我们可以看到,Cox模型能够把诸多可能影响生存率的因素都当作协变量引入到公式中去,在该公式中即x1, x2到xp,所以可以同时考察多个因素的影响。
我们的主要目标是通过一定方法来找到合适的h0(t),以及所有协变量的系数b1,b2到bp。实际上cox模型是需要用到极大似然估计等计算方法,首先构建特定的似然函数,通过梯度下降等方法来求解模型的参数,使得函数求解值最大,这里不对细节进行解读。
假设我们已经通过计算得到了合适的h0(t)和协变量系数,如何去解读结果呢?我们可以比较某个协变量x1 在不同值时对应的不同风险比(hazard ratio),这里 x1和x1+1,即若增加1个单位,增加前后的风险比实际上等于 exp(b1)。
假如x1指的是年龄,那么对于年龄 51岁 (x+1) 和年龄 50 岁 (x) 的人,可能死亡的风险比为 exp(b1)。如果b1>0,则 exp(b1)>1,意味着年龄+1,死亡风险增加;如果b1<0, 则 exp(b1)<1,意味着年龄+1,死亡风险降低;如果b1=0,exp(b1)=1,意味着年龄变化对死亡风险不起作用。从hazard ratio推导的结果看到,它是不包括时间t的。这是Cox模型可用的一个基本假设,即任意两人的风险比例是不随时间变化的。
研究者开发了方便进行生存分析的R包,survival和survminer。首先安装并加载这两个包:
在survival包中提供了coxph()函数可以用来计算cox模型:
method默认为 “efron”,也可以是 “breslow”和“exact” 。以示例数据为例:
从结果中看到:sex对应的系数(coef)为-0.5310,小于0表示sex增加会降低风险,风险比(hazard ratio)为exp(coef) =0.588,该数值小于1,同样表明sex增加会导致风险增加,即女性比男性预后更好。
除了关注系数外,同时需要关注的是p value,即该参数估计是否具有统计学显著性,这里给出三种方法的结果,分别是Likelihood ratio test,Wald test和Score logrank test。
分析多个因素的影响:
最后是结果的可视化:
以上是对生存分析中主要知识的一个整理,希望梳理清楚生存分析中的大多数概念,有助于大家在自己的工作中使用相关方法进行分析。
sci论文有哪些期刊
sci论文期刊包括以下:
1、北京科技大学学报(MMM英文版)2材料科学技术(英文版)
2、大气科学进展(英文版)4代数集刊(英文版)
3、地球物理学报 6地质学报、土壤圈(英文版)
4、分析化学 8钢铁研究学报(英文版)
5、高等学校化学学报 10高等学校化学研究(英文版)
6、高分子科学(英文版)12高分子学报
7、高能物理与核物理 14固体力学学报(英文版)
8、光谱学与光谱分析(中文)16红外与毫米波学报(中文)
9、化学学报 18计算数学(英文版)
10、结构化学 20科学通报(英文版)
上一篇:口腔医学学术论文
下一篇:论文查重准确吗