随机森林在宫颈癌预测论文

5个回答默认排序

默认排序

按时间排序

jiyilianghq

已采纳

中外医学家联合研制出了一项可在两个半小时左右快速筛查宫颈癌的技术。9月22日出版的最新一期英国《柳叶刀—肿瘤学》（The Lancet Oncology）杂志，发表了这项研究成果。这项名为HPV快速筛查法（careHPV）的技术与现在普遍使用的两种宫颈癌检测法相比，能够更加快速而准确地捕捉到由人乳头状瘤病毒（HPV）导致的宫颈癌及癌前病变。该研究项目临床试验的负责人、中国医学科学院肿瘤研究所乔友林教授说：“临床检测结果显示，这项技术的假阴性率为10%，假阳性率为16%，接近发达国家和地区普遍使用的杂交捕获二代（HC2）技术，比较令人满意。” 在美国比尔／梅林达?盖茨基金会的资助下，流行病学家乔友林和他的研究团队与美国卫生科技推广研究所（PATH）和德国凯杰公司（QIAGEN）合作，历经5年，研究成功了这项筛查技术。与目前通常使用的巴氏涂片和液基细胞学技术相比，HPV快速检测技术实验设施简单，操作容易。乔友林说：“乡村卫生员经过基本训练，就能很好地掌握这个技术，而且，可以在没有水电的情况下操作。”他率领研究团队在山西襄垣县和武乡县，采用三种方法——HPV快速筛查法（careHPV），醋酸染色后观察（VIA）法，以及杂交捕获二代技术检测（HC2）法对2388名30－54岁妇女进行了对比检测。结果表明，HPV快速筛查技术，识别宫颈癌与高度病变的敏感度和特异度，都大大优于醋酸染色后观察法，并与杂交捕获二代技术的检测准确度相差不大。这项技术在中国应用获得成功，改写了宫颈癌生化检测技术的历史。“它的准确度与杂交捕获二代（HC2）技术相差甚小，但费用却比它少10倍，”乔友林说。作为一种面向低收入国家和地区的宫颈癌预防的实用方法，HPV快速筛查技术拥有广阔的前景。 HPV病毒几乎在所有子宫颈癌病例中都存在，是引发子宫颈癌的元凶。在妇科恶性肿瘤中，子宫颈癌是仅次于乳腺癌的威胁妇女健康的第二杀手。全球每年大约有47万妇女罹患宫颈癌，中国约有10万，其中70%是农村妇女。著名艺人梅艳芳和李媛媛，都不幸死于这一疾病。自巴氏涂片1941年问世以来，宫颈癌早期病变检出率增加，全球宫颈癌发病率下降了80%。但是，在发展中国家广泛推行该技术却比较困难。乔友林说，“首先，它需要建立高标准的细胞学检查系统，以及培养训练有素、能准确阅读巴氏涂片的细胞学技术人员，这两方面所需的费用都相当可观。”另外，巴氏涂片的敏感度并不令人满意，假阴性率约可高达40%。从理论上讲，液基细胞学加杂交捕获二代的HPV检测技术是最佳检测方法，其假阴性率为2%，假阳率为15%。“唯一的问题是，做一次这样的检测需要花费500多元人民币，即便是对大城市的工薪阶层妇女也太高了。它只适合深圳等高收入城市，”乔友林说。目前，醋酸染色观察法是贫困地区宫颈癌筛查的主要模式。这个检测只需要10元人民币，但效果不尽如人意。他说，“如果妇科医生不熟练，或没有接受良好的培训，肉眼观察的假阴性和假阳性率可以高达40%和20%。” 尽管国际上研究开发的预防宫颈癌的疫苗已在很多国家和地区获准上市，但是，疫苗只能预防70%左右的宫颈癌，而且对已经感染HPV病毒的妇女不起作用。因此，HPV病毒的检测对防治宫颈癌仍然至关重要。研究出经济、准确、安全、有效的宫颈癌筛查方法也因此成为学术界和国际社会关注的焦点。“如果妇女一生中能做一次，作到早诊早治疗，那么，宫颈癌的发病率和死亡率可望下降三分之一，”美国卫生科技推广研究所的约翰·瑟拉斯（John Sellors）博士说。

320 评论 1小时前发布

尹才宝贝

想要解释一个模型，通常有以下三个办法：

可解释机器模型的图景

又称PD图（Partial Dependence Plot），显示了一个或两个特征对机器学习模型的预测结果的边际效应。部分依赖图可以显示目标和特征之间的关系是线性的、单调的或更复杂的。用于回归的部分依赖函数定义为：

两个特征的特征依赖图（三维）：

（1）部分依赖图的计算很直观：如果我们强制所有数据点都假定该特征，则特定特征值处的部分依赖函数表示平均预测（2）在满足计算PDP的特征和其他特征都不相关的前提下，PDP可以完美表示该特征如何平均影响预测。（3）部分依赖图很容易实现（4）部分依赖图有因果关系

（1）PDP实际最大特征数目为2。（2）一些PD图未显示特征分布，这可能会产生误导，你可能会过渡解释几乎么有数据的区域。通过显示RUG（x轴上的数据点指示器）或直方图可以轻松解决这个问题。（3）独立性的假设：PDP的最大问题。它假设了选定特征和其余特征不相关。实际情况下，这很难实现。例如：身高特征和体重特征一定有关联性（4）异质效应可能被隐藏：因为 PD曲线仅显示平均边际效应。举个例子：假设对于一个特征，你的数据点中的一半与预测具有正相关关系，另一半负相关。PD曲线可能是一条水平线，因为数据集的两半效果可能互相抵消。然后我们可能得出结论，该特征对预测没有影响。通过绘制个体条件期望曲线而不是聚合线，我们可以发现异构效应。

又称ICE（Individual Conditional Expectation），因为每个实例显示一条线，该线显示了特征更改时实例的预测如何改变

与PDP的区别和关系： PDP是一种全局方法，他不关注特定实例，而是关注整体平均。 ICE图将实例对每个特征的预测依赖关系可视化，每个实例分别产生一条线，而PDP只有一条线。**PDP是ICE图的线的平均值。

计算线的值：保持其他所有特征相同，通过用网络中的值替换特征的值创建该实例的变体并使用黑盒模型对这些新创建的实例进行预测。结果是一组具有来自网格的特征值和相应预测的点

Why ICE instead of PDP？ PDP会掩盖由交互作用创建的异构关系。

例子：宫颈癌dataset。之前用PDP分析的时候随机森林用于预测给定风险因素的情况下女性患病的概率。通过观测PDP我们看到换宫颈癌的概率在50岁左右增加（下图左），但这是否适用于数据集的每一个女性呢？

我们可以通过观测ICE图

再让我们看看自行车租赁的ICE图（使用随机森林）：

通过观察，我们可以看到，基本所有数据集呈现相同的趋势，没有特别的相互作用，所以他们提供的信息可以用PDP很好的概括了。

优点 ICE更直观，也可以揭示异质关系缺点（1）ICE曲线只能有意义地显示一个特征，两个特征需要绘制多个重叠平面，这是看不懂的。（2）和PDP一样，如果感兴趣的特征和其他特征相关联，则根据特征联合分布，线上的某些点可能是无效的数据点（3）图像会过于拥挤

累积局部效应（ALE Accumulated Local Effects Plot）描述了特征平均如何影响机器学习模型的预测。ALE图是PDP更快、更无偏的替代方法。

计算与其他特征强相关的特征的部分依赖图涉及对在实际中不太可能出现的人工数据实例的平均预测，这会极大地影响估计的特征效应。

举个例子：原模型使用面积大小，房间数量两个特征预测房子价值，现在用面积大小作为PDP的选择特征，在第一个网格值（假设30平方米处），将所有实例的面积大小改为30平方米，然后进行预测。这样，对于拥有十几个房间的大房子，我们仍用30平方米进行预测。这样生成的数据点是异常、没有实际意义的。但在PDP中我们没有对这种现象采取任何措施。

引入ALE方法

先总结PDP，M，ALE如何在某个网格值下计算的特征效应（1）PDP：展示了对于特征对每个数据实例具有值时模型平均预测的结果。忽略了值是否对所有数据实例都有意义（2）M图：展示了模型对于特征的值接近的数据实例平均预测什么。该效应可能是因为该特征，也可能是因为相关的特征。（3）ALE图：展示了该窗口中数据实例的模型预测如何在围绕的特征的一个小的窗口中变化

ALE方法的核心是计算预测中的差异，因此我们用网格值替换感兴趣的特征。预测中的差异是特征在特定间隔内单个实例的效应

xxxx

对于一个奇怪的模型：

在右下角我们可以看到这个Model prediction奇怪的地方。该区域远离数据分布，并不会影响到模型的性能，所以也不应该影响的模型的解释。这种outcome是现实的，训练模型时，学习算法为了将现有数据实例的损失降到最低，奇怪的现象可能会发生在训练数据的分布之外。

问题来了对于PDP来说，在这种情况下是不可用的。因为他受到这个异常区域的影响。如下图：

ALE图的优点（1）ALE图是无偏的：特征相关时，他们仍然有效。PDP会失效，因为他们会将那些现实中不可能出现或不太可能出现的特征组合考虑在内（2）ALE图计算速度比PDP更快（3）ALE图的解释很清楚：在给定值的情况下，可以从ALE图中读出更改特征对预测的相对影响（4）ALE图以0为中心（5）2D ALE图仅显示交互作用：两个特征输入的PDP，会全部显示特征A，特征B，特征A和特征B的交互对预测的影响，而ALE图只显示特征A和特征B的交互对预测的影响。

缺点（1）间隔设置不良好的话，ALE图可能会不太稳定（2）ALE图不附带ICE曲线，ICE曲线可以揭示特征效应的异质性（对于数据子集而言，特征的效应应该有所不同）。但在ALE图中，只能检查每个间隔实例之间的效应是否不同，但是每个间隔具有不同的实例。（3）ALE图实现更复杂且不直观（4）二阶ALE估计在整个特征空间中具有不同的稳定性，而且这是不以任何方法可视化的（5）ALE解决了相关特征下的问题，但是如果两个特征强相关，解释仍然困难。（6）但是总结而言，ALE还是比PDP在大多数情况下好。

如果存在特征交互，预测可以分解为4个项：常量项，第一个特征项，第二个特征项，两个特征的交互项

估计交互强度的一种方法是衡量预测的变化在多大程度上取决于特征的交互作用。这项衡量被称为H统计量。

处理2种情况：

实际应用中：（1）先看单一特征与其他所有特征的交互强度（2）接着可以选择其中一个特征，更深入得研究其与其他特征之间的双向交互

优点

通过置换特征后计算模型预测误差的增加来衡量特征的重要性。

分类的例子：

回归的例子：

优点

缺点

全局代理模型是一种可解释的模型，经过训练可近似黑盒模型的预测

我们希望在可解释的约束下，代理模型预测函数尽可能接近地逼近我们的黑盒预测函数。函数可以来自任何可解释的模型

这是一种模型无关的方法，因为他不需要有关黑盒模型内部运作的任何信息。步骤：

一种衡量代理模型赋值黑盒模型能力的方法是R-squared

优点

局部代理模型本身是可解释的模型，用于解释黑盒机器学习模型的单个实例预测。 LIME不是训练全局代理模型，而是专注于训练局部代理模型以解释单个预测方法：

LIME中，分类特征比数据特征更容易解释

优点

Shapley值是联盟博弈论的一个方法。可以通过假设实例的每个特征值是游戏中的玩家来解释预测，同时预测是总支出。它告诉我们如何在特征中公平的分配总支出。

游戏是数据集单个实例的预测任务收益是此实例的实际预测值减去所有实例的平均预测值玩家是实例的特征值

举例：一所公寓被预测价值为30万欧元，其特征是50平方米，二楼，公园附近，禁止猫进入。所有公寓的平均预测价格为31万欧元。我们的目标：解释差额：-10000欧元答案可能是：公园附近+30000欧元，50平方米+10000欧元，2楼+0欧元，禁止猫进入-50000欧元，共计-10000欧元。

Shapley值是所有可能的联盟中特征值的平均边际贡献在本例中：

对于这些联盟中的每个联盟，我们都计算其带有或者不带有特征“禁止猫进入”的预测公寓价格，并取其差值获得边际贡献。Shapley值是边际贡献的（加权）平均值。用公寓数据集中的随机特征值替换不在联盟中的特征的特征值

特征值的Shapley值的解释是：与数据集的平均预测相比，第j个特征的值对这个特定实例的预测的贡献为

他适用于回归和分类

pass

335 评论 5小时前发布

努力中的女人

HC2 PHV DNA检测系统，可以有效帮助发现真正能引起宫颈高度病变的HPV感染，而不是单纯检测病毒及非临床相关的HPV感染，即检测宫颈病变，而非病毒。现已成为宫颈癌筛查的首选方法（尤其是大规模筛查）。经临床验证的、敏感的、可靠的检测技术，有效预测宫颈癌发生的风险，最大限度保护妇女健康，已成为临床HPV检测领域的金标准。

329 评论 5小时前发布

刘小淼淼淼

.....我也有兴趣知道，不过ls的是通讯嘛，没有详细介绍的。

99 评论 8小时前发布

shchengzhang

在简单回顾人类对风能的认识及风能开发史的基础上，重点介绍了当前世界上风能资源开发利用的现状、风电业发展特点及趋势，以及国际上一些主要风能开发国家的风能开发利用政策、实施特点及启示；最后基于当前世界风能开发业发展形势，认为风能将是21世纪人类理想的替代能源。关键词：风能；开发现状；开发政策 � 1风能及其特点风是一种自然现象。由于不同地表(如海洋、森林、田野、山岳和沙漠等)在白天受太阳照射以及晚上吸放热的特性不同，对空气加热(或放热)的差异，造成了空气的流动，通常人们将垂直上下的流动称为“气流”，将水平流动称为“风”。由于空气是有一定质量的，因而其流动时必然具有一定能量，这就是风能。它可通过如下公式加以测算：�� E＝1/2g ρAV3（kg·m／s)�� 式中：A——空气流动面积(m�2）；V——风速(m/s)；ρ——空气密度(kg/m�3)；g——重力加速度(m/s2)。� 上式如按kW计量只需乘以转换系数1102即可。� 据理论测算，全球大气中总的能量是1017kW，而且是可再生的，据估计大约有×1012kW的蕴藏风能可以被开发利用，这个价值至少比世界上可利用的水能大10倍〔1〕。� 风能作为一种天然能源，与其他能源尤其是矿物能源相比，它有如下几个特点：� (1) 蕴藏量丰富。大家都知道与常规能源相比，水能巨大，殊不知风能是全球水能的10倍多，我国仅陆地上就有风能资源大约×109kW。[1]�� (2) 可以再生，永不枯竭。风能是太阳能的变异，只要太阳和地球存在，就有风能，它取之不尽，用之不竭，是可再生的。� (3) 清洁无污染，随处都可开发利用。煤、石油、天然气的大量消耗，核电站的广泛建设，均会给人类生活环境造成极大污染和破坏，危害人类健康，而风能开发就没有这样的弊病，而且风能开发利用越多，空气中的漂尘和降尘会越少。另外，风能的开发也不存在开采和运输问题，无论何地(海边、平原亦或山区)都可建立风电站，就地开发，就地利用。即使要远程运输也是通过电网，相对要简便且不会造成污染和环境问题。� (4) 随机统计性。风能从微观短时间上来看是随机的，忽大忽小，忽左忽右，这就决定了风能的不可控特性；然而，从宏观长时间上来看，风能还是具有一定的统计规律特性的，在一定程度上又是可以预测和利用的

105 评论 11小时前发布

随机森林在宫颈癌预测论文

5个回答 默认排序 默认排序 按时间排序

相关问答

医学论文

向你推荐

热门问题

5个回答默认排序

默认排序

按时间排序