2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 拓端tecdat|R语言生存分析可视化分析

拓端tecdat|R语言生存分析可视化分析

时间:2021-11-21 12:00:50

相关推荐

拓端tecdat|R语言生存分析可视化分析

完整原文链接:/?p=5438

原文出处:拓端数据部落公众号

视频:R语言生存分析原理与晚期肺癌患者分析案例

R语言生存分析Survival analysis原理与晚期肺癌患者分析案例

生存分析指的是一系列用来探究所感兴趣的事件的发生的时间的统计方法。

生存分析被用于各种领域,例如:

癌症研究为患者生存时间分析,

“事件历史分析”的社会学

在工程的“故障时间分析”。

在癌症研究中,典型的研究问题如下:

某些临床特征对患者的生存有何影响?

个人三年存活的概率是多少?

各组患者的生存率有差异吗?

基本概念

在这里,我们从定义生存分析的基本术语开始,包括:

生存时间和事件

生存函数和风险函数

癌症研究中的生存时间和事件类型

有不同类型的事件,包括:

复发

死亡

观察开始到观察终止的时间通常称为生存时间(或事件发生的时间)。

癌症研究中两个最重要的评价方法包括:i)死亡时间;和ii)无复发存活时间,其对应于治疗反应与疾病复发之间的时间。它也被称为无病生存时间和无事件生存时间。

如上所述,生存分析侧重于直到发生感兴趣事件(复发或死亡)的期望持续时间。

Kaplan-Meier生存评估

Kaplan-Meier(KM)方法是一种非参数方法,用于估计观察到的生存时间的生存概率(Kaplan和Meier,1958)。

生存曲线是管理生存概率与时间的关系曲线,它提供了一个有用的数据总结,可以用来估计诸如中位生存时间之类的衡量指标。

R生存分析

生存分析总结和可视化生存分析结果

示例数据集

我们将使用生存包中提供的肺癌数据。

head(lung)inst time status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss1 3 3062 74 1 1 90 1001175NA2 3 4552 68 1 0 90 901225153 3 10101 56 1 0 90 90 NA154 5 2102 57 1 1 90 601150115 1 8832 60 1 0100 90 NA 06 12 10221 74 1 1 50 80513 0

inst:机构代码

时间:以天为单位的生存时间

状态:状态1 =审查,2 =死亡

年龄:年龄

性别:男= 1女= 2

ph.ecog:ECOG表现评分(0 =正常 5 =死亡)

ph.karno:Karnofsky表现评分(差 = 0 正常= 100)由医师评定

pat.karno:Karnofsky表现评分由患者评估

膳食:餐时消耗的卡路里

wt.loss:过去六个月的体重下降

计算生存曲线:survfit()

我们要按性别来计算生存概率。

函数survfit()可以被用来计算Kaplan-Meier生存估计。

使用函数Surv()创建的生存对象

要计算生存曲线,请输入以下内容:

print(fit)n events median 0.95LCL 0.95UCLsex=1 138 112 270 212 310sex=2 90 53 426 348 550

默认情况下,函数print()显示生存曲线的摘要。它显示观察数,事件数量,中位数生存和中位数的置信区间。

如果要显示生存曲线的更完整摘要,请输入以下内容:

# 生存曲线摘要summary(fit)# summary(fit)$table

可视化生存曲线

我们 生成两组受试者的生存曲线。

ggplot(fit,pval = TRUE, conf.int = TRUE,risk.table = TRUE, # 添加风险表risk.table.col = "strata", # 按组更改风险表颜色

legend.labs更改图例标签。

ggplot(fit, # 具有计算统计信息的survfit对象。pval = TRUE, # 显示对数秩检验的p值。conf.int = TRUE, # 显示生存曲线点估计的置信区间。conf.int.style = "step", # 自定义置信区间样式xlab = "Time in days", # 自定义X轴标签。break.time.by = 200,# 以200的时间间隔打断X轴。ggtheme = theme_light(), # 使用主题自定义绘图和风险表。risk.table = "abs_pct", # 绝对数值

每组的中位生存时间表示生存概率S(t)为0.5的时间。

使用参数xlim可以缩短生存曲线范围,如下所示:

请注意,可以使用参数fun指定三个经常使用的转换:

累积风险是常用来估计风险概率。

Kaplan-Meier生命表:生存曲线的总结

如上所述,您可以使用函数summary()来获得生存曲线的完整摘要:

summary(fit)

Log-Rank检验比较生存曲线:survdiff()

对数秩检验是比较两条或更多条生存曲线的最广泛使用的方法。零假设是两组在生存期间没有差异。

可以使用survdiff()如下:

surv_diffN Observed Expected (O-E)^2/E (O-E)^2/Vsex=1 138 112 91.6 4.55 10.3sex=2 90 53 73.4 5.68 10.3Chisq= 10.3 on 1 degrees of freedom, p= 0.00131

存活率差异的对数秩检验给出p = 0.0013的p值,表明性别组在存活方面差异显着。

复杂的生存曲线

在本节中,我们将使用多个因素的组合计算生存曲线。接下来,我们将使用ggsurvplot()输出结果

ggplot(fit,conf.int = TRUE,risk.table.col = "strata", # 按组更改风险表颜色ggtheme = theme_bw(), # 更改ggplot2主题

可视化输出。下面的图显示了性别变量根据rx&adhere的值的生存曲线。

概要

生存分析是一组数据分析的统计方法,其中感兴趣的结果变量是事件发生之前的时间。

在这篇文章中,我们演示了如何使用两个R软件包来执行和可视化生存分析)。

最受欢迎的见解

1.R语言绘制生存曲线估计|生存分析|如何R作生存曲线图

2.R语言生存分析可视化分析

3.R语言如何在生存分析与Cox回归中计算IDI,NRI指标

4.r语言中使用Bioconductor 分析芯片数据

5.R语言生存分析数据分析可视化案例

6.r语言ggplot2误差棒图快速指南

7.R 语言绘制功能富集泡泡图

8.R语言如何找到患者数据中具有差异的指标?(PLS—DA分析)

9.R语言中的生存分析Survival analysis晚期肺癌患者4例

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。