数据去重是指识别并删除数据文件集合中的重复数据,仅保留唯一的数据单元 下面的内容摘录自《用R探索医药数据科学》专栏文章的部分内容原文5585字。2篇2章7节用R做数据重塑数据去重和数据的匹配_数据处理中的数据重塑是什么-CSDN博客在数据科学的分析流程中数据重塑是一项非常重要的操作。数据的重塑通常指将数据从一种形式转换为另一种形式以满足后续分析的需求。R语言提供了丰富的工具和函数来帮助用户高效地进行数据重塑操作。本文中我们将深入探讨数据重塑的概念及其重要性并详细介绍几个关键操作包括数据去重、数据的匹配以及行列命名。一、数据重塑数据重塑Data Reshaping是指通过对数据框Data Frame或其他类型的数据结构进行操作改变其形式或结构的过程。数据重塑的目标是使数据更加符合特定分析的需求从而简化分析过程提高分析的准确性和效率。提高数据分析的灵活性通过重塑数据分析人员可以将数据转换为适合各种分析模型的形式。例如将宽格式数据转换为长格式数据或反之亦然以便于时间序列分析、回归分析等。数据清理与准备数据重塑是数据清理过程中不可或缺的一部分。通过重塑用户可以去除冗余信息、修正错误数据、匹配数据集之间的关系等。优化计算性能在某些情况下特定形式的数据可能更易于处理能够提高计算效率特别是在处理大数据集时。简化可视化过程很多可视化工具和方法对数据的格式有特定的要求通过重塑数据可以更轻松地将数据转换为适合可视化的格式。二、数据重塑之数据去重数据去重Data deduplication是指识别并删除数据文件集合中的重复数据仅保留唯一的数据单元从而消除冗余数据。因为重复数据的存在不但浪费存储资源而且可能导致数据分析结果出现偏差所以在数据清洗过程中去重是不可忽视的一项工作。数据去重通常有完全去重和不完全去重两种。完全去重是指在数据集中识别并删除那些所有字段值完全相同的重复记录。比如在一个客户数据库中如果两个记录的所有字段如姓名、地址、电话等完全相同则其中一个记录将被删除保留唯一的一份记录。完全去重的主要目的是消除完全重复的数据确保每一条记录都是唯一的。不完全去重涉及到在数据清洗过程中处理那些部分重复的数据记录。与完全去重不同不完全去重的标准是根据数据的业务逻辑和具体需求来确定的。比如在一个客户数据库中两个记录可能在部分字段上相同如姓名相同但地址不同这种情况下我们需要根据实际业务需求来决定是否保留这些记录以及如何处理这些部分重复的记录。在医学数据处理中由于数据的复杂性和多样性去除重复数据显得尤为重要。为了演示去重操作我们先创建一个就医患者的数据集。这里我们将数据集中每一行表示一个患者的就诊记录包括患者 ID、姓名、年龄、诊断、住址和就诊日期等信息。我们将探讨完全去重和不完全去重的应用场景并演示如何使用duplicated()函数实现不完全去重。# 创建扩展的示例患者数据集 patients_data - data.frame( PatientID c(1, 2, 3, 1, 4, 5, 6, 3, 7, 8, 9, 3, 10, 11), Name c(张三, 李四, 王五, 张三, 赵六, 孙七, 周八, 王五, 吴九, 王五, 李四, 王五, 李四, 赵六), Age c(30, 45, 28, 30, 60, 50, 34, 28, 41, 28, 45, 29, 45, 60), Diagnosis c(感冒, 高血压, 糖尿病, 感冒, 冠心病, 关节炎, 胃炎, 糖尿病, 肺炎, 胃炎, 高血压, 糖尿病, 感冒, 冠心病), Address c(北京, 上海, 广州, 北京, 天津, 深圳, 南京, 广州, 杭州, 南京, 上海, 上海, 北京, 天津), VisitDate as.Date(c(2024-01-01, 2024-01-02, 2024-01-03, 2024-01-01, 2024-01-04, 2024-01-05, 2024-01-06, 2024-01-03, 2024-01-07, 2024-01-06, 2024-01-02, 2024-01-03, 2024-01-01, 2024-01-04)) ) # 显示扩展后的原始患者数据集 print(扩展后的原始患者数据集:) print(patients_data)数据可见PatientID Name Age Diagnosis Address VisitDate 1 1 张三 30 感冒 北京 2024-01-01 2 2 李四 45 高血压 上海 2024-01-02 3 3 王五 28 糖尿病 广州 2024-01-03 4 1 张三 30 感冒 北京 2024-01-01 5 4 赵六 60 冠心病 天津 2024-01-04 6 5 孙七 50 关节炎 深圳 2024-01-05 7 6 周八 34 胃炎 南京 2024-01-06 8 3 王五 28 糖尿病 广州 2024-01-03 9 7 吴九 41 肺炎 杭州 2024-01-07 10 8 王五 28 胃炎 南京 2024-01-06 11 9 李四 45 高血压 上海 2024-01-02 12 3 王五 29 糖尿病 上海 2024-01-03 13 10 李四 45 感冒 北京 2024-01-01 14 11 赵六 60 冠心病 天津 2024-01-041、完全去重在上面数据集中如果一条患者记录的所有字段如PatientID、Name、Age、Diagnosis、Address和VisitDate都与另一条记录相同则认为它是完全重复的需要删除。我们可以使用R中的unique()函数删除完全重复的行只保留一个记录# 使用 unique() 函数进行完全去重 unique_patients - unique(patients_data) # 显示完全去重后的患者数据集 print(完全去重后的患者数据集:) print(unique_patients)去重后的数据集为PatientID Name Age Diagnosis Address VisitDate 1 1 张三 30 感冒 北京 2024-01-01 2 2 李四 45 高血压 上海 2024-01-02 3 3 王五 28 糖尿病 广州 2024-01-03 5 4 赵六 60 冠心病 天津 2024-01-04 6 5 孙七 50 关节炎 深圳 2024-01-05 7 6 周八 34 胃炎 南京 2024-01-06 9 7 吴九 41 肺炎 杭州 2024-01-07 10 8 王五 28 胃炎 南京 2024-01-06 11 9 李四 45 高血压 上海 2024-01-02 12 3 王五 29 糖尿病 上海 2024-01-03 13 10 李四 45 感冒 北京 2024-01-01 14 11 赵六 60 冠心病 天津 2024-01-04可以看到去重后数据集中的重复记录已被成功移除。​市面上的 R 语言培训班和书籍包括网络上的文章或视频由于受限于培训时间或书籍篇幅往往难以深入探讨 R 语言在数据科学或人工智能中的具体应用场景内容泛泛而谈最终无法真正解决实际工作中的问题。同时它们也缺乏针对医药领域的深度结合与讨论。为了解决这些痛点我们推出了《用 R 探索医药数据科学》专栏。该专栏将持续更新不仅为您提供系统化的学习内容更致力于成为您掌握最新、最全医药数据科学技术的得力助手。每篇文章篇幅在5000字 至9000字之间。内容涵盖试验统计、预测模型、科研绘图、数据库、机器学习等热点领域。重要更新我们精心构建的《用R探索医药数据科学》学习地图已于2026年3月中旬正式完成部署并上线。我们将专栏的核心内容重构为结构化的可视化知识图谱不仅替代了原有的线性列表更为学习者提供了清晰的进阶路径订阅后的同学可以在PC端点击链接查看目录https://bestmd.coze.site/专栏购买后的 6 点必读1、本专栏目前共包含10 个模块核心内容由9 大篇章构成。专栏内容将持续更新更新节奏不严格遵循固定目录顺序而是结合团队实际工作进展灵活选择对应章节发布。后续我们也会根据新技术发展与行业动态持续补充内容若新增技术与现有体系差异较大将酌情增设全新篇章。2、建议大家按照以下路径高效学习以专栏问答和第1篇作为理论基础重点理解将第2篇和第3篇作为必修的核心操作基础待基础夯实后可根据科研需求针对性学习第4至9篇的进阶专题。为了保证最佳学习效果建议大家在电脑端配合R软件进行同步实操练习。3、结合当前临床数据科学的研究热点在学习完前 3 篇内容后可按自身需求选择后续学习方向1若用于自有课题数据建议重点学习第二章 常规分析技术、第六篇 数据驱动分析及第七篇 机器学习与预测建模2若希望快速上手、尽早产出成果且不介意稿件可能被期刊归类为综述可选择第五篇 文献挖掘相关技术3若开展临床公共数据挖掘建议结合自身研究方向与兴趣从第九篇所列数据库中选取其一进行深度学习与实践如有其他新技术需求也欢迎在文章评论区留言。4、本文目录支持直接点击跳转至具体文章内容按 “篇 - 节” 正向顺序排列方便按需学习。专栏问答板块以解答疑惑为主若从基础入门可直接从第一篇第一章第一节开始系统学习。5、专栏官网地址https://blog.csdn.net/2301_79425796/category_12729892.html的内容显示为倒序排列便于快速查看最新更新章节。需注意专栏更新不严格遵循章节顺序会结合技术热度灵活追加内容可能连续数周更新已有篇章的补充内容虽页面显示无明显章节变动但每周都会有新文章上线专栏处于持续更新状态。同时每新增一篇文章后会第一时间同步更新本文目录确保目录与专栏内容实时匹配。6、建议大家优先用电脑阅读而非手机同时打开 R 软件直接复制文中代码实操练习、模仿复现再一步步拆解理解背后的逻辑。学习完每篇文章后也推荐大家写下学习感悟一来可作为笔记留存清晰记录学习进度与核心重点二来能梳理思路、加深对技术知识点的理解还能和其他学习者交流分享心得、互相启发。若学习过程中遇到具体问题欢迎直接在文章下方留言评论。我们会及时关注你的疑问结合问题场景与细节给出针对性解答和指导帮你顺畅掌握专栏中的技术内容。https://datch.blog.csdn.net/article/details/143842464?spm1011.2415.3001.5331​​​​专栏问答科研问答科研问答临床、中医、护理、药学等专业背景的学习者该如何认识 R 语言学习让科研真正为自己服务科研问答医药类本科生临床、中医、中药与护理本科阶段是否需要开展科研学习科研问答什么是临床科学家和临床数据科学家临床科学家在我国培养和NIH的资助有哪些科研问答公共数据库发表能发表国际学术期刊吗能够成为本硕博的毕业论文主要研究吗以NHANES数据库为例科研问答如何更精确地进行文献搜索科研问答到底什么是综述如何写好综述如何进行文献搜索职场问答职场问答对于医学经理 / 医学统计师《用R探索医药数据科学》这套专栏对职场有何帮助职场问答以 FDA 为例真实世界证据是如何改写药物在美上市的审批规则技术问答技术问答R 语言扩展包安装出问题解决方案详细来教你技术问答管理和选择不同的R如何做好R的笔记技术问答学R语言感觉还行一用就错误人工智能帮忙写代码也看不懂错误怎么办第一篇介绍和工具的使用1篇1章认识数据科学和R1篇1章1节医药数据科学的历程和发展用R语言探索数据科学1篇1章2节机器学习、统计学与ChatGPT的概述与R语言的相关1篇1章3节R 语言的产生与发展轨迹1篇1章4节医药数据科学入门之认识数据可视化1篇1章5节学会数据分析基础和流程开始人工智能数据分析师之路1篇2章R的安装和数据读取1篇2章1节R和RStudio的下载和安装Windows 和 Mac1篇2章2节RStudio 四大区应用全解兼谈 R 的代码规范与相关文件展示1篇2章3节RStudio的高效使用技巧自定义RStudio环境1篇2章4节用RStudio做项目管理静态图和动态图的演示感受ggplot2的魅力1篇2章5节R包管理从模糊安装到自动更新和工作目录和工作空间的设置1篇2章6节R的数据集读取和利用如何高效地直接复制黏贴数据到R1篇2章7节用R读写RDS、RData、CSV和TXT格式文件1篇2章8节用R读写Excel、SPSS、SAS、Stata和Minitab等产生的数据文件1篇2章9节在R中应用SQL语言1篇2章10节R的网络爬虫技术快速入门1篇3章文档和课件输出1篇3章1节用R写作先认识 NoteBook 和 Markdown1篇3章2节如何在 R Markdown 和 R Notebook 中创建使用1篇3章3节R Markdown的创建详解和直接使用学术期刊和出版社的模板1篇3章4节R Markdown 的文档开头YAML从基础到扩展包1篇3章5节 Markdown 的标题、列表、字词和链接1篇3章6节R Markdown 的代码块、绘图与数学公式解析1篇3章7节Knit 的文档生成和多文档流程的集合应用1篇3章8节HTML Widgets将 JavaScript 可视化库封装成 R 函数1篇3章9节使用 R Markdown 和 Shiny 结合R语言进行数据报告和交互式应用的创建第二篇常规的分析技术2篇1章认识数据2篇1章1节数据的基本概念以及 R 中的数据结构、向量与矩阵的创建及运算2篇1章2节继续讲R的数据结构数组、数据框和列表2篇1章3节R的赋值操作与算术运算_r里面的赋值2篇1章4节R的逻辑运算和矩阵运算2篇1章5节R 语言的循环与遍历函数全解析2篇2章数据的预处理2篇2章1节全面了解 R 中的数据预处理通过 R 基本函数实施数据查阅2篇2章2节从排序到分组和筛选通过 R 的 dplyr 扩展包来操作2篇2章3节处理医学类原始数据的重要技巧R语言中的宽长数据转换tidyr包的使用指南2篇2章4节临床数据科学中如何用R来进行缺失值的处理2篇2章5节数据科学中的缺失值的处理删除和填补的选择K最近邻填补法2篇2章6节R的多重填补法中随机回归填补法的应用MICE包的实际应用和统计与可视化评估2篇2章7节用R做数据重塑数据去重和数据的匹配2篇2章8节用R做数据重塑行列命名和数据类型转换2篇2章9节用R做数据重塑增加变量和赋值修改和mutate()函数的复杂用法2篇2章10节用R做数据重塑变体函数应用详解和可视化的数据预处理介绍2篇2章11节用R做数据重塑数据的特征缩放和特征可视化2篇2章12节R语言中字符串的处理正则表达式的基础要点和特殊字符2篇2章13节R语言中Stringr扩展包进行字符串的查阅、大小转换和排序2篇2章14节R语言中字符串的处理提取替换分割连接和填充插值2篇2章15节字符串处理提取匹配的相关操作扩展和Stringr包不同函数的重点介绍和举例2篇2章16节R 语言中日期时间数据的关键处理要点2篇3章定量数据的统计描述2篇3章1节用R语言进行定量数据的统计描述文末有众数的自定义函数2篇3章2节离散趋势的描述文末1个简单函数同时搞定20个结果2篇3章3节在R语言中从实际应用的角度认识假设检验2篇3章4节从R语言的角度认识正态分布与正态性检验2篇3章5节认识方差和方差齐性检验三种方法全覆盖2篇3章6节R语言中的t检验独立样本的t检验2篇3章7节单样本t检验和配对t检验2篇3章8节方差分析ANOVA及其应用2篇3章9节组间差异的非参数检验Wilcoxon秩和检验和Kruskal-Wallis检验2篇4章定性数据的统计描述2篇4章1节定性数据的统计描述之列联表文末有优势比计算介绍2篇4章2节认识birthwt数据集EpiDisplay和Gmodels扩展包的应用2篇4章3节独立性检验卡方检验费希尔精确概率检验和Cochran-Mantel-Haenszel检验2篇4章4节相关关系和连续型变量的Pearson相关分析2篇4章5节分类型变量的Spearman相关分析偏相关分析和相关图分析2篇4章6节相关图的GGally扩展包和制表的Tableone扩展包2篇5章常见类型回归分析2篇5章1节认识回归分析的历史背景及应用2篇5章2节构建一元和多元的线性回归模型2篇5章3节回归模型中哑变量的应用和设置2篇5章4节深度解读构建回归模型表达式的九个关键符号2篇5章5节深度剖析回归模型结果的相关函数2篇5章6节深度解读线性回归模型的绘图判断2篇5章7节构建因变量为分类变量的二分类Logistic回归模型2篇5章8节详解不同逻辑回归模型的比较和如何进行变量优化2篇5章9节深度讲解有序多分类Logistic回归模型的分析2篇5章10节条件Logistic回归模型的分析2篇6章生存分析模型2篇6章1节生存分析的基本概念和主要内容2篇6章2节用R进行生存率的描述与估计2篇6章3节生存分析的假设检验及可视化展示2篇6章4节认识比例风险模型和Cox比例风险模型学会从协变量的调整选择最优模型2篇6章5节用逐步回归方法来选择模型协变量比例风险假定的检验和森林图的绘制2篇7章高级回归分析2篇7章1节认识广义加性回归模型2篇7章2节初步构建广义加性回归模型2篇7章3节广义加性回归模型的可视化和模型的诊断2篇7章4节岭回归的原理和应用场景并用R进行代码演示2篇7章5节Lasso 回归的原理和应用场景并用R进行代码演示2篇7章6节弹性网Elastic Net回归的原理和应用场景并用R进行代码演示2篇7章7节逐步回归的原理和应用场景并用R进行代码演示包的高级应用2篇7章8节主成分回归的原理和应用场景并用R进行代码演示2篇7章9节神经网络回归的原理和应用场景并用R进行代码演示2篇7章10节分位数回归的原理和应用场景并用R进行代码演示第三篇数据可视化技术3篇1章R的传统绘图3篇1章1节认识R的传统绘图系统深度解析plot()函数和par()函数的使用3篇1章2节R基础绘图之散点图、直方图和概率密度图3篇1章3节R基础绘图之条形图和堆积条形图3篇1章4节饼图箱线图和克利夫兰点图3篇1章5节R基础绘图之Cleveland 点图马赛克图和等高图3篇1章6节用R进行图形的保存与导出详细的高级图形输出3篇2章R的进阶绘图3篇2章1节认识 ggplot2 扩展包深度解析 qplot() 函数的使用3篇2章2节ggplot2绘图之原理逻辑分解掌握绘图步骤3篇2章3节ggplot2绘图之内置主题设置全解析3篇2章4节ggplot2绘图之几何体解析一参考线和基准线与分布图和频数图3篇2章5节ggplot2绘图之几何体解析二关系图和时间序列图与误差条和高级图形平滑曲线3篇2章6节ggplot2绘图之统计变换与位置调整3篇2章7节个性化配色的自定义颜色演示3篇2章8节让 ggplot2 绘图进行顶级科研杂志的配色3篇2章9节坐标轴须图和带状图3篇2章10节多样的小提琴图3篇2章11节维恩图和UpSet图3篇2章12节雷达图和RadViz图3篇2章13节网络图知识图谱绘制的深度解析3篇2章14节高质量动态图和交互式动态图3篇2章15节深度讲解词云图的绘制和改变相关的主题3篇2章16节R的地理图绘制3篇2章17节轻便科研绘图的tidyplots扩展包3篇2章18节学会构建专业的多面板图3篇3章基于gglot2的扩展包应用3篇3章1节模型系数图、相关矩阵图、双变量成对矩阵图3篇3章2节绘制网络对象图和叠加地图网络图3篇3章3节绘制平行坐标图和模型诊断图3篇3章4节绘制高级散点矩阵图和多样生存曲线图3篇3章5节绘制分面直方图多元时间序列图和二元密度图3篇3章6节绘制切尔诺夫面图疼痛评分的笑脸可视化和时间序列数据的日历热图3篇3章7节绘制时间序列地平线图和时间序列流图3篇3章8节绘制瀑布图和镶嵌图3篇3章9节深度讲解树图的多样化绘制3篇3章10节绘制混合箱线图和弧形条形图3篇3章11节绘制议会图和深度讲解绘制山峦图岭线图3篇3章12节可视化扩展包从主成分分析到时间序列从K-means聚类到广义线性模型3篇3章13节绘制大数据级别的字母值箱线图Letter-Value Boxplot3篇3章14节绘制美观和直观的蜂群图Bee Swarm Plot3篇3章15节用不同方法绘制高级云雨图Raincloud Plot3篇4章三维图形可视化3篇4章1节不同方法绘制多样的三维散点图3篇4章2节深度讲解如何绘制三维透视图从内置函数到扩展包函数3篇4章3节绘制三维条带图和三维直方图3篇4章4节绘制三维切片图和三维切片轮廓图文末添加三维文本信息3篇4章5节如何绘制三维曲面图、三维球面图和三维曲面地形图-CSDN博客​3篇4章6节绘制三维等值面图、三维等值体素图和三维多边形图3篇4章7节绘制交互式三维图形-CSDN博客​3篇4章8节绘制三维地形图3篇4章9节如何将 ggplot2 对象转化为三维图形-CSDN博客3篇5章科研绘图新利器plotthis 包3篇5章1节科研绘图这个 R 包可能比 ggplot2 更适合你绘制渐变面积图3篇5章2节绘制临床研究中的趋势图与ROC曲线3篇5章3节聚类演变图、折线图和网络关系图3篇5章4节打造专业热图上3篇5章5节打造专业热图下3篇5章6节相关散点图与多变量相关图3篇5章7节高效饼图、环图与QQ图的实现3篇5章8节绘制基因差异表达数据的火山图3篇5章9节绘制高效和专业的条形图3篇5章10节绘制箱线图和小提琴图3篇5章11节绘制 Chord Diagram弦图和 Circos Plot环形关系图3篇5章12节降维可视化的DimPlot与FeatureDimPlot应用3篇5章13节富集分析的网络可视化全解析3篇5章14节基因富集分析的基因集可视化全解析3篇5章15节用桑基图和堆积流图揭示数据中的动态流动关系3篇5章16节栅格、掩膜、矢量与点数据的高效绘图第四篇临床试验特定技术4篇1章临床试验的常规统计4篇1章1节初步认识临床试验4篇1章2节样本量估计的初步介绍4篇1章3节用R进行样本量估计的统计学参数4篇1章4节两组例数相同的均数比较的样本量估计和绘制功效曲线4篇1章5节两组的例数不等的均数比较的样本量估计和可视化4篇1章6节自身配对设计的均数比较临床试验的样本量估计和可视化4篇1章7节与总体均数比较的样本量估计和可视化4篇1章8节 两、三组试验组率比较的样本量估算和可视化4篇1章9节试验的随机分组认识用R做简单随机化4篇1章10节用R实现分层随机化4篇1章11节用R实现区组随机化和置换区组随机化4篇1章12节动态随机化方法介绍和用R绘制随机化卡片4篇2章样本量估计的进阶技术4篇2章1节认识析因试验和多因素设计样本量估计的底层逻辑4篇2章2节用R演示高血压析因试验的样本量计算4篇2章3节模拟法在临床试验功效分析中的应用4篇2章4节三因素2b × 3w × 2b混合设计功效模拟实战以抗高血压药物试验为例4篇2章5节ANOVA 功效的单次精确模拟与可视化全解析4篇2章6节生存分析研究中终点事件数的估算方法4篇2章7节基于分层生存模型的功效计算以糖尿病临床试验为例第五篇文献挖掘的技术5篇1章Meta分析攻略5篇1章1节认识循证医学中的Meta分析并予代码演示分析绘图​​5篇1章2节Meta分析的7大步骤的扼要解读5篇1章3节二分类变量的Meta分析模型分析公式构建和结果解读5篇1章4节二分类变量的Meta分析模型绘制漏斗图和应用剪补法绘制和解读轮廓增强漏斗图5篇1章5节二分类变量的Meta分析模型敏感性分析和亚组分析绘制森林图5篇1章6节连续型变量的Meta分析和可视化分析全解5篇1章7节用R进行单个率Meta分析5篇2章高级Meta分析5篇2章1节用R进行网状Meta分析细解-CSDN博客5篇2章2节认识剂量-反应 Meta 分析及相关的R包5篇2章3节在经典临床研究中进行二次固定效应剂量-反应建模和预测5篇2章4节剂量-反应Meta分析中的最优线性无偏预测5篇2章5节多变量Meta分析和其回归模型的实现5篇2章6节贝叶斯 Meta 分析在小样本、高异质性及稀疏数据下的应用上篇核心函数5篇2章7节贝叶斯 Meta 分析在小样本、高异质性及稀疏数据下的应用中篇具体建模5篇2章8节贝叶斯 Meta 分析在小样本、高异质性及稀疏数据下的应用下篇可视化5篇2章9节累积Meta分析在循证医学中的应用及R语言实操5篇3章文献计量学5篇3章1节文献计量分析基础5篇3章2节数据库的数据采集WOS数据库和PUBMED数据库的文献信息批量下载和分析5篇3章3节国际六大科研文献数据库的数据加载与格式转换解析5篇3章4节文献计量学中数据合并、去重、切片与编辑5篇3章5节文献计量学的描述性分析5篇3章6节文献计量学的可视化与引文信息分析5篇3章7节作者主导性分析及H指数与其变体的应用5篇3章8节Lotka分析和知识单元时序分析5篇3章9节局部被引次数分析与文献文本字段术语提取研究5篇3章10节为构建网络图从文献数据中提取特定信息5篇3章11节文献计量分析合作情况可视化5篇3章12节耦合网络可视化从常规网络图到耦合分析聚类图的深度讲解5篇3章13节共被引网络、历史共被引网络和共词网络的可视化​​5篇3章14节概念结构图贡献度最高文献因子图和最被引用文献因子图5篇3章15节文献计量学的语义地图和主题演化分析图5篇3章16节PubMed数据库的数据提取和可视化5篇3章17节文献计量中著作层面的情感分析第六篇数据驱动的分析6篇1章主成分分析6篇1章1节深度讲解用R进行主成分分析上6篇1章2节​深度讲解用R进行主成分分析中6篇1章3节​深度讲解用R进行主成分分析下6篇1章4节学会用R进行因子分析上6篇1章5节学会用R进行因子分析中6篇1章6节学会用R进行因子分析下6篇2章匹配技术应用6篇2章1节认识临床研究的匹配技术6篇2章2节匹配结果的可视化和匹配后新数据分析6篇3章判别和聚类分析6篇3章1节医学研究中的判别分析和聚类分析6篇3章2节线性判别分析预测模型构建评估和可视化演示6篇3章3节二次判别分析技术的运用6篇3章4节K-Means聚类分析的运用和改进算法的K-Means6篇3章5节实现k-medoids聚类算法的PAM和CLARA方法6篇3章6节凝聚层次聚类和分裂层次聚类6篇4章时间序列分析6篇4章1节认识时间序列分析创建和整理时间序列数据6篇4章2节深度讲解白噪音检验6篇4章3节认识ARIMA模型和模拟其数据讲解平稳性检验6篇4章4节ACF和PACF的可视化和识别最佳模型6篇4章5节如何应用SARIMA模型来进行时间序列数据的预测6篇4章6节Facebook 的时间序列预测的 Prophet 模型6篇5章数据因果分析6篇5章1节因果中介分析的贝叶斯方法6篇5章2节高维中介情境下的贝叶斯因果中介分析6篇6章孟德尔随机化6篇6章1节认识孟德尔与孟德尔定律为流行病学因果研究提供方法指导6篇6章2节单核苷酸多态性与孟德尔随机化6篇6章3节全基因组关联研究GWAS第七篇机器学习和预测7篇1章机器学习入门7篇1章1节机器学习和人工智能的基础知识7篇1章2节机器学习在临床预测中的应用场景与临床预测模型的关键步骤解析7篇1章3节详析训练数据集、测试数据集和验证数据集及其划分策略7篇1章4节采用随机抽样法和等比抽样法对数据集进行二份及三份的划分7篇1章5节划分数据的多次随机抽样的Bootstrap法和加权随机抽样法7篇1章6节交叉验证概述与分类R中K折交叉验证的详细解析7篇1章7节机器学习算法解读与数值预测回归模型构建7篇1章8节朴素贝叶斯分类预测模型从构建、解析到实战7篇1章9节认识决策树构建CART算法的决策树模型7篇1章10节深度解析如何构建随机森林算法预测模型7篇1章11节构建人工神经网络反向传播算法预测模型7篇1章12节认识机器学习的模型评估掌握数值型数据的模型评估方法7篇1章13节分类模型的混淆矩阵评估7篇1章14节评估和对比预测模型的ROC曲线和AUC值7篇1章15节六大ROC曲线扩展包的对比和其它评估曲线的绘制7篇2章抽样与重抽样技术7篇2章1节机器学习的抽样与重抽样技术7篇2章2节模型抽样调查抽样和抽样技术的专业术语7篇2章3节总群体的统计量和抽样方法在医药研究中的应用7篇2章4节概率抽样和三种非概率抽样的实现7篇2章5节抽样分布的统计理论7篇2章6节深度解析和认识中心极限定理7篇2章7节简单随机抽样及其在R语言中的实现与验证7篇2章8节系统性随机抽样及其在R语言中的实现与验证7篇2章9节分层随机抽样及其在R语言中的实现与验证7篇2章10节聚类抽样及其在R语言中的实现与验证7篇2章11节自助抽样及其在R语言中的实现与验证7篇2章12节抽样的蒙特卡洛方法7篇3章特征工程技术7篇3章1节认识机器学习的特征工程7篇3章2节了解特征工程的工作数据7篇3章3节了解特征工程的特征排名7篇3章4节特征工程的变量子集选择7篇3章5节特征工程变量子集选择的过滤器方法应用7篇3章6节特征工程变量子集选择的包装器方法应用7篇3章7节特征工程变量子集选择的嵌入式方法应用第八篇R与人工智能8篇1章人工智能理论8篇1章1节认识生成式人工智能与生成式代码的优势和局限8篇1章2节认识生成对抗网络GAN和StyleGAN8篇1章3节大模型术语解读与从生成到推理的演进8篇1章4节Transformer架构和提词器工程学的出现8篇2章R与人工智能8篇2章1节在 RStudio 中无插件使用 DeepSeek基本篇8篇2章2节在 RStudio 中无插件使用 DeepSeek进阶篇第九篇公共数据库挖掘9篇1章中国居民数据库9篇1章1节中国居民健康与营养调查CHNS数据库的官网解析和数据下载2026年版9篇1章2节CHNS数据库的具体数据下载解析2026年版9篇1章3节CHNS数据库的家庭层面数据模块和个人层面数据模块2026年版9篇1章4节CHNS数据库的生物标志物数据模块和城市化数据模块2026年版9篇2章GBD 数据库9篇2章1节认识全球疾病负担数据库 GBD9篇2章2节GBD 数据库的数据申请详解9篇2章3节GBD 数据库的数据深度解读上9篇2章4节GBD 数据库的数据深度解读下9篇2章5节GBD 数据库的全球疾病负担死亡概率可视化演9篇2章6节GBD 数据库分析策略和 SDI 指数的应用解读并以高血压为例9篇2章7节GBD 数据库的关键数据工具系统介绍上9篇2章8节GBD 数据库的关键数据工具系统介绍下9篇2章9节多源数据联合应用在全球疾病负担GBD分析中的策略分析9篇2章10节2025年基于GBD数据的柳叶刀子刊研究深度解析全网最深度解读9篇2章11节基于GBD数据的医学科研成文的六步法9篇2章12节不同临床科室可基于GBD进行数据挖掘的方向举例联合分析9篇3章FAERS 数据库包括其它药物警戒数据库9篇3章1节FAERS数据库的FDA官方讲解对期刊投稿设限的FAERS数据库的客观评价9篇3章2节认识FAERS数据库的数据和公共仪表板分析前必看9篇3章3节FAERS数据库公共仪表板搜索功能操作与解析9篇3章4节FAERS数据库中单个药品报告的数据总览9篇3章5节FAERS数据库中药品报告的数据来源与核心字段深度解读9篇3章6节FAERS数据的官网下载和ASCII文件的七大模块详解9篇3章7节基于 R 语言的 FAERS 数据提取与合并9篇3章8节FAERS联合挖掘认识和获取VigiBase数据库资料9篇4章GEO 数据库9篇4章1节临床医生如何利用GEO数据库开展研究9篇4章2节GEO数据库的数据组织结构9篇4章3节GEO数据库官网数据的直接下载9篇4章4节用R语言进行GEO数据的下载和初步解析9篇4章5节GEO 数据库之炎症性肠病基因表达分析演示一9篇4章6节GEO 数据库之炎症性肠病基因表达分析演示二9篇4章7节GEO 数据库之炎症性肠病基因表达分析演示三9篇4章8节GEO 数据库之炎症性肠病基因表达分析演示四9篇4章9节GEO 数据库之炎症性肠病基因表达分析演示五9篇5章NHIS 数据库9篇5章1节理解美国国家健康访谈调查NHIS数据库9篇5章2节NHIS 数据库的常规数据下载9篇5章3节NHIS 样本成人数据的结构化解读9篇5章4节NHIS 样本其它数据的结构化解读9篇5章5节NHIS 样本合并数据的权重分析演示一9篇5章6节NHIS 样本合并数据的权重分析演示二9篇6章SEER 数据库9篇6章1节SEER数据库的全景解读9篇6章2节SEER 项目的历史、现状和展望9篇6章3节SEER数据库的数据下载权限申请2026年版9篇6章4节SEER数据库 SEERStat、SEERPrep、HDCalc 工具介绍9篇6章5节SEER 数据库的数据集选择9篇6章6节SEER 数据库的2025年数据集中的数据选择2026年版9篇6章7节SEER 数据库的2025年数据变量多条件组合选择2026年版9篇6章8节用 Export 功能导出 SEER 数据的全流程操作演示2026年版9篇6章9节要用 R 读取 SEER 数据9篇7章NHANES 数据库9篇7章1节认识二次数据分析和NHANES数据库9篇7章2节下载NHANES数据并使用R进行读取9篇7章3节NHANES数据的下载读取、追加和合并9篇7章4节认识统计学的权重、抽样及其背后的设计逻辑9篇7章5节实例解析权重对数据结果的影响和可靠性评估9篇7章6节深度讲解不同NHANES的权重的种类选择和R包9篇7章7节单周期的NHANES权重计算实战9篇7章8节多周期的NHANES权重计算实战9篇7章9节一步一步构建高效读取NHANES数据的自定义函数9篇7章10节如何解决 NHANES 数据合并所遇原表差异问题9篇7章11节2025年后如何使用扩展包访问、下载和分析 NHANES 数据9篇7章12节如何直接显示NHANES某个变量的代码本9篇7章13节根据关键词检索NHANES变量和得到相关信息并且通过指定URL直接下载数据9篇7章14节下载 NHANES 的数据清单、搜索表格和表格里面的变量汇总9篇7章15节快速获取 NHANES 特定的表格信息和变量信息9篇7章16节NHANES 2017–2023 数据的样本设计、无应答偏差评估与分析说明9篇7章17节特殊的NHANES数据解读包括NNYFS、NHEFS、NHES 和 HHANES 等数据9篇7章18节复现NHANES的美国成人抑郁症患病率研究上9篇7章19节复现NHANES的美国成人抑郁症患病率研究中9篇7章20节复现NHANES的美国成人抑郁症患病率研究下9篇8章MIMIC 数据库9篇8章1节认识 MIMIC 的主要数据库9篇9章SHARE 数据库9篇9章1节认识 SHARE 数据库本专栏多次荣获 热销专栏榜 第一名 ​​