《临床营养管理 节选88》数据预处理
日期:2024-02-09 10:18:12   来源:媒体公告

  河南中医药大学预防医学专业(营养与食品卫生方向)创办人研究方向:营养及食疗药膳基础理论研究,流行病学及统计学应用研究。

  本文摘选自:《临床营养管理——基础、技能与案例》,化学工业出版社 P080-081

  数据质量源于规范的研究设计,核心在于满足分析目的,数据呈现具有完整性、准确性。其重要特征是将误差控制在有关专业接受范围内,保证数据采集处理的快速及时、阐述规范、 表达完整、直观易懂、符合分析目的。

  是指在数据分析之前清理异常值,纠正不完整、不一致的脏数据,提高数据质量的技术。包括数据清洗、数据集成、数据变换与数据归约等内容。

  (1)数据清洗(data cleaning)是对数据来进行重新审查和校验的过程。包括检查数据的一致性,处理缺失值、空白值,排除异常值、无效值、重复值等。

  (2)数据集成是指将多个数据源中的数据来进行整合并统一存储,建立数据仓库的过程。

  (3)数据变换通过平滑聚集、数据概化及规范化等方式将数据转换成适用于数据分析的形式。常用的方法如下。

  ①非正态数值变量的数据转换。常用的方法有对数变换、平方根变换、倒数变换等,包含定性资料、等级资料与定量资料间的相互转换。

  ②分类变量的哑变量变换。哑变量(dummy variable)亦称虚拟变量。如果是二分类变量改成哑变量,只要将一类赋值为0,另一类赋值为1,0作为对照组即可;多分类变量有k个类别,则可以转化为k-1个二分变量。例如,变量x为赋值1、2、3、4的四分类变量能转换为3个赋值为0和1的二分类变量,分析办法能够考虑一般线性模型。目前大多数统计软件都能轻松实现在SPSS中设置哑变量,在回归分析界面点击Categorical,通过该按钮可设为哑变量,并指定其参照类。哑变量的设置个数为分类个数减1。如四种科室类型,需要设置3个哑变量。手工设定哑变量见【例7-1】。

  【例7-1】 肿瘤科、呼吸内科、神经内科和肝胆外科四个科室,因为这四个科室并没有等级之分,不能直接将肿瘤科、呼吸内科、神经内科和肝胆外科依次赋值为1、2、3、4而人为出现不同级别。可通过设置三个哑变量加以解决,如规定凡是肿瘤科,哑变量1赋值为1,余为0;凡为呼吸内科,哑变量2赋值为1,余为0;凡为神经内科,哑变量3赋值为1,余为0,其哑变量的转换结果见表7-3。

  (4)数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量,减少数据分析中的时间和资源,并产生与归约前相同或近似相同的效果。包括:①维归约,指用减少属性特征的方式压缩数据量,移除不相关的属性,提高效率;②数值归约,也称为样本归约,指从数据集中选出一个有代表性的样本子集。

  (1)源文件(source files)是临床试验数据记录的第一手资料。试验中的任何观察、检查结果均应及时、准确、完整、规范、真实地记录于源文件。源文件包括知情同意书、受试者筛选表与入选表、受试者鉴认编码表、受试者医疗文件(如病历或研究病历,包括理化检查报告)、试验用药使用记录表、实验室记录、严重不良事件报告表、备忘录等。

  (2)源数据(sourcedata)指原始文件上的数据,是临床试验数据记录的第一手资料。包含医院病历、临床或办公室记录、实验室记录、备忘录、受试者日记或评估表、药物发放记录、自动化仪器记录的数据、核证副本、微缩胶片、照相底片、磁介质、X光片、受试者文件,以及药房、实验室和医药技术部门保存的临床试验相关文件、记录等。临床试验中的任何观察、检查结果均应及时、准确、完整、规范、真实地记录于源文件。

  指不符合要求及不能直接进行相应分析的数据,包括缺失值、异常值(离群点)、不一致的值、内容未知的值和无效值。

  (1)缺失值(missing value)指因种种原因不能得到观测指标的具体测量值,出现数据缺失。评判临床营养研究中数据缺失的影响的大小,应视缺失属性而定。

  (2)极端值(extreme value)又称离群值(outlier),指那些极小、极大地远离大多数测量值的数值。在小样本的临床营养研究中,极端值的作用尤为明显。判断极端值是否为异常值,需结合临床或专业知识。

  截止到 2024 年 1 月 31 号上午 8:00 时,本平台关注人数为:364458 名。更多信息点击左下角阅读原文查看。