您的位置首页百科问答

R语言-数据清洗

R语言-数据清洗

的有关信息介绍如下:

R语言-数据清洗

R语言,最适合统计研究背景的人员学习,具有丰富的统计分析功能库以及可视化绘图函数可以直接调用。通过Hadoop-R更可支持处理百亿级别的数据。

1、三种常见的清洗数据

1)重复值数据

定义:把数据结构中,行数据相同的剔除

unique 函数语法: unique (x)

案例:

导入csv数据: data <- read.csv ( "sales.csv")

删除重复数据: new_data1 <- unique (data ) ---删除的为所有字段均重复的记录行

2)缺失值数据

处理方式:

数据补齐

删除对应缺失行

na.omit 函数作用:剔除数据结构中值为空(即缺失值以NA表示)的数据

na.omit 函数语法: na.omit (x)

案例: new_data2 <- na.otmi (data)

不处理

3)空格值数据

trim 函数作用:清除字符型数据前后的空格

trim 函数语法: trim (x)

案例: new_data3 <- trim (data)

注:trim 函数来自 raster包,使用前,先使用 install.packages("raster") 安装,再使用 library (raster) 引入该包;