R语言-数据清洗-百问五一

的有关信息介绍如下：

R语言-数据清洗

R语言，最适合统计研究背景的人员学习，具有丰富的统计分析功能库以及可视化绘图函数可以直接调用。通过Hadoop-R更可支持处理百亿级别的数据。

1、三种常见的清洗数据

1）重复值数据

定义：把数据结构中，行数据相同的剔除

unique 函数语法： unique (x)

案例：

导入csv数据： data <- read.csv ( "sales.csv")

删除重复数据： new_data1 <- unique (data ) ---删除的为所有字段均重复的记录行

2）缺失值数据

处理方式：

数据补齐

删除对应缺失行

na.omit 函数作用：剔除数据结构中值为空(即缺失值以NA表示)的数据

na.omit 函数语法： na.omit (x)

案例： new_data2 <- na.otmi (data)

不处理

3）空格值数据

trim 函数作用：清除字符型数据前后的空格

trim 函数语法： trim (x)

案例： new_data3 <- trim (data)

注：trim 函数来自 raster包，使用前，先使用 install.packages("raster") 安装，再使用 library (raster) 引入该包；