R语言-数据清洗
的有关信息介绍如下:
R语言,最适合统计研究背景的人员学习,具有丰富的统计分析功能库以及可视化绘图函数可以直接调用。通过Hadoop-R更可支持处理百亿级别的数据。
1、三种常见的清洗数据
1)重复值数据
定义:把数据结构中,行数据相同的剔除
unique 函数语法: unique (x)
案例:
导入csv数据: data <- read.csv ( "sales.csv")
删除重复数据: new_data1 <- unique (data ) ---删除的为所有字段均重复的记录行
2)缺失值数据
处理方式:
数据补齐
删除对应缺失行
na.omit 函数作用:剔除数据结构中值为空(即缺失值以NA表示)的数据
na.omit 函数语法: na.omit (x)
案例: new_data2 <- na.otmi (data)
不处理
3)空格值数据
trim 函数作用:清除字符型数据前后的空格
trim 函数语法: trim (x)
案例: new_data3 <- trim (data)
注:trim 函数来自 raster包,使用前,先使用 install.packages("raster") 安装,再使用 library (raster) 引入该包;



