首页 搜索引擎营销正文

数据清洗

kumb 搜索引擎营销 2020-07-14 17:19:23 266 0 sem

4.2.1 数据清洗

从各个渠道获取到的数据在格式上难免存在一些问题,数据清洗的过程就是对数据中的缺失值、重复值、错误值、文本型数值等纠错的过程。

1.缺失数据处理

数据缺失主要有记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果的不准确。销售阶段的数据在整理时可能会人为造成数据缺失,使数据的完整性受到破坏。如果是主关键词缺失,该条记录已经失去了分析的意义,直接删除该条记录;如果是某个属性值缺失,以零补缺,如图4.5所示。

2.重复数据处理

数据重复一般是指一行记录的信息是完全一样的,多数为人为重复录入。一条记录多次录入,会影响分析结果的准确性,在错误的数据上分析出错误的结果,所以重复数据也是不允许存在的,要做好去重处理,如图4.6所示。

图4.5 缺失数据处理

图4.6 重复数据处理

3.错误值数据处理

数据格式错误,如时间、日期、数值、全半角等显示格式不一致。例如销售表格,可能由很多名销售的表格合并而成,所以会存在格式不一致、全半角字符等问题,这一类的问题均需要进行格式统一化。格式不一致的数据如图4.7所示。

图4.7 数据格式不一致


我们致力于为三农(农业、农村、农民)提供专业物联网解决方案,同时也提供应用软件、微信小程序、手机App、企业网站的开发和跨境电商建站、网络营销等服务,站长微信号(mywit_net),添加后备注“黎辉物联网”,如有相关需求也可通过电子邮件(12tc@sina.cn)与我们取得联系

本站内容均来自互联网,如有涉及到侵权行为,请你及时与站长联系删除!

本文链接:https://www.kumb.cn/2568.html

发表评论

评论列表(0人评论 , 266人围观)
☹还没有评论,来说两句吧...