Python数据清洗指南

数据清洗,是进行数据分析和使用数据训练模型的必经之路,数据分析师经常需要花费大量的时间来清洗数据或者转换格式,这个工作甚至会占整个数据分析流程的80%左右的时间。

数据清洗的目的有两个,第一是通过清洗让数据可用;第二是让数据变的更适合进行后续的分析工作。通常来说,你所获取到的原始数据不能直接用来分析,因为它们会有各种各样的问题,如包含无效信息,列名不规范、格式不一致,存在重复值,缺失值,异常值等…

以下是我们这期要进行处理医学相关的数据,包含了一些化学含量数据,例如酒精、苹果酸、镁、黄铜、花青素等,本篇就这份数据顺便分享一些比较便捷实用的数据清洗技巧。


1、导入分析包

数据清洗主要用到的就是numpy以及pandas库,在处理前确保安装好该库。


2、加载数据集

这里对数据进行了预览,确保数据无误。


3、对某一字段进行清洗

例如这里我想删除第 1,4,7,9,11,13,14列,并保存修改,操作如下:


4、添加列索引


5、数据替换

5.1 将alcohol 这一列的前三行改为NaN


5.2 设置magnesium的第3到4行为NaN


6、缺失值处理

对于缺失值有两种处理的方法

第一种是使用fillna函数对空值进行填充,可以选择填充0值或者其他任意值

第二种方法是使用dropna函数直接将包含空值的数据删除

6.1 将 alcohol 和 magnesium列的缺失值分别用10和100进行填充


6.2 统计缺失值个数


6.3 删除包含缺失值的行


7、数据整合

让索引重新从0开始


“Python数据清洗指南”的9个回复

  1. This is a great article that has taught me a lot. By the way, your website is very beautiful. Can you write a tutorial on building it?

  2. 刚转行到数据分析行业,以前搞java的,接到任务一脸懵逼,不过照着你的教程敲了个demo之后基本上算是入门了,感谢博主!

  3. I love looking through a post that will make people think. Also, many thanks for permitting me to comment. Josiah Damiani

  4. I was examining some of your articles on this website and I think this site is rattling informative ! Keep on putting up. Jackie Skokowski

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注