2023年11月16日2024年7月9日由Nick

Python数据清洗指南

数据清洗，是进行数据分析和使用数据训练模型的必经之路，数据分析师经常需要花费大量的时间来清洗数据或者转换格式，这个工作甚至会占整个数据分析流程的80%左右的时间。

数据清洗的目的有两个，第一是通过清洗让数据可用；第二是让数据变的更适合进行后续的分析工作。通常来说，你所获取到的原始数据不能直接用来分析，因为它们会有各种各样的问题，如包含无效信息，列名不规范、格式不一致，存在重复值，缺失值，异常值等…

以下是我们这期要进行处理医学相关的数据，包含了一些化学含量数据，例如酒精、苹果酸、镁、黄铜、花青素等，本篇就这份数据顺便分享一些比较便捷实用的数据清洗技巧。

1、导入分析包

数据清洗主要用到的就是numpy以及pandas库，在处理前确保安装好该库。

2、加载数据集

这里对数据进行了预览，确保数据无误。

3、对某一字段进行清洗

例如这里我想删除第 1,4,7,9,11,13,14列，并保存修改，操作如下：

4、添加列索引

5、数据替换

5.1 将alcohol 这一列的前三行改为NaN

5.2 设置magnesium的第3到4行为NaN

6、缺失值处理

对于缺失值有两种处理的方法

第一种是使用fillna函数对空值进行填充，可以选择填充0值或者其他任意值

第二种方法是使用dropna函数直接将包含空值的数据删除

6.1 将 alcohol 和 magnesium列的缺失值分别用10和100进行填充

6.2 统计缺失值个数

6.3 删除包含缺失值的行

7、数据整合

让索引重新从0开始

Post Views: 87,880

“Python数据清洗指南”的9个回复

TomyKeepCoding说道：

2024年7月9日上午2:34

受教了，作为一个刚接触数据清洗的小白长见识了，感谢博主！

回复
JonyLA说道：

2024年7月9日上午2:36

This is a great article that has taught me a lot. By the way, your website is very beautiful. Can you write a tutorial on building it?

回复
Cx88991231说道：

2024年7月9日上午2:38

刚转行到数据分析行业，以前搞java的，接到任务一脸懵逼，不过照着你的教程敲了个demo之后基本上算是入门了，感谢博主！

回复
陌生人说道：

2024年7月9日上午2:38

666666666666666

回复
感恩的心说道：

2024年7月9日上午2:39

写的很清晰，谢谢！

回复
passwords说道：

2024年7月9日上午2:40

Some really prize content on this site, saved to fav. Maximo Griffie

回复
russian bet说道：

2024年7月9日上午2:41

I love looking through a post that will make people think. Also, many thanks for permitting me to comment. Josiah Damiani

回复
Jean Olwin说道：

2024年7月9日上午2:42

Awesome post. Really looking forward to read more. Want more. Jean Olwin

回复
Jackie Skokowski说道：

2024年7月9日上午2:42

I was examining some of your articles on this website and I think this site is rattling informative ! Keep on putting up. Jackie Skokowski

回复

发表回复取消回复