pandas处理丢失值的几种方式

数据清洗最开始的步骤，处理丢失值，严格来说叫NaN值，处理流程一般为先判断有没有NaN值，然后考虑丢弃记录或者填充数据，这里的丢弃记录是删除NaN值所在的行或列。0pandas设置值的几种方式

工具/原料

1

pandas库

2

pycharm或其他编辑器

3

基础数据

方法/步骤

1

我们直接打印pandas对象，会发现一些添加的NaN值或这数据中存在的NaN值，但在数据非常大的时候要确认数据中到底有没有个别的NaN值，需要用到以下方法print(numpy.any(data_info.isnull()) == True)图中看到返回的值为true，表示data_info对象至少包含一个NaN

2

要判断某些数据是不是NaN，可以用到如下方法：print(data_info.isnull())对于这个方法，以后还是很有用的，可以用来当做基础判断条件。

3

当我们发现了数据中有NaN值的时候，由于数据不完整，很可能考虑要删除那样一条记录data_info.dropna(axis=0，how='any')data_info.dropna(axis=1，how='all')dropna 方法可以丢掉缺失记录，axis=0 表示丢掉NaN值所在行，axis=1表示丢掉所在列，how=‘any’表示如果至少那行有一个NaN值就执行dropna，how=“all”表示如果那行或列全都是NaN的时候才丢掉执行之后add列已经没有了，报价单那列还有保留。

4

当需要保留记录并填充缺失数据的时候，需要用到fillna方法print(data_info.fillna(value=0))value=0时就都填充了0，填其他字符也一样

注意事项

1

如何对数据有缺失限制要求的话，就需要处理了，一般pandas会跳过

2

但是经验是pandas很多莫名其妙的错误提示都是NaN值造成的

上一篇：如何使用JavaScript特殊数据类型的比较获取结果

下一篇：matlab怎么统计矩阵nan元素的个数

推荐信息

网站地图 XML TXT RSS 隐私政策服务条款使用条款

Copyright ©1996-2026 www.onijiang.com Corporation, All Rights Reserved