多语言展示
当前在线:392今日阅读:103今日分享:49

pandas处理丢失值的几种方式

数据清洗最开始的步骤,处理丢失值,严格来说叫NaN值,处理流程一般为先判断有没有NaN值,然后考虑丢弃记录或者填充数据,这里的丢弃记录是删除NaN值所在的行或列。0pandas设置值的几种方式
工具/原料
1

pandas库

2

pycharm或其他编辑器

3

基础数据

方法/步骤
1

我们直接打印pandas对象,会发现一些添加的NaN值或这数据中存在的NaN值,但在数据非常大的时候要确认数据中到底有没有个别的NaN值,需要用到以下方法print(numpy.any(data_info.isnull()) == True)图中看到返回的值为true,表示data_info对象至少包含一个NaN

2

要判断某些数据是不是NaN,可以用到如下方法:print(data_info.isnull())对于这个方法,以后还是很有用的,可以用来当做基础判断条件。

3

当我们发现了数据中有NaN值的时候,由于数据不完整,很可能考虑要删除那样一条记录data_info.dropna(axis=0,how='any')data_info.dropna(axis=1,how='all')dropna 方法可以丢掉缺失记录,axis=0 表示丢掉NaN值所在行,axis=1表示丢掉所在列,how=‘any’表示如果至少那行有一个NaN值就执行dropna,how=“all”表示如果那行或列全都是NaN的时候才丢掉执行之后add列已经没有了,报价单那列还有保留。

4

当需要保留记录并填充缺失数据的时候,需要用到fillna方法print(data_info.fillna(value=0))value=0时就都填充了0,填其他字符也一样

注意事项
1

如何对数据有缺失限制要求的话,就需要处理了,一般pandas会跳过

2

但是经验是pandas很多莫名其妙的错误提示都是NaN值造成的

推荐信息