数据清洗最开始的步骤,处理丢失值,严格来说叫NaN值,处理流程一般为先判断有没有NaN值,然后考虑丢弃记录或者填充数据,这里的丢弃记录是删除NaN值所在的行或列。0pandas设置值的几种方式
工具/原料
1
pandas库
2
pycharm或其他编辑器
3
基础数据
方法/步骤
1
我们直接打印pandas对象,会发现一些添加的NaN值或这数据中存在的NaN值,但在数据非常大的时候要确认数据中到底有没有个别的NaN值,需要用到以下方法print(numpy.any(data_info.isnull()) == True)图中看到返回的值为true,表示data_info对象至少包含一个NaN
2
要判断某些数据是不是NaN,可以用到如下方法:print(data_info.isnull())对于这个方法,以后还是很有用的,可以用来当做基础判断条件。
3
当我们发现了数据中有NaN值的时候,由于数据不完整,很可能考虑要删除那样一条记录data_info.dropna(axis=0,how='any')data_info.dropna(axis=1,how='all')dropna 方法可以丢掉缺失记录,axis=0 表示丢掉NaN值所在行,axis=1表示丢掉所在列,how=‘any’表示如果至少那行有一个NaN值就执行dropna,how=“all”表示如果那行或列全都是NaN的时候才丢掉执行之后add列已经没有了,报价单那列还有保留。
4
当需要保留记录并填充缺失数据的时候,需要用到fillna方法print(data_info.fillna(value=0))value=0时就都填充了0,填其他字符也一样
注意事项
1
如何对数据有缺失限制要求的话,就需要处理了,一般pandas会跳过
2
但是经验是pandas很多莫名其妙的错误提示都是NaN值造成的