多语言展示
当前在线:1207今日阅读:27今日分享:41

pandas数据操作和建模切换的方法

pandas与其它分析库通常是靠NumPy的数组联系起来的。将DataFrame转换为NumPy数组,可以使用.values属性
工具/原料
1

pandas

2

python

方法/步骤
1

要转换回DataFrame,可以传递一个二维ndarray,可带有列名

2

对于一些模型,你可能只想使用列的子集。我建议你使用loc,用values作索引

3

一些库原生支持pandas,会自动完成工作:从DataFrame转换到NumPy,将模型的参数名添加到输出表的列或Series。其它情况,你可以手工进行“元数据管理”。在第12章,我们学习了pandas的Categorical类型和pandas.get_dummies函数。假设数据集中有一个非数值列

4

如果我们想替换category列为虚变量,我们可以创建虚变量,删除category列,然后添加到结果

注意事项
1

最好当数据是均匀的时候使用.values属性。例如,全是数值类型。如果数据是不均匀的,结果会是Python对象的ndarray

2

用虚变量拟合某些统计模型会有一些细微差别。当你不只有数字列时,使用Patsy(下一节的主题)可能更简单,更不容易出错

推荐信息