pandas与其它分析库通常是靠NumPy的数组联系起来的。将DataFrame转换为NumPy数组,可以使用.values属性
工具/原料
1
pandas
2
python
方法/步骤
1
要转换回DataFrame,可以传递一个二维ndarray,可带有列名
2
对于一些模型,你可能只想使用列的子集。我建议你使用loc,用values作索引
3
一些库原生支持pandas,会自动完成工作:从DataFrame转换到NumPy,将模型的参数名添加到输出表的列或Series。其它情况,你可以手工进行“元数据管理”。在第12章,我们学习了pandas的Categorical类型和pandas.get_dummies函数。假设数据集中有一个非数值列
4
如果我们想替换category列为虚变量,我们可以创建虚变量,删除category列,然后添加到结果
注意事项
1
最好当数据是均匀的时候使用.values属性。例如,全是数值类型。如果数据是不均匀的,结果会是Python对象的ndarray
2
用虚变量拟合某些统计模型会有一些细微差别。当你不只有数字列时,使用Patsy(下一节的主题)可能更简单,更不容易出错
上一篇:春天防止在花的世界里过敏反应
下一篇:鼻咽癌的存活率