多语言展示
当前在线:871今日阅读:23今日分享:25

SPSS Modeler(Clementine)的类型节点

类型节点用于描述给定字段中数据的特征。如果字段的所有细节都是已知的,则称为完全实例化。字段的类型不同于字段的存储,它指示数据是以字符串、整数、实数、日期、时间还是时间戳的形式存储。
工具/原料

SPSS Modeler12.0

方法/步骤
1

范围       用于描述数值,例如0–100或0.75–1.25的范围。范围值可以是整数、实数或日期/时间。 离散      用于字符串值,当确切数量的非重复值未知时。这是一个未实例化的数据类型,这意味着关于数据的存储和使用的所有可能信息尚不清楚。读取数据后,类型将是flag、set或typeless,具体取决于在stream properties对话框中指定的最大集合大小。 标志用于具有两个不同值的数据,例如Yes和No或1和2。数据可以表示为文本、整数、实数或日期/时间。注:日期/时间指三种类型的存储:时间、日期或时间戳。 集 用于描述具有多个不同值的数据,每个值都被视为一个集合的成员,例如small/medium/large。在这个版本的Clementine中,集合可以有任何存储数字、字符串或日期/时间。请注意,将类型设置为Set不会自动将值更改为string。 有序集合用于描述具有多个具有内在顺序的不同值的数据。例如,可以将薪资类别或满意度排名键入有序集。有序集的顺序由其元素的自然排序顺序定义。例如,1、3、5是一组整数的默认排序顺序,而HIGH、LOW、NORMAL(按字母顺序升序)是一组字符串的顺序。有序集类型使您能够将一组分类数据定义为序数数据,以便进行可视化、模型构建(C5.0,C&R树,两步),并导出到其他将序数数据识别为不同类型的应用程序(如SPSS)。可以在任何可以使用集合字段的地方使用有序集合字段。此外,任何存储类型(实数、整数、字符串、日期、时间等)的字段都可以定义为有序集。 无类型用于不符合上述任何类型的数据,或用于成员过多的集合类型。对于类型为包含多个成员(如帐号)的集合的情况,它很有用。为字段选择“无类型”时,角色将自动设置为“无”。集合的默认最大大小为250个唯一值。此数字可以在“流属性”对话框中调整或禁用。

2

值 双击任意字段名以指定Clementine中数据的值和字段标签。例如,可以在类型节点中查看或修改从SPSS导入的字段元数据。同样,可以为字段及其值创建新标签。根据在“流属性”对话框中所做的选择,在“类型”节点中指定的标签将显示在整个Clementine中。 方向用于告诉建模节点字段是机器学习过程的输入(预测字段)还是输出(预测字段)。除了Partition之外,Both和None也都是可用的方向,Partition表示一个字段,用于将记录划分为单独的样本以进行培训、测试和验证。有关详细信息,请参见设置字段方向。 缺失用于指定哪些值将被视为空白。 检查在“检查”列中,可以设置选项以确保字段值符合指定的范围。 实例化选项使用“值”列,可以指定从数据集中读取数据值的选项,或使用“指定”选项打开另一个用于设置值的对话框。也可以选择传递字段而不读取其值。 “工具”菜单按钮忽略唯一字段。忽略唯一字段将自动忽略只有一个值的字段。忽略大型集。忽略大型集将自动忽略具有大量成员的集。生成过滤器。可以生成一个筛选节点以丢弃选定字段。 “太阳镜”切换按钮您可以将所有字段的默认值设置为读取或通过。默认情况下,源节点中的“类型”选项卡传递字段,而默认情况下,类型节点本身读取值。 “清除值”按钮可以清除对此节点中字段值所做的更改(非继承值),并从上游操作中重新读取值。此选项可用于重置对上游特定字段所做的更改。可以重置读取到节点中的所有字段的值。此选项有效地将所有字段的值列设置为读取。此选项可用于重置所有字段的值,并从上游操作中重新读取值和类型。  使用“查看未使用的字段设置”选项可以查看数据中不再存在或连接到此类型节点的字段的类型设置。这在为已更改的数据集重用类型节点时非常有用。END

推荐信息