在计算机学科,聚类是重要的研究方法,k-means是一种常用的聚类算法,可以用于各类领域数据挖掘,特别是大学生,研究生毕业论文。
方法/步骤
1
首先我们需要用一款软件,matlab,可以使用2010以上版本,本人用matlabR2014a演示这个方法过程。这个软件可以在网上免费获得,按照方法可以参考别人的经验。
3
然后可以用matlab自身的函数处理这个数据, IDX = kmeans(X,k),X是数据矩阵,k是指定的类数,我们暂时指定为3类,也就是说,我们会把2.txt里面的数据分为3类。使用下图的语句,我们就实现了把数据分为3类的目的。我们得到一个列向量IDX,这就是最后的类标号,第一个数字2代表了第一个样本属于第二类,以此类推,我们得到了,一系列样本的归属序列。这样就实现了对数据的聚类处理。如果要获得实际的应用意义,还需具体问题具体分析,聚类算法是我们从未知标签数据中获得信息的重要手段。
注意事项
1
首先matlab的版本要尽量高一些,否则无法使用聚类函数
2
k均值只是最为原始的聚类算法,缺陷还是比较明显的,如果想获取更多算法的使用方式,联系公众号,焦点评测