python实现K-means算法

k-means 算法接受参数 k ；然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。通过随机选取几个聚类中心，并计算所有点到中心的距离，选取最近的一类，在以这个簇为中心，求簇中点的均值形成新的类。

工具/原料

python

方法/步骤

第一步计算欧氏距离并取样，k代表分类的总个数import numpy as np#calculate the O distancedef calculate_distance(vector1,vector2): import numpy as np return np.sqrt(np.sum(np.square(vector1-vector2)))#initialize centroidsdef initialize_centroids(data,k): import random return random.sample(data,k)

产生新的簇类并求出最短距离#find the minimun diastance from individual to centroidsdef minimun_distance(data,centroidlist): clusterdictionary=cd=dict() for i in data: vector1=i marker=0 min_dist=float(inf) for j in range(len(centroidlist)): vector2=centroidlist[j] distance=calculate_distance(vector1,vector2) if distance

导入数据并计算，当簇中心变化小于一定阈值跳出循环#get mean squared deviationdef getmsd(clusterdictionary,centroidlist): sum=0.0 for key in clusterdictionary.keys(): vector1=centroidlist[key] distance=0.0 for i in clusterdictionary[key]: vector2=i distance+=calculate_distance(vector1,vector2) sum+=distance return sum#show resultdef showresult(clusterdictionary,centroidlist): import matplotlib.pyplot as plt colormark=['or','ob','og','ok'] centroidmark=['dr','db','dg','dk'] for key in clusterdictionary.keys(): plt.plot(centroidlist[key][0],centroidlist[key][1],centroidmark[key],markersize=12) for i in clusterdictionary[key]: plt.plot(i[0],i[1],colormark[key]) plt.showpath='C:\\Users\\jyjh\\Desktop\\data.txt'data=open(path,'r').readlines()temp=list()import refor i in data: numlist=list() for j in i.strip().split('\t'): num=float(j) numlist.append(num) temp.append(numlist)data=np.array(temp)centroidlist=initialize_centroids(data,4)clusterdictionary=minimun_distance(data,centroidlist)new_msd=getmsd(clusterdictionary,centroidlist)old_msd=-0.000001k=2while(abs(new_msd-old_msd)>=0.00001): centroidlist=getcentroids(clusterdictionary) clusterdictionary=minimun_distance(data,centroidlist) old_msd=new_msd new_msd=getmsd(clusterdictionary,centroidlist) k+=1 print new_msd-old_msdshowresult(clusterdictionary,centroidlist)

注意事项

对Kmeans了解

matlab有kmeans函数

上一篇：网络机顶盒连接电视调试步骤

下一篇：爬虫全教程：仔细 node.js 爬虫全过程！（二）

欧尼酱

python实现K-means算法

如何用python写爬虫

python爬虫怎么写

Python写网络爬虫-Urllib库

python爬取三种方法

python爬虫socket.timeout的使用

怎么用python爬数据

用python爬取商品页面信息

Python爬虫：如何爬虫实现以及2大解析方法

Python爬虫--BeautifulSoup（2）

python爬虫--爬取网页数据的一般步骤

python turtle教程6

python3爬虫怎样构建请求头，怎样构建header

如何使用python语言中pandas模块randn和randint

如何使用python语言pandas模块pivot_table方法

Python爬虫动态ip代理防止被封的方法

如何使用python语言中的pandas的cumsum创建数据

如何用python3爬取招聘网站

python3使用urllib爬去ajax加载的页面实例

python如何爬取网页里的伪元素

python爬虫之BeautifulSoup初始运行时警告

逆天纪救世正式版1.0.0攻略开局怎么玩做任务

全球最佳旅游月历攻略

葡萄种植技术,葡萄种植方法

秋天的时候这几个地方美如画，一定不会让你失望

堕落大陆1.0.7正式版开局怎么任务怎么装备攻略

诸暨韩语培训——告诉你韩国气候、美食、租房

全球气候变暖的危害

魔兽一分钟攻略：[1]傲斗凌天2.21攻略

劫尽1.05攻略

世界十大环境污染都有什么?世界十大环境污染都有哪些

大气污染分别有哪些？

阳澄湖旅游吃蟹攻略

全球气候变暖大学生如何应对

螃蟹在秋季的食用注意事项

魔域曙光1.0攻略

全球气候变暖会造成哪些后果

气候对中国社会的影响

气温统计图怎么画

如何制作全球天气可视化预测动态gif图片？

初中生怎样学习地理