数据挖掘分析处理工具、开源数据挖掘工具
dedup是一个Python库,使用机器学习快速的对结构化数据进行重复数据删除和实体解析。数据科学家发现他们经常需要使用SELECT DISTINCT * FROM my_messy_dataset;不幸的是,现实世界中的数据集往往更加复杂。无论你是去对多个数据源进行汇总,还是简单的数据收集,开始你都需要对重复数据的删除做一个有意义的分析。如你所想,有取之不尽的方法可以用来合并数据和用之不竭的规则来定义你数据的等价意义。有相同地址的两家餐么?名和姓都相同的两条记录就是同一个人么?你很幸运,dedup可以让你转危为安!基于创新的计算机科学研究,dedup使用机器学习(更确切地说,应该是主动学习)去学习,通过合并人类的反馈对两个可能的模棱两可的记录进行研究,并寻找究竟是什么构成了两者的“相似”。更方便的是,它有一个图形用户界面(GUI),任何人都可以使用它。
Theano是一个Python库,你可以有效地定义、优化以及评估包含多维数组的数学表达式。Theano的特点:· 和Numpy紧密结合——在Theano编译的函数中使用numpy.ndaaray。· GPU的透明使用——在执行密集型数据计算时,相比于CPU,速度提升了140倍。(使用float32进行测试)· 速度和稳定性优化——对log(1+x)得到正确的答案,即使x真的很小。
在python网络和图形分析库与日俱增的情况下,图形工具给了不少希望。尽管像NetworkX和Gephi这样的工具在不断成长的工具中仍然还有它们的一席之地,但是对于那些想要做大图像高级分析的人来说——无论是社会网络、道路网络、还是生物网络——这两者往往会显得力不从心。NetworkX一直是用于网络分析的最流行的Python工具,因为它有着丰富的API并且使用的门槛很低,但是一旦你开始处理更大的图形,纯python实现的弊端才真正开始凸显。而Gephi是一个极好的交互式可视化和开发新图像的图形化工具,但是有一个麻烦的脚本接口,使得它很难使用编程方式去控制。图形工具尝试从它前辈中吸取经验教训并给数据科学家最好的结果。它使用C++实现(可并行执行)并用Python来武装,绑定了一个易于使用的API,同时获得了超快的速度,而且不影响使用性。
WEKA原生的非Java版本主要是为了分析农业领域数据而开发的。该工具基于Java版本,是非常复杂的,并且应用在许多不同的应用中,包括数据分析以及预测建模的可视化和算法。与 RapidMiner 相比优势在于,它在 GNU 通用公共许可证下是免费的,因为用户可以按照自己的喜好选择自定义。WEKA 支持多种标准数据挖掘任务,包括数据预处理、收集、分类、回归分析、可视化和特征选取。添加序列建模后,WEKA 将会变得更强大,但目前不包括在内。
该工具是用Java语言编写的,通过基于模板的框架提供先进的分析技术。该款工具最大的好处就是,用户无需写任何代码。它是作为一个服务提供,而不是一款本地软件。值得一提的是,该工具在数据挖掘工具榜上位列榜首。另外,除了数据挖掘,RapidMiner 还提供如数据预处理和可视化、预测分析和统计建模、评估和部署等功能。更厉害的是它还提供来自WEKA(一种智能分析环境)和R脚本的学习方案、模型和算法。RapidMiner分布在AGPL开源许可下,可以从 SourceForge上下载。SourceForge是一个开发者进行开发管理的集中式场所,大量开源项目在此落户,其中就包括维基百科使用的 MediaWiki。
Python之所以受欢迎,是因为它简单易学并且功能强大。如果你是一个Python开发者,当涉及到需要找一个工作用的工具时,那么没有比Orange更合适的了。它是一个基于Python语言,功能强大的开源工具,并且对初学者和专家级的大神均适用。此外,你肯定会爱上这个工具的可视化编程和 Python 脚本。它不仅有机器学习的组件,还附加有生物信息和文本挖掘,可以说是充满了数据分析的各种功能。