随着搜索引擎不断的升级,判断垃圾网站的方法也越来越多样化,但许多意图操作的人还是会想出其他方法,想要躲避搜索引擎的侦测,我们来看看常见的例子与其破绽。有些人会认为,既然linkfarm(链接农场)有以下链接特性,因此就会思考做出不一样的链接状态。例如刻意在许多页面,链接到无辜的第三方网站或是政府网站。其实这样的做法还是没有办法躲避侦测,因为链接农场可以自己操作外部的链接,但是没有办法“自然的”操作链进来的链接。顶多可以购买少数的高权重的网站来抬高身价,但是要达成多样性且高质量的话,所花的代价根本不敷成本。并且故意链接到无辜的第三方网站,更容易因第三方网站的外部链接(如百度网站管理工具),而自曝身份。所以要把人为链接操作到自然并且有效,除非投入大量的人力与财力,否则是不可能有效的。就算短期有效果,随着搜索引擎的算法改善,更可能一夕完全失效。除了通过链接策略外,还可以通过内容与链接的相关性来了解链接农场。也就是链接最基本的规范=内容必须相关。如果在网页内容插入不相关的链接,并且没有NoFollow,如果不相关链接类型的数目越多,则就越可能是Linkfarm。网站是否为linkfarm(链接农场),其实只需要看整体链接状态,以及整体不相关非NoFollow的链接数目,就可以知道。但是相关性如何判断呢?一般被用来判断网页相关性的方法,有TF-IDF、EuclideanDistance、CosineSimilarity、JaccardCoef?cient、PearsonCorrelationCoef?cient等等。为了正确的了解这些算法是否可以自动判读文件相关性,小脑袋百度竞价助手列举了三个步骤来分析:第一步是由已经人为的分类目录中导出所有的资料,汇入MySQL中,以备后面程序使用。第二步是资料的预处理步骤,先进行网页资料抓取,然后取出我们需要的资料,分成英文与中文分别处理字词的分析,让抓取的资料还原到基本的单词。第三步就是把第二步处理过的资料,进行算法计算与比较。由此便可以知道各算法计算出的相关性数值,并且比较各种不同算法的精准度。结果发现所有的算法在所有的资料实验中,其精准度都达80%以上,并且某些算法其精准度还达90%以上。这种方式说明:使用最简单的方法、以最便宜的硬件,就可以快速轻易的知道网页间的相关性。所以百度等搜索引擎会不知道吗?当然会比我们更清楚。所以各种SEO的作弊行为,搜索引擎都迟早会要发现的,好好的进行真正的网站优化才是上上之策。
上一篇:R语言怎么做相关性分析
下一篇:excel方差分析结果解读