怎样利用Nutch搭建自己的搜索引擎和爬虫

Nutch是Java平台上运用得较为广泛的爬虫工具，开发社区也相当活跃，版本更新很快。可以利用Nutch配置中文分词工具，搭建一个简单的抓取和搜索服务。

工具/原料

Nutch-1.1

IK中文分词（也可以用Paoding或者Imdict）

Linux环境或（Cygwin）

步骤/方法

到Nutch.apache.org下载最新版本的Nutch

到code.google.com/p/ik-analyzer/下载IK分词器

修改部分Nutch源代码，以使其适应中文搜索。（其实Nutch自带有语言检测机制，不过不太靠谱，一般都是强制采用中文分词）中文分词是以插件形式加载的。

实现一个继承了NutchAnalyzer类的中文分词类，覆盖其中的tokenStream方法。保存在src/plugin/analyze-zh上（名字自己定），并填写plugin.xml文件。

修改NutchAnalysis的parse方法，代码大致如下： Query query = new Query(conf); StringReader input = new StringReader(queryString); org.apache.lucene.analysis.Tokenizer tokenizer = new org.wltea.analyzer.lucene.IKTokenizer(input,true); terator its = tokenizer.getAttributeImplsIterator(); while(tokenizer.incrementToken()) { TermAttribute t = tokenizer.getAttribute(TermAttribute.class); String[] array = { t.term() }; //OffsetAttribute oa = tokenizer.getAttribute(OffsetAttribute.class); query.addRequiredPhrase(array); } return query;

...

注意事项

添加searcher.dir属性到nutch-site.xml中，指定索引文件所在目录。

上一篇：python开源爬虫框架pyspider怎么在windows安装

下一篇：网站robots.txt怎么写,robots.txt写法大全解析

欧尼酱

怎样利用Nutch搭建自己的搜索引擎和爬虫

出轨有哪些明显的表现？怎样发觉女人是否出轨？

妈妈应该怎样面对宝宝的第一个反抗期

AI没有图片嵌入功能怎么办？图片怎样嵌入到AI？

怎样折一只挺拔的千纸鹤？

怎样才可以叠一个漂亮的千纸鹤呢

教你怎样折逼真可爱的千纸鹤~~

怎样折一只美美哒千纸鹤

千纸鹤怎样叠简单

怎样折叠出漂亮的千纸鹤

怎样拍好个性写真？

怎样炒菜更香

怎样炒菜更健康

炒菜时该怎样合理的使用葱姜蒜椒

怎样炒菜能防止癌症

怎样淹制腊八蒜

怎样用酱油腌蒜

怎样利用Nutch搭建自己的搜索引擎和爬虫

爬取数据时怎样实现快速换IP？

《翻转魔术师》小游戏玩法介绍

Samsung Galaxy C5 SM-C5000(6.0.1)如何通过WLAN直连连接其他设备?

jQuery翻页式电子时钟插件的应用方法

《怪物翻转》：可爱消除游戏

三星为什么没有骁龙870

疯狂贪吃蛇（python版）

Altium Designer 09如何翻转PCB布线图

邦邦的som系统有哪些功能

java8新特性NIO缓冲区（Buffer）的数据存储

OPPO Find X3如何开启/关闭乐划锁屏

simulink怎么旋转

三星zflip怎么放两张卡

用Matlab怎么画面域图直方图饼图

Matlab中图像的平移和翻转

哪款蓝牙耳机的续航比较好？

3D模仿样式旋转

php中如何使用 array_flip 函数？

python如何画贪吃蛇

OPPO Find X3游戏小贴士功能如何开启使用？

抛弃键盘让Win7 Flip 3D特效点击实现