Nutch-1.1
IK中文分词(也可以用Paoding或者Imdict)
Linux环境或(Cygwin)
到Nutch.apache.org下载最新版本的Nutch
到code.google.com/p/ik-analyzer/下载IK分词器
修改部分Nutch源代码,以使其适应中文搜索。(其实Nutch自带有语言检测机制,不过不太靠谱,一般都是强制采用中文分词)中文分词是以插件形式加载的。
实现一个继承了NutchAnalyzer类的中文分词类,覆盖其中的tokenStream方法。 保存在src/plugin/analyze-zh上(名字自己定),并填写plugin.xml文件。
修改NutchAnalysis的parse方法,代码大致如下: Query query = new Query(conf); StringReader input = new StringReader(queryString); org.apache.lucene.analysis.Tokenizer tokenizer = new org.wltea.analyzer.lucene.IKTokenizer(input,true); terator
...
添加searcher.dir属性到nutch-site.xml中,指定索引文件所在目录。