如何搭一个搜索引擎：[1]xapian篇

随这几年互联网技术的发现，其实搜索引擎早已不像10年前那样高深莫测了，其实无非就是爬虫、倒排索引、检索结果归并、排序、query分析等操作。核心功能也有不少开源代码，理论上，对于索引量几百万以内的，需求不太复杂的，这些开源搜索引擎都可以轻松胜任，也不需要做太多修改。前不久花了点时间学习了一下xapian，并用它搭了一个搜索引擎，最近正好想在一台机器上实验一些东西，想重新搭个环境，折腾了一上午，虽然有些细节，但整体上还是比较轻松地把引擎搭了起来。

工具/原料

装有Linux系统的电脑一台

xapian开源软件包

方法/步骤

2. xapian简介及资料具体看官网的文档 http://xapian.org/docs/ 文档写得不错，可以认真研究一下。中文里面，这个系列也不错：http://blog.csdn.net/visualcatsharp/article/details/4176021 xapian主要包括：建索引(indexer)、检索(searcher)、排序(ranker)、引擎数据存储(database)等主要功能。注意：没有spider功能，这个也有很多开源的工具。没有自带分词功能，需要再找个开源分词软件，后面选择mmseg，整体感觉好一些。

3. 软件安装环境：centos6.2 64位安装如下几个软件：xapian核心包：xapian-core-1.2.12.tar.gzxapian应用包：xapian-omega-1.2.12.tar.gz开源分词软件：mmseg-3.2.14.gz 几个依赖包安装（如果还缺什么包的话再装）：yum install libuuid-develyum install pcre-develyum install automakeyum install libtool xapian安装比较简单，看系统INSTALL文件，几步搞定 mmseg安装，先把几个工具安装好后运行./bootstrap;再运行./configure和make make install什么的 xapian-omega安装也还行，继续看INSTALL文件搞定注意：不想安装到系统默认位置的话，可以通过 './configure --prefix=路径' 设定路径

4. 程序修改修改omega程序，增加分词功能，主要修改这几个文件：新增：seg.hseg.cc 分词函数封装，调用mmseg库修改：Makefile 改一些编译依赖omega.h 包含seg.h头文件omega.cc 在g = cgi_params.equal_range('P');下面直接对query_string加入分词功能scriptindex.cc 在建索引的工具里面加入分词功能；在case Action::INDEX下面加入分词功能query.cc 这个修改主要是美观些，在检索时，显示的原始查询串不会被分词（可以不改）改好后，重新make clean;make;make install一下，就基本万事俱备了

5. 索引数据网上抓一些网页，把title、url、content什么的提取出来，整成这种格式：url=XXXtitle=XXXcontent=XXX 两个doc之前空行隔开配置script脚本，有一个现成的可以改改，参考http://xapian.org/docs/omega/文档里面说明运行scriptindex程序，把索引建起来

6. 搭环境把httpd什么的环境搭一下，需要支持cgi-bin的（默认好像一般都支持） omega程序是最终的可执行cgi-bin程序，还有一些网页模板文件（template/）、分词配置和词典，以及scriptindex生成的索引数据文件，拷到cgi-bin目录下，细节的地方再改改，基本就可以运行起来了。注意cgi-bin下面程序的执行权限，http的访问好像是属于apache用户，这样omega依赖的libxapian.so.22动态库所有路径apache用户没有权限访问，最简单的办法是把libxapian.so.22拷到/lib64下面(如果原来就安装到系统目录下，那就不用拷了) 把一些配置什么的改改，基本上就可以了。

总结，当时实际看的时候，我把xapian的一些接口函数都认真看了一下，简单研究了一下索引结构和排序方法，xapian是有词的offset信息的，但在排序时用了bm25算法，没有把offset对排序的影响加进去，但这些信息都是可以在检索时取到的(有一些term posting什么的)，所以理论上可以对排序方法作更多扩展。不过这些用法偏高级了，如果不是专门从事搜索引擎相关的，基本也不会用到，基本的功能也就满足了80%的需求了。

上一篇：如何搭一个搜索引擎：[2]sphinx篇

下一篇：Ctrl+F 万能的搜索引擎

欧尼酱

如何搭一个搜索引擎：[1]xapian篇

王者荣耀中芈月技能解析以及如何连招？

如何才能使口红一天不掉色

两个学生在打架,作为老师的你该如何处理?

如何选购地板或瓷砖能省钱

如何挑选樱花橱柜

教你如何选择适合的家居装修方式

如何让宝宝爱上蔬菜？

如何做丰胸瘦身沙拉 自制美味丰胸瘦身沙拉

自由职业译员如何起草自己的简历

boss直聘上如何修改个人简历？

SketchUp如何设置自动开洞的门窗

PS如何合成苹果与门窗

在苹果系统下如何巧装多分区Windows

Windows 8如何为常用操作搭建快捷通道

iCloud网页版如何添加日历分类

如何在潮湿天气用好万能胶

如何用吹风机抽真空袋

家庭如何除湿

如何雕刻琥珀

如何做好中考前的心理辅导工作

怎样给照片加上文字边框

怎么给文字添加边框

怎么给照片加上文字边框

怎样给照片添加文字边框

word文档怎么给文字加边框

怎么制作初页——各种模板的使用（2）

怎样制作滚动文字框

word中如何添加文字边框

如何使用PS制作边框文字排版

怎样用PS给文字加上彩色边框？

如何使用PS制作矩形文字的边框

WPS如何添加文字边框线

如何在图片中给文字添加图框

word 文字边框效果

如何利用Word里的文本框将文字呈现好的效果？

DZ版块美化--文字美化方框

ps如何给文字加边框?

怎样用PS给文字加上彩色边框

图片上怎样添加文字方框或者箭头

简笔画唐僧轻松简单

如何做丰胸瘦身沙拉自制美味丰胸瘦身沙拉