Pylucene.

http://blog.csdn.net/kernelspirit/archive/2008/02/28/2127851.aspx

原创 PyLucene安装及使用收藏

新一篇: 用PyLucene实现本地文件名、目录名全文索引 | 旧一篇: 实战 Lucene,第 1 部分: 初识 Lucene

PyLucene安装及使用

PyLucene是Python对搜索引擎Lucene 的封装,可以通过Python方便的调用Lucene的API。Lucene是全文搜索的模块,可以很方便的嵌入到应用程序中。对于Python的应用程序可以通过PyLucene是程序具备全文搜索的能力。

安装

下载PyLucene

我们选择下载Windows版的PyLucene-2.1.0-2-gcj346-py25-win32.zip

下载后解压。

拷贝解压目录下Python目录中的文件到C:\Python25\Lib\site-packages下,即可完成安装。

例子

解压目录下有samples例子,可以直接运行IndexFiles.py文件建立索引:

python IndexFiles.py c:/

会在IndexFiles.py同目录下建立Index目录存放建立的索引,上面的命令会把C:盘所有的.txt文件内容进行索引,如果想索引其他类型的文件,修改源代码即可。

运行解压目录下的SearchFiles.py进行查询:

python SearchFiles.py

然后输入文件中的任意单词或汉字都可以查询得到。



http://www.unfish.net/archives/271-20080118.html
PyLucene安装使用简介
星期五, 一月 18. 2008

想给理财易的留言板添加个搜索功能,但是又不想用like这样的搜索语句,慢的要死,搞不好还会成为网站被攻击的漏洞,但是Mysql又不支持中文的全文检索,只支持英文。(似乎最新版的Mysql 6已经可以很方便的用插件方式添加中文全文检索了,而且似乎已经有人把这个插件做出来了。)以前记得海量是出过修改版的支持中文全文检索的Mysql的,于是跑去下载了看看,结果发现最新的版本好像也是2005年出的了,以后再也没有出过。想来想去,还是用Lucene这样的独立的全文检索方式吧。

PyLucene 以前就曾经下载测试过,但是一直没有实际的使用,今天再看,还是遇到不少问题。它的下载里面有源码也有二进制文件,源码的编译似乎非常的麻烦,一种方式是需要Java和Ant,另一种是需要Gcj,而且还需要自己修改Makefile文件,修改N多参数。二进制文件里面提供了许多个版本的下载,因为开发环境是Ubuntu的,所以就下载了Ubuntu 7.04对应的二进制文件,解压看了说明,简单的很,把Python的几个文件复制到Python的site-packages目录,把gcj的两个文件复制到/usr/local/lib目录,然后进入tests目录运行一下测试,成功了,相当简单。

然后就开始写生成索引和检索的代码了。这些代码跟Java的Lucene是完全一致的,因为PyLucene只是起一个包装的作用,最终还是调用的Lucene。具体的代码就不放在这里了。

代码写完了传到服务器上,结果不能执行,对了,服务器上还没有安装PyLucene呢。因为服务器是CentOS 4的,网站并没有提供对应的二进制文件下载,于是尝试使用源码编译,结果把两个版本的源码都下载下来了,一看Readme就晕了,有必要搞这么复杂吗?对应CentOS有个链接,过去看了下是提供了个source rpm文件,下载安装后进去却发现是两个压缩文件,分别是Java Lucene的和PyLucene的,但是却没有提供安装说明,看了半天还是摸不着门道。最后还是决定使用Ubuntu的这个,毕业都是针对gcj的,而且服务器上已经安装了gcj了,相关的库应该都不缺。

复制了对应的文件以后运行测试代码,结果却提示undefined symbol: PyUnicodeUCS4_FromUnicode这样一个错误。Google了一下发现不只是PyLucene的问题,似乎是编译Python的时候所使用的Unicode参数和该程序里面所调用的函数不一致。没办法,重新下载了Python 2.5.1的源码进行编译,加上了--enable-unicode=ucs4参数,再运行测试代码,OK,一切正常了。运行一下网站,功能也没有问题,对中文支持也非常好。

Powered by Jekyll and Theme by solid

本站总访问量