一步一步跟我学习lucene（1）---lucene的IndexWriter对象创建和索引策略的选择

吴英贵

浏览: 7410 次
性别:
来自: 北京

最近访客更多访客>>

bronya

fengx1122

liqi_q

叶枫Owen

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (18)

社区版块

存档分类

应工作的需要（数据量大造成原有系统查询效率低），最近做了搜索引擎相关的内容，之前培训的时候对lucene即有接触，当时做的是3.x版本的，本人比较激进，毫不犹豫的选择了lucene5版本（15年刚发布的，O(∩_∩)O哈哈~）。

lucene是一个开放源代码的全文搜索引擎开发工具包，提供了简单强大的搜索引擎接口，其优点如下：

数据以索引文件的形式存储，索引文件可以跨平台，只要保证索引完整，复制到任何机器或者磁盘空间均可以查询索引内容；
在传统全文检索引擎的倒排索引的基础上，实现了分块索引，能够针对新的文件建立小文件索引，提升索引速度。然后通过与原有索引的合并，达到优化的目的；
索引的构建和查询都十分简洁，有强大的类库实现相关功能；
开发源代码，论坛和资源十分丰富。

索引的构建过程描述如下：

1）判断JRE版本是否为64位和是否支持堆外内存，并创建

1.1 如果满足条件，创建MMapDirectory，此种Directory可以有效的利用虚拟机内存地址空间；

1.2 如果不满足以上条件，判断系统是否是windows,如果满足条件，创建SimpleFSDirectory，此种directory提供了性能不太高的多线程支持，lucene推荐使用NIOFSDirectory或者MMapDirectory来替代之；

1.3如果以上均不满足，创建NIOFSDirectory对象，此种directory的英文说明为

An FSDirectory implementation that uses java.nio's FileChannel's positional read, which allows multiple threads to read from the same file without synchronizing

大意是一个利用了java nio中FileChannel的FSDirectory实现，允许无syschronized的对同一文件进行多线程读

2）词库分析器Analyzer创建（需要注意的是使用哪种Analyzer进行索引查询，创建的时候也要使用对应的索引器，否则查询结果有问题）

3）IndexWriterConfig对象创建,并获取IndexWriter对象

3.1 判断是覆盖索引还是追加索引，如果是覆盖索引indexWriterConfig.setOpenMode(IndexWriterConfig.OpenMode.CREATE);

3.2 如果追加indexWriterConfig.setOpenMode(IndexWriterConfig.OpenMode.CREATE_OR_APPEND);

4) 遍历根据要索引的对象列表，对单个对象的field进行lucene相关field构建，添加到Document对象中

5）IndexWriter对索引进行写入；

6）IndexWriter执行commit()和close()结束索引创建过程

以lucene5为例，索引器的创建如下：

 /**创建索引写入器
	 * @param indexPath
	 * @param create
	 * @return
	 * @throws IOException
	 */
	public static IndexWriter getIndexWriter(String indexPath,boolean create) throws IOException{
	    Directory dir = FSDirectory.open(Paths.get(indexPath, new String[0]));
	    Analyzer analyzer = new StandardAnalyzer();
	    IndexWriterConfig iwc = new IndexWriterConfig(analyzer);
	    if (create){
	        iwc.setOpenMode(IndexWriterConfig.OpenMode.CREATE);
	    }else {
	        iwc.setOpenMode(IndexWriterConfig.OpenMode.CREATE_OR_APPEND);
	    }
	    IndexWriter writer = new IndexWriter(dir, iwc);
	    return writer;
	}

此博文是对近期做lucene索引的总结，大家有问题的话联系本人的Q-Q: 891922381，同时本人新建Q-Q群：106570134（lucene,solr,netty,hadoop），如蒙加入，不胜感激，大家共同探讨,本人争取每日一博，希望大家关注呦

分享到：