些刚接触Lucene说使用关键:Apache Lucene由java编写高性能全位单词搜索引擎库批评前我必须承认Lucene高性能划词搜索引擎几Lucene已经看作用java编写嵌入式搜索引擎等公民声誉每剧增并且仍源java搜索引擎佳每都说:Doug Cutting做项伟工作近几月内发进程变缓慢我认Lucene满足现代文档处理需求要东西搞糟:我搜索引擎发者我发者使用搜索引擎提供合适信息检索科技贴讨论未发者言Lucene选择至少我言并且情况并没改变我列Lucene局限性:Lingway公司基于语意复杂查询例查找关于东区冲突文章许需要找关于伊拉克战争文章面用例战争伊拉克别冲突东扩展我使用种技术能析查询产相应合适扩展查询相关结些够:通Lucene实现类似Google等级或经变化积并能满足语意级别积例包含东短语超单词隔种情况并我想要查找更重要相规单词我应该给扩展更低数比我应该给东区冲突短语更高数伊拉克战争Lingway公司我认种文章相关性技术种未搜索引擎Google文章搜索做色我想要却相关文章部代搜索引擎都没复杂查询做相关设计…Lucenewikipedia使用注意查询查单词数查询结并由关联…演示需求Lingway公司即线KM3.7产品界面截图我用语写查询用查找些同主题用英语写文章注意仅仅简简单单翻译我称语言交叉模式:注意些绿色匹配:chanteur变singer,我发现singing匹配同情况流行乐蓝调扩展6理由选用Lucene6. 没集群内置支持创建集群写自Directory实现或使用Solr或者使用Nutch+HadoopSolrNutch都支持Lucene直接替代Lucene嵌入必须支持SolrNutch..我认HadoopLucene团队产并惊讶:Lucene并通用内性决定数场合说非快速型文档集合,排除Lucene内核级别并没实现集群必须Lucene转换别搜索引擎做并直接转换Solr或者Nutch问题让遇许必要麻烦:Nutch集crawlingSolr检索服务5.跨度查询太慢Lingway公司说能特殊问题我跨度查询强要求,Lucene检索结构已经始添加细节初没想基础实现导致复杂算并且运行缓慢尤其某些短语份文档重复许现我倾向说Lucene高性能划词检索引擎仅仅使用基本布尔查询4.积能插件化Lucene自积算实现,条件增加使用Similarity类快显示局限性想要表示复杂积,例基于实际匹配元数据查询做继承Lucene查询类Lucene使用类似tf/idf积算我遇场合语意积Lucene积机制并合适我迫重写每Lucene查询类使支持我自定义积问题3.Lucene并非良设计作系统架构师我倾向认(1)Lucene非糟糕OO设计虽包类设计几乎没任何设计模式让我想起由C(++)发者行并且坏习惯带java造需要自定义Lucene满足需求(必定遇需求)必须面问题例:几乎没使用接口查询类(例BooleanQuery,SpanQuery,TermQuery…)都抽象类类要添加其细节首先想写接口描述扩展契约抽象Query类并没实现接口必须经变化自查询象Query并本Lucene调用堆例(HitCollecor,…)使用AOP自代理说问题. 别扭迭代实现.没hasNext(),next()返布尔类型并刷新象内容.想要保持迭代元素跟踪说非痛苦.我假定故意用节省内存导致算杂乱复杂. 2.关闭API使继承Lucene痛苦Lucene世界,称特性某些用户需要某些细节针放类导致数类都包保护级别意味着能够继承(除非创建类似同包做污染客户代码)或者复制重写代码更重要同面点提严重缺乏OO设计结构些类应该设内部类却没匿名类用作复杂计算需要重写行关闭API理由让代码发布前变整洁并且稳定虽想光荣再让痛苦些代码Lucene主要思路并吻合经归Lucene改进自版本直补丁接受发者始越越限制API更改补丁少机接受些类加final修饰符让遇问题我认Spring框架限制觉流行起1. Lucene搜索算适合网格计算Lucene写候硬件没内存处理器存索引结构设计使用线性内存销式我花间重写跨度查询算并使用线程内容(使用双核处理器)基于迭代器目录读取算几乎能实现些罕见场合能做些优化并能迭代索引通并行式数场合能我遇情况我复杂超50+内嵌跨度查询CPU空闲I/O却直忙碌甚至使用RAMDirectory.没替代品我认观点充满疑问:Lucene达极限现硬件基础条件检索型数据集合我寻找替代Lucene现阅读博客目录 Wikia讨论我发现并没替代品我推荐希望案:MG4J良面向象设计性能良检索(索引比Lucene慢)内存销达10倍于Lucene速度跨度查询我跨度查询基准并且原支持集群同内置负载平衡Lucene近才加入项功能并且实验性质MG4J仍缺少些特性例简单索引指数文档移除更简单使用索引处理让我高兴我自定义Lucene功能MG4J需花几Lucene却需要数我认源搜索引擎说仍发展空间通单台电脑用限内存索引批量文档通透明布式索引提供型数据集合检索更快捷答案必利用应用获集群特性Lucene第类搜索引擎实现单我认并符合我需求:合理间内找佳答案基于tf/idf搜索算google等级并未搜索引擎趋势实现原数据语义复杂查询并找相关信息Lingway公司(通Lucene其搜索引擎技术)所作要求更支持新硬件新技术使用Lucene理由论我何指责Lucene,仍java源解决案佳实现
好好看看吧
别人的只能参考,建议多看看书