全文搜索技术—Lucene

xiaoxiao2021-02-28  15

前言: 生活中的数据总体分为两种:结构化数据和非结构化数据。

(1)结构化数据: 有固定长度或者类型的数据,例如:数据库中的数据, 元数据(就是操作系统中的数据,有大小有名称有类型);

查询方式: 1、顺序扫描法: 拿着需要搜索的关键字,然后逐行匹配内容,直到找到和关键字匹配的内容. 例如:windows中搜索文件的算法;sql语句中使用like; 优点: 只要内容中包含要搜索的关键字,就一定能找到需要的内容 缺点: 效率非常缓慢。 2、数值检索,可以建立一张排序好的索引表,以二分法实现查找,速度很快。

(2)非结构化数据: 没有固定长度和类型的数据, 例如: 邮件,word文档等磁盘上的文件。

查询方式: 1、顺序扫描法:拿着需要搜索的关键字,然后逐行匹配内容,直到找到和关键字匹配的内容. 2、全文检索算法(倒排索引算法): 首先将搜索的内容中的词抽取出来,组成索引(字典中的目录), 搜索时根据关键字先去查询索引,然后通过索引来查找文档(字典中的内容).

优点: 查询效率高,速度快 缺点: 全文检索算法是用空间来换取时间, 因为通过内容创建索引,索引是个单独的文件,所以又额外占用了磁盘空间, 但是这种算法查询效率高,节省时间

一、简介: Lucene是apache下的全文检索引擎工具包,工具包就是一堆jar包,不能独立运行,但是可以用它jar包中的API,创建像百度,谷歌这样的搜索引擎系统.

lucene和全文检索引擎系统区别: <

转载请注明原文地址: https://www.6miu.com/read-2250008.html

最新回复(0)