基于Python检索系统(1)总体介绍

xiaoxiao2021-02-28  124

为了实现将上海理工大学的新闻可以进行关键词、关键字的检索,设计了基于Python的检索系统。

系统主要分为四部分,爬虫、中文分词、建立倒排索引、检索接口。

1、爬虫

将上海理工大学的新闻中心(http://www.usst.edu.cn/s/1/t/517/p/2/i/411/list.htm)的标题或全文爬取下来,存入TXT文件。简单的应用正则表达式(re模块)和字符串的处理即可实现。

2、中文分词

应用Jieba分词工具,将爬取得到的新闻进行中文分词,也就是为了得到以后检索要用到的关键词。我们给每个关键词建立一个单独的索引,引入间接桶,应用倒排索引的方法实现最终的结果。

3、建立倒排索引

建立倒排索引的过程其实主要是做好数据结构的过程。如何存放每个关键词,间接桶使用哪种数据类型,最终的索引如何实现,都是建立好这个索引结构的关键。

4、检索接口

即用户界面设计,简单使用Tkinter库,设计一个检索接口,完成关键词,关键字的检索。

转载请注明原文地址: https://www.6miu.com/read-23553.html

最新回复(0)