ZKX's LAB

文本检索和搜索引擎 信息检索与搜索引擎关系

2020-08-11知识8

数据库的数据检索和 搜索引擎的信息检索的不同点是什么?需要解决的核心问题和核心技术有何不同? 信息检索不等于搜索引擎。互联网的发展明显地促进了信息检索技术的发展和应用,一大批搜索引擎产品诞生,为网民提供了很好的快速信息获取和网络信息导航工具,但是将信息检索等同于使用搜索引擎就陷入了误区。搜索引擎技术中也普遍采用了全文信息检索技术,但互联网信息搜索和企业信息搜索是不同的。一是数据量。传统信息检索系统一般索引库规模多在GB级,但互联网网页搜索需要处理几千万上亿的网页,搜索引擎的基本策略都是采用检索服务器群集,对大多数企业应用是不合适和不必要的,并不适用于企业应用。二是内容相关性。信息太多,查准和排序就特别重要,Google等搜索引擎发展了网页链接分析技术,根据互联网上网页被连接次数作为重要性评判的依据。但企业网站内部的网页链接由网站内容采编发布系统决定,其链接次数存在偶然因素,不能作为判别重要性的依据。真正的企业应用的检索要求基于内容的相关性排序,就是说,和检索要求最相关的信息排在检索结果的前面,链接分析技术此种排序基本不起作用。三是实时性。搜索引擎的索引生成和检索服务是分开的,周期性更新和同步数据,大的搜索引擎的更新周期需要以周乃至月度量;而企业信息检索需要实时反映内外信息变化。搜索引擎通常具备哪些基本的检索功能 共1 现有的搜索引擎基本上分为三类: 1.1 single search engine(独立搜索引擎)它的特点是仅在搜索引擎自身的数据库检索信息,比如Yahoo。1.2 Meta search engine(元。信息检索与搜索引擎关系 搜索引擎是指互联2113网上专门5261提供检索服务的一类网4102站,这些站点的服务器1653通过网络搜索软件(例如网络搜索机器人)或网络登录等方式,将Intemet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索作出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索。索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

随机阅读

qrcode
访问手机版