ZKX's LAB

搜索引擎检索机制分为哪3种? 搜索引擎按照检索机机制

2020-12-19知识9

搜索引擎按组织信息的方式可分为哪四种 您好,问题涉及搜索引擎本身机制,目知前只能通过搜索信息为您解答:搜索引擎一般由搜索器、索引器、检索器和用户接口四道个部分组成。搜索引擎的工作原理包括如下三个过程:首先在互联中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由版检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对权将要输出的结果进行排序,并将查询结果返回给用户。

搜索引擎检索机制分为哪3种? 搜索引擎按照检索机机制

搜索引擎的基本构成 搜索引擎由搜2113索器、索引器、检索器和用户5261接口四部分构成4102。1、搜索器,是一个1653机器人程序自动地在互联网中搜集和发现信息,对Web进行遍历并下载到本地文档库。由于Web信息的大容量、分布性和动态性,搜索器主要有两个方面的工作重点:第一是采用较好的搜索策略;第二是设计高性能系统结构以支持每秒下载大量网页,同时确保系统具有较好的稳定性,能够应付各种服务器的突发事故等。2、索引器,其功能是理解搜索器所搜索到的信息,从中抽取出索引项,将文档表示为一种便于检索的方式并存储在索引数据库中,生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、更新时间、长度等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项又可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。3、检索器,其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息。检索器采用。

搜索引擎检索机制分为哪3种? 搜索引擎按照检索机机制

搜索引擎检索机制分为哪3种? 搜索引擎分类搜索引擎按e5a48de588b662616964757a686964616f31333264663731其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。全文搜索引擎全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。目录索引目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅。

搜索引擎检索机制分为哪3种? 搜索引擎按照检索机机制

数据库的数据检索和 搜索引擎的信息检索的不同点是什么?需要解决的核心问题和核心技术有何不同? 信息检索不等于搜索引擎。互联网的发展明显地促进了信息检索技术的发展和应用,一大批搜索引擎产品诞生,为网民提供了很好的快速信息获取和网络信息导航工具,但是将信息检索等同于使用搜索引擎就陷入了误区。搜索引擎技术中也普遍采用了全文信息检索技术,但互联网信息搜索和企业信息搜索是不同的。一是数据量。传统信息检索系统一般索引库规模多在GB级,但互联网网页搜索需要处理几千万上亿的网页,搜索引擎的基本策略都是采用检索服务器群集,对大多数企业应用是不合适和不必要的,并不适用于企业应用。二是内容相关性。信息太多,查准和排序就特别重要,Google等搜索引擎发展了网页链接分析技术,根据互联网上网页被连接次数作为重要性评判的依据。但企业网站内部的网页链接由网站内容采编发布系统决定,其链接次数存在偶然因素,不能作为判别重要性的依据。真正的企业应用的检索要求基于内容的相关性排序,就是说,和检索要求最相关的信息排在检索结果的前面,链接分析技术此种排序基本不起作用。三是实时性。搜索引擎的索引生成和检索服务是分开的,周期性更新和同步数据,大的搜索引擎的更新周期需要以周乃至月度量;而企业信息检索需要实时反映内外信息变化。

随机阅读

qrcode
访问手机版