全文检索搜索引擎 java Java 实现搜索引擎

2020-07-20知识15

1、全文索引全文搜索引擎是名副其实的搜索引擎，国外代表有Google，国内则有着名的搜索。它们从互联网提取各个网站的信息（以网页文字为主），建立起数据库，并能检索与用户查询条件相匹配的记录，按一定的排列顺序返回结果。根据搜索结果来源的不同，全文搜索引擎可分为两类，一类拥有自己的检索程序（Indexer），俗称“蜘蛛”（Spider）程序或“机器人”（Robot）程序，能自建网页数据库，搜索结果直接从自身的数据库中调用，上面提到的Google和就属于此类；另一类则是租用其他搜索引擎的数据库，并按自定的格式排列搜索结果，如Lycos搜索引擎。2、目录索引目录索引虽然有搜索功能，但严格意义上不能称为真正的搜索引擎，只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息，不依靠关键词（Keywords）进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。3、元搜索引擎元搜索引擎（META Search Engine）接受用户查询请求后，同时在多个搜索引擎上搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面，有的。java搜索引擎下载安装lucence java版后，src/demo文件夹里就是个现成结合tomcat的实例，你如果看得懂英文，doc 文件夹里是对demo的解释，和一些基本类的调用方法也是英文的。全文检索。java 搜索引擎去看看Lucene吧，对爬取到的网页如何进行解析，这不是在这两句话就能说清楚的全文搜索引擎网址？在浩如烟海的Internet上，特别是其上的Web（World Wide Web万维网）上，不会搜索，就不会上网。网虫朋友们，你了解搜索引擎吗？它们是怎么工作的？你都使用哪些搜索引擎？今天我就和大家聊聊搜索引擎的话题。一、搜索引擎的分类获得网站网页资料，能够建立数据库并提供查询的系统，我们都可以把它叫做搜索引擎。按照工作原理的不同，可以把它们分为两个基本类别：全文搜索引擎（FullText Search Engine）和分类目录Directory）。全文搜索引擎的数据库是依靠一个叫“网络机器人（Spider）”或叫“网络蜘蛛（crawlers）”的软件，通过网络上的各种链接自动获取大量网页信息内容，并按以定的规则分析整理形成的。Google、都是比较典型的全文搜索引擎系统。分类目录则是通过人工的方式收集整理网站资料形成数据库的，比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外，在网上的一些导航站点，也可以归属为原始的分类目录，比如“网址之家”。全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行，所以数据库的容量非常庞大，但是，它的查询结果往往不够准确；分类目录依靠人工收集和整理网站，能够提供更为准确的查询结果，但收集的内容却非常有限。

#搜索引擎基本工作原理 #全文搜索引擎 #数据库 #lucene #国外搜索引擎

阅读全文

全文检索搜索引擎 java Java 实现 搜索引擎

随机阅读

全文检索搜索引擎 java Java 实现搜索引擎