请百度的是如何进行数据搜索的?

发布网友发布时间：2022-04-24 03:20

共3个回答

懂视网时间：2022-04-30 03:09

　　有的时候，我们需要查询各个行业的数据，却苦于没有找不着各种数据库网站。在百度等搜索引擎里泛泛地搜索，会得到大量的结果，动辄数以百万计的结果里，夹杂着庞大的无关网站，难以筛选。下面就以百度为例，讲一些有效的查找数据库网站的方法。

　　很多人都习惯用简单的关键词进行搜索，比如说，用“数据库”进行搜索寻找各种行业数据库，这样肯定不行的，得到的结果太宽泛，绝大部分很可能都是一些关于数据库软件和设计等方面的东西，难以筛选。为了提高效率，需要进行精确搜索，不能用单个关键词进行搜索，我们需要用组合关键词进行搜索，如“行业数据库”，行业只是泛指，大家进行实际搜索的时候，可以用具体的行业词代替，如“化妆品数据库”。这样可以大大提高精确搜索范围。

　　有些数据库性质的资料和网站，命名的时候，不一定就用数据库命名，可能会用到名录、资料库、信息库、统计库等词进行命名，因而，我们可以尝试用这些词加上行业词，进行组合关键词搜索，也不失为一种精确搜索的好办法。

　　从网址特性下手

　　我们知道，数据库的英文单词是database，不少数据库的运营方，出于营销便利，为了让人能快速记住自己的网站，也为了能让人从网址里就知道自己是从事数据库经营的，往往会把database融进网站的网址里。因而，我们只需要先搜索到那些网址里含有“database”的网站，然后在搜索结果里筛选即可。要搜索网址里带有database的网站，需要用到搜索引擎高级技巧（搜索引擎高级搜索技巧不是本文的重点，大家自己去了解即可），在搜索框里用到的搜索表达式是“inurl: database”，如下图所示。需要注意的是，表达式里的冒号是半角符号，也就是英文输入状态下的冒号，冒号后面一般要加个空格。

　　从英文用语和数据库开发的文件命名上分析，有的人习惯把database简缩成data，因而，一些数据库网站的网址里可能只含有data，而不是database。所以，我们用“inurl: data”这样的搜索表达式进行搜索，也能找到不少数据库网站，。

　　此外，还有人习惯把database简缩成db，因而，我们可以用“inurl: db”这样的搜索表达式进行搜索，

　　以上三种方法，行业范围比较宽泛，如果要找专业行业数据库，那可以在上述三种搜索表达式再加行业词，得到形如下图所示的新表达式，这样就可以精确搜索具体行业数据库了。注意搜索表达式里词与词之间的空格。

　　注意事项

　　本文介绍的方法比较适用于宽泛搜索目标网站，如果要得到很精确的搜索结果，大家还是要使用搜索引擎的高级搜索功能。本文的方法不仅适用于百度，也适用于其他搜索引擎。本文是由上海复大医院http://www.02155522255.com/小编整理发布，希望对你有所帮助！

百度等搜索引擎寻找各种数据库网站的方法

标签：

热心网友时间：2022-04-30 00:17

真正意义上的搜索引擎，通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后，这些结果将按照与搜索关键词的相关度高低，依次排列。现在的搜索引擎已普遍使用超链分析技术，除了分析索引网页本身的内容，还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以，有时候，即使某个网页A中并没有某个词比如“恶魔撒旦”，但如果有别的网页B用链接“恶魔撒旦”指向这个网页A，那么用户搜索“恶魔撒旦”时也能找到网页A。而且，如果有越多网页（C、D、E、F……）用名为“恶魔撒旦”的链接指向这个网页A，或者给出这个链接的源网页（B、C、D、E、F……）越优秀，那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关，排序也会越靠前。搜索引擎的原理，可以看做三步：从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。建立索引数据库由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。在索引数据库中搜索排序当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。搜索引擎的Spider一般要定期重新访问所有网页（各搜索引擎的周期不同，可能是几天、几周或几月，也可能对不同重要性的网页有不同的更新频率），更新网页索引数据库，以反映出网页内容的更新情况，增加新的网页信息，去除死链接，并根据网页内容和链接关系的变化重新排序。这样，网页的具体内容和变化情况就会反映到用户查询的结果中。互联网虽然只有一个，但各搜索引擎的能力和偏好不同，所以抓取的网页各不相同，排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引，数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库，也只能占到互联网上普通网页的不到30%，不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因，就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容，是搜索引擎无法抓取索引的，也是我们无法用搜索引擎搜索到的。你心里应该有这个概念：搜索引擎只能搜到它网页索引数据库里储存的内容。

热心网友时间：2022-04-30 01:35

真正意义上的搜索引擎，通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后，这些结果将按照与搜索关键词的相关度高低，依次排列。
现在的搜索引擎已普遍使用超链分析技术，除了分析索引网页本身的内容，还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以，有时候，即使某个网页A中并没有某个词比如“恶魔撒旦”，但如果有别的网页B用链接“恶魔撒旦”指向这个网页A，那么用户搜索“恶魔撒旦”时也能找到网页A。而且，如果有越多网页（C、D、E、F……）用名为“恶魔撒旦”的链接指向这个网页A，或者给出这个链接的源网页（B、C、D、E、F……）越优秀，那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关，排序也会越靠前。
搜索引擎的原理，可以看做三步：从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。
建立索引数据库
由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。
在索引数据库中搜索排序
当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。
最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页（各搜索引擎的周期不同，可能是几天、几周或几月，也可能对不同重要性的网页有不同的更新频率），更新网页索引数据库，以反映出网页内容的更新情况，增加新的网页信息，去除死链接，并根据网页内容和链接关系的变化重新排序。这样，网页的具体内容和变化情况就会反映到用户查询的结果中。
互联网虽然只有一个，但各搜索引擎的能力和偏好不同，所以抓取的网页各不相同，排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引，数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库，也只能占到互联网上普通网页的不到30%，不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因，就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容，是搜索引擎无法抓取索引的，也是我们无法用搜索引擎搜索到的。