欢迎进入五大联赛官网
技术支持  -  投诉建议  -  增值服务  -  战略合作

联系斯点

咨询热线
咨询QQ:1643842241
企业邮箱:info@jssdky.com
公司地址:南京市栖霞区仙林街道东墅山庄2幢
24小时服务电话:13605154232

百度,谷歌靠这三个技术蜘蛛,索引查询展现独霸一方

点击数:29922016-12-26 14:34:21

搜索引擎蜘蛛

 搜索引擎的核心技术架构,大体包括以下三块:第一,是蜘蛛/爬虫技术;第二,是索引技术;第三是查询展现的技术;

1、 蜘蛛,也叫爬虫,是将互联网的信息,抓取并存储的一种技术实现。
       搜索引擎的信息收录,很多不明所以的人会有很多误解,以为是付费收录,或者有什么其他特殊的提交技巧,其实并不是,搜索引擎通过互联网一些公开知名的网站,抓取内容,并分析其中的链接,然后有选择的抓取链接里的内容,然后再分析其中的链接,以此类推,通过有限的入口,基于彼此链接,形成强大的信息抓取能力。
       第一,网站拥有者可以选择是否允许蜘蛛抓取,有一个robots.txt的文件是来控制这个的。
       第二,最早抓取是基于网站彼此的链接为入口,但实际上,并不能肯定的说,有可能存在其他抓取入口,比如说,
客户端插件或浏览器, 免费网站统计系统的嵌入式代码。会不会成为蜘蛛抓取的入口,我只能说,有这个可能。所以我跟很多创业者说,中国做网站,放百度统计,海外做网站,放google analytics,是否会增加搜索引擎对你网站的收录?我只能说猜测,有这个可能。
       第三,无法被抓取的信息
       有些网站的内容链接,用一些javascript特殊效果完成,比如浮动的菜单等等,这种连接,有可能搜索引擎的蜘蛛程序不识别,当然,我只是说有可能,现在搜索引擎比以前聪明,十多年前很多特效链接是不识别的,现在会好一些。需要登录,需要注册才能访问的页面,蜘蛛是无法进入的,也就是无法收录。
2、索引系统
       蜘蛛抓取的是网页的内容,那么要想让用户快速的通过关键词搜索到这个网页,就必须对网页做关键词的索引,从而提升查询效率,简单说就是,把网页的每个关键词提取出来,并针对这些关键词在网页中的出现频率,位置,特殊标记等诸多因素,给予不同的权值标定,然后,存储到索引库中。
3、查询展现
       用户在浏览器或者在手机客户端输入一个关键词,或者几个关键词,甚至一句话,这个在服务端,应答程序获取后处理步骤:
       第一步,会检查最近时间有没有人搜索过同样的关键词,如果存在这样的缓存,最快的处理是将这块缓存提供给你,这样查询效率最高,对后端负载压力最低。
       第二步,发现这个输入查询最近没有搜索,或者有其他条件的原因必须更新结果,那么会将这个用户输入的词,进行分词,没错,如果不止一个关键词,或者是一句话的情况下,应答程序会又一次分词,将搜索的查询拆成几个不同的关键词。
       第三步,将切分后的关键词分发到查询系统中,查询系统会去索引库查询,索引库是个庞大的分布式系统,先分析这个关键词属于哪一块哪一台服务器,索引是一种有序的数据组合,我们用可以用近似二分法的方式思考,不管数据规模多大,你用二分法去查找一个结果,查询频次是log2(N),这个就保证了海量数据下,查询一个关键词是非常快非常快的。 当然,实际情况会比二分法复杂很多,这样说比较容易理解而已,再复杂些不是我不告诉大家,是我自己都不是很清楚呢。
       第四步,不同关键词的查询结果(只是按权值排序的部分顶部结果,绝对不是全部结果),基于权值倒序,会再汇总在一起,然后把共同命中的部分反馈回来,并做最后的权值排序。

【责任编辑:(Top) 返回页面顶端
走进斯点
关于斯点
企业文化
企业远景
全网营销
营销测评
新闻媒体
问答营销
文库营销
品牌百科
自媒体营销
产品营销
整站建设
品牌型网站
优化型网站
营销型网站
高端定制型
整站优化
软件定制
微信定制开发
app定制开发
案例说话
五大联赛直播
解决方案
媒体报道
五大联赛平台
斯点新闻
联系我们


微信公众帐号|关注斯点科技