网站地图 | RSS订阅 老铁博客 - 上海SEO优化|上海网站建设|蜘蛛池出租|站群代搭建
你的位置:首页 » 网站建设 » 正文

爬虫学习01 什么是爬虫 的分类

2019-8-7 7:30:45 | 作者:老铁SEO | 0个评论 | 人浏览

  网络爬虫(又被称为网页蜘蛛,网页机器人),模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序

  通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

  通用网络爬虫从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。

  取出待抓取URL,解析DNS得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列。

  分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环....

  但是搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容,如标注为nofollow的链接,或者是Robots协议。

  Robots协议(也叫爬虫协议、机器人协议等),全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,例如:

  搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。

  搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

  除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。

  但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。

  搜索引擎在对信息进行组织和处理后,为用户提供关键字检索服务,将用户检索相关的信息展示给用户。

  同时会根据页面的PageRank值(链接的访问量排名)来进行网站排名,这样Rank值高的网站在搜索结果中会排名较前,当然也可以直接使用 Money 购买搜索引擎网站排名,简单粗暴。

  通用搜索引擎所返回的结果都是网页,而大多情况下,网页里90%的内容对用户来说都是无用的。

  不同领域、不同背景的用户往往具有不同的检索目的和需求,搜索引擎无法提供针对具体某个用户的搜索结果。

  万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎对这些文件无能为力,不能很好地发现和获取。

  通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询,无法准确理解用户的具体需求。

  聚焦爬虫,是面向特定主题需求的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

  搜索引擎流程:抓取网页---数据存储---预处理---提供检索服务,网站排名

  Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取

  1.通用网络爬虫(GeneralPurposeWebCrawler) 爬取目标资源在全互联网中,爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中,有非常高的应用价值。 通用网络爬虫的基本构...博文来自:小菜鸟的博客

  网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(GeneralPurposeWebCrawler)、聚焦网络爬虫(FocusedWebCrawler)、增量式网络爬虫(Incr...博文来自:duyun123456的博客

  在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。现代意义上的搜索引擎的...博文来自:illidanismine的博客

  1爬虫的分类根据被爬网站的数量的不同,我们把爬虫分为:通用爬虫:通常指搜索引擎的爬虫()聚焦爬虫:针对特定网站的爬虫2爬虫的流程爬虫的工作流程:向起始url发...博文来自:的博客

  爬虫:     通用爬虫和聚焦爬虫通用爬虫:        搜索引擎用的爬虫系统   一.目标:        尽可能的把互联网上所有的网页都下载下来,放到本地服务器里形成备份,        再对这...博文来自:hsy_666的博客

  全面剖析网络爬虫(笔记)抓取网页深入理解URLURI:UniversalResourceIdentifier(通用资源标识符)的缩写,Web上每种可用的资源,如HTML文档、图像、视频片段、程序等都有...博文来自:自由飞翔的专栏

  网络爬虫引发的问题网络爬虫的尺寸网络爬虫的“性能骚扰”Web服务器默认接收人类访问受限于编写水平和目的,网络爬虫将会为Web服务器带来巨大的资源开销网络爬虫的法律风险服务器上的数据有产权归属网络爬虫获...博文来自:拉风小宇的博客

  在学习分类算法时看到这篇文章,总结的比较详细,特此转载过来大家分享,谢谢原作者的总结!!!一、决策树(DecisionTrees)的优缺点决策树的优点:1、决策树易于理解和解释.人们在通过解释后都有能...博文来自:行者小朱的博客

  在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络...博文来自:xiaomin1991222的专栏

  人类有史以来最强悍的爬虫视频,尹成大魔不出,谁与争锋清华学霸尹成大哥的Python爬虫视频,近期免费公开,可以找客服475318423索要视频源码。爬虫基础1.爬虫的定义与作用2.截取http协议-F...博文来自:尹成的技术博客

  爬虫时多种类信息写入爬虫时,我们一般会确定我们要哪些信息然后写入文件中。但有时候遇到如下情况,我们需要的信息有a,b,c,d,e,f,g,h。这8个信息,但是在第一个页面中只有a,b,c,d这四个信息...博文来自:123的博客

  爬虫策略制定1、从东方财富网中获取(股票代码2、从网易财经中可以直接下载csv格式文件,地址类似于博文来自:泛泛之素

  一、什么是网络爬虫    网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等,可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则我们称之为网络爬虫算法。使用Python可以...博文来自:多智时代的博客

  爬虫中数据的分类在爬虫爬取的数据中有很多不同类型的数据,我们需要了解数据的不同类型来又规律的提取和解析数据.结构化数据:json,xml等 处理方式:直接转化为python类型 非结构化数据:HTM...博文来自:ITZY的博客

  什么是爬虫爬虫爬到的数据去哪了浏览器的请求urlurl的组成浏览器请求url地址对应的响应是什么呢?初识http与httpshttp协议之请求请求行请求头请求体http协议之响应响应头响应体抓包什么是...博文来自:williamgavin的博客

  大部分学校出来的人都会一点matlab,无可否认,matlab用的好的人几乎无所不能。但是安装庞大的matlab往往在第一步就将很多入门学习者拒之门外,但是python,简单的安装和类似于matlab...博文来自:legalhighhigh的博客

  1.爬虫的分类根据被爬网站的数量的不同,我们把爬虫分为:通用爬虫:通常指搜索引擎的爬虫聚焦爬虫:针对特定网站的爬虫2.爬虫的流程请思考:如果自己要实现一个和百度新闻一样的网站需要怎么做?2.1聚焦爬虫...博文来自:lizoe_的博客

  网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(GeneralPurposeWebCrawler)、聚焦网络爬虫(FocusedWebCrawler)、增量式网络爬虫(Incr...博文来自:的博客

  数据提取的概念和数据的分类学习目标了解爬虫的数据的分类1爬虫中数据的分类在爬虫爬取的数据中有很多不同类型的数据,我们需要了解数据的不同类型来又规律的提取和解析数据.结构化数据:json,xml等处理方...博文来自:weixin_42653470的博客

  在上一小结中,我们介绍爬虫爬取到的数据用途的时候,给大家举了两个例子,其实就是两种不同类型的爬虫根据被爬网站的数量的不同,我们把爬虫分为:通用爬虫:通常指搜索引擎的爬虫(博文来自:yang_joker的博客

  帮助初学者迅速了解网络爬虫及如何爬取各种类型网站博文来自:梦想起航的地方

  爬虫伪装方法分类:Java2013-05-2920:40451人阅读评论(0)收藏举报原文:最近因为业务需要,要将豆瓣...博文来自:chuminnan2010的专栏

  基础爬虫架构基础爬虫框架主要包括五大模块:爬虫调度器、URL管理器、网页下载器、网页解析器、数据存储器。爬虫调度器:启动、执行、停止爬虫,统筹其他模块的协调工作。URL管理器:管理已爬取的URL和未爬...博文来自:分享数据科学家的自我修养

  之前学了福彩3D网络爬虫技术,然后我研究了一天时间,写了一个体彩排列3爬虫抓取程序,为了感谢网友们的贡献,我决定分享代码首先找一家比较大型的网站,500彩票网,因为是美国上市公司,轻易不会黄,这样写的...博文来自:lmhopen的博客

  通过User-Agent来控制访问无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,比如知乎的requestsheaders这里面的大多数的字段都是浏览器向...博文来自:sinat_31646867的博客

  一段很简单的爬虫程序,爬取的网站为,可以自己修改爬取城市以及爬取的月份,这里爬取的是1到7月的数据frombs4importBeautifulSo...博文来自:的博客

  目的:实现一个完成的请求与响应模型    urllib2提供一个基础函数URLopen,通过指定的URL发出请求来获取数据,最简单的形式就是:importurllib2#请求打开某页面response...博文来自:lion_lin的博客

  今天一天都在想怎么爬到我需要的数据,然后用Java代码实现了一下。以前只是知道正则表达式很强大,但是看起来头晕,所以也懒得去看。然后突然要爬数据,看到别人写的例子,一大堆的正则表达式,所以硬着头皮也去...博文来自:kayfen

  PS:一直以为爬虫是Python干的事,但是最近发现,原来Java也能够写爬虫,这让我万分不已,那就让我们看看Java如何写爬虫吧~   根据查看书籍和百度,我了解到要让Java做爬虫首先要将整...博文来自:Black_YeJing的博客

  以下内容,都是本人近一年写过的东西,也算花了不少时间。所以,源码并不是免费的,但很便宜。有需要的请邮箱联系:。另外,可以辅助编写其他网络爬虫工程。网络爬虫基础学习包含...博文来自:qy20115549的博客

  本文概要爬蟲是什麽爬蟲解決了什麽問題互聯網上有哪些數據值得爬取爬蟲爬取的數據有什麽用爬蟲的簡單分類爬蟲的運行原理...博文来自:学亮编程手记

  一、前言本项目和接下来的几篇博文将会围绕着此次拿到的花卉图片数据使用各种不同的深度神经网络做分类处理,本篇内容可能会显得比较神经质。整个编写和整理的过程博主预测还是很有意思的,我们规定整个的train...博文来自:的博客

  一直想着整理出网页抓取的具体实现功能代码,方便大家指正,也方便自己学习修正。当然这个并不是针对所有网页,自己写的功能有限,只能针对某一特定结构的网页进行数据采集,如果有更好的方法,请大家不吝指教,在此...博文来自:Carey

  前言小到出门扯淡,大到国家政策,无一例外,比较常见的三个字”大数据”,处处表示着已经进入大数据时代,那在大数据时代,最重要的是什么呢?毫无疑问,数据!而数据又是怎么来的呢?下面简单列一下:企业生产的用...博文来自:小洋人最happy的专栏

  突然对网络爬虫特别感兴趣,所以就上网查询了下,发现这个特别好。给大家分享下。现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此...博文来自:gtlishujie的博客

  据不完全统计,世界上80%的爬虫都是基于Python开发的。Python简单易学,对编程初学者十分友好,而且具有丰富而强大的库,开发效率奇高,因此很多编程爱好者都对Python爬虫十分感兴趣。要知道学...博文来自:programmer_feng的博客

  接触爬虫已经有一段时间了,常常有人问我:我会点Python,想自学爬虫,你看用什么方法好呢?我:我喜欢边做项目边学习,爬取过程中遇到问题再百度,扩展xx:我看了网上教材,过程很简略,最后给了一个编码,...博文来自:As的博客

  爬虫框架介绍Heritrix优势劣势简单demo地址crawler4j优势劣势简单demo地址WebMagic优势劣势简单demo地址快速入门seimicrawler项目地址简单爬虫实现导入项目编写爬...博文来自:Mr_OOO的博客

  爬虫入门教程-1很想做一些爬虫的基础性的教程,来与大家共同分享我的一些小经验,我将以我认为的方式为大家讲解网络爬虫,如果你没有编程基础,对网络爬虫有兴趣,开始可能稍微有一些小难度,不过我希望能给你带来...博文来自:Great Expectations的博客

  网络爬虫 编辑网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、...博文来自:han____shuai的专栏

  爬虫网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网...博文来自:技术研发部官方博客

  授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!

  Python strip() 方法用于移除字符串头尾指定的字符(默认为空格)

  requests入门 response的常用方法 response.text 和tent的区别

  • 本文来自: 老铁博客,转载请保留出处!欢迎发表您的评论
  • 相关标签:爬虫抓取  
  • 已有0位网友发表了一针见血的评论,你还等什么?

    必填

    选填

    记住我,下次回复时不用重新输入个人信息

    必填,不填不让过哦,嘻嘻。

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。