网站地图 | RSS订阅 老铁博客 - 上海SEO优化|上海网站建设|蜘蛛池出租|站群代搭建
你的位置:首页 » 网站建设 » 正文

python爬虫之多线程、多进程爬虫

2019-8-4 23:23:47 | 作者:老铁SEO | 0个评论 | 人浏览

  多线程对爬虫的效率提高是非凡的,当我们使用python的多线程有几点是需要我们知道的:

  countdown是一个计数的方法,正常执行它,我们一般使用countdown(10),就可以达到执行的目的,当你通过线程去调用它时,首先你需要从threading模块中引入Thread,然后,t = Thread(target=countdown, args=(10,)),当你创建好一个线程对象后,该对象并不会立即执行,除非你调用它的 start方法(当你调用 start() 方法时,它会调用你传递进来的函数,并把你传递进来的数传递给该函数),这就是一个简单的线程执行的例子。

  Python 解释器直到所有线程都终止前仍保持运行。对于需要长时间运行的线程或

  上面的代码都是单线程,下面我们来看看多线程,并使用它来编写多线程爬虫,不过,在真正编写多线程爬虫之前,我们还要为编写多线程做准备,如何保持各线程之间的通信,在这里,我们使用队列Queue作为多线程之间通信的桥梁。

  首先,创建一个被多个线程共享的 Queue 对象,这些线程通过使用 put() 和 get() 操来向队列中添加或者删除元素。

  上面的produecer(生产者)和consumer(消费者),是两个不同的线程,它们共用一个队列:q,当生产者生产了数据后,消费者会拿到,然后消费它,所以不用担心,产生其他相同的数据。值得注意的是:尽管列是最常见的线程间通信机制,但是仍然可以自己通过创建自己的数据结构并添加需的锁和同步机制来实现线程间通信。

  下面我们来编写一个简单的多线程爬虫,方法写的比较臃肿,正常情况下不应该这么写,作为简易的例子我就这么写了:

  使用十个线程来执行run方法消化任务队列,run方法有两个参数,一个任务队列,一个保存结果的队列。

  in_q.empty(),是对列的一个方法,它是检测队列是否为空,是一个布尔值,url = in_q.get(),这个操作是拿出队列的一个值出来,然后,把它从队列里删掉。

  一个线程执行生产,生产者一次生产十个url,十个线程执行消费,代码很简单,读了上面的代码,这部分代码不难理解,我就不解释了。

  近段时间,笔者发现一个神奇的网站:,该网站提供了大量免费的编程方面的电子书,是技术爱好者们的福音。其页面如下:  那么我们是否可以通过Pyth...博文来自:weixin_33725272的博客

  首先先来介绍下queue这个包吧,这个包叫队列,没错,就是那个和栈反过来的那个队列,大家一听队列就随口说出先进先出,而栈则是后进先出,为什么要用用队列来实现,其实我也不知道,反正用过之后很顺手...博文来自:Gscsd的博客

  欢迎捧场,这次我们爬取糗事百科的幽默笑话大全,这里边只有文字内容,处理比较方便。为了匹配我们需要的笑话内容,我们选择用正则表达式来处理。尚有编码问题,请大家见谅。...博文来自:王凯盛的博客

  04-28阅读数 92Python爬虫提速:【多进程、多线程、协程+异步】对比测试概念介绍测试环境开始测试测试【单线程单进程】测试【多进程并行】测试【多线程并发】测试【协程+异步】结果对比Python爬虫提速:【多进程、多...

  阅读数 8898以前做过Python的爬虫,不过那只爬取贴吧内容,比较简单,只是用来刚开始练练手的。这段时间又重新看Python,看到了正则表达式,于是想对爬虫再深入的了解下,主要是对爬虫的线程以及进程学习。爬虫是i...

  最近刚学习Python 然后写了一个多线程的小爬虫,爬取一个论坛内的新闻列表的标题。但是现在遇到一个问题一直没有头绪,就是爬下的数据如何保证一致性,因为多线程爬取的时候是随机性的,数据不能按照网页的顺论坛

  前言  大数据分析自然需要大量的数据,爬虫是获取数据的一种途径,Python是十分适合写爬虫的语言,Scrapy是Python的一个高级爬虫框架,那么学习Scrapy之前先简单实现一些爬虫例子,本文记...博文

  多线程在介绍Python中的线程之前,先明确一个问题,Python中的多线程是假的多线程!为什么这么说,我们先明确一个概念,全局解释器锁(GIL)一、什么是GILPython代码的执行由Python虚...博文来自:梁某

  引言:我们在写爬虫时常会遇到这样的问题,当需要爬取多个URL时,写一个普通的基于requests库的爬虫程序爬取时间会很长。因为是顺序请求网页的,而网页请求和获得响应过程比较耗费时间,程序不得不等待获...博文来自:SL_World的博客

  上篇说了线程,进程,cpu,内存,硬盘之间的关系,这篇说下异步和线程异步因为异步操作无须额外的线程负担,并且使用回调的方式进行处理,在设计良好的情况下,处理函数可以不必使用共享变量(即使无法完全不用,...博文来自:

  的理解以及多线.同步、异步,并行、并发之间的区别:(1)同步:先执行任务a,在执行任务b,称任务a和b是同步的:(2)异步:任务a和任务b同时执行,称任务a和b是异步的注意:实现异步的时候,还有不同,一种是真正的...博文来自:韩波的博客

  python多线程作用于可以并行处理的函数上,一般是执行重复操作的一些函数。在网站URL爬虫中,多线程爬虫作用的函数我设置的是getLink()这个函数:实现功能——根据url获取网页内容再从中爬取出...博文

  windows:python爬虫:短代码实现多线程爬虫版权声明:本文为博主原创文章,未经博主允许不得转载。python爬虫:关于本文:现在关于python多线程爬虫的文章并不少见,但是很多代码冗长,逻...博文来自:

  阅读数 3747序:叮咚叮咚,走过路过不要错过啊。。。好久没写博客,上次都是几年前了,写过一些android的文章,然而我连账号都忘记了,真尼玛。。。大数据时代,人工智能,机器学习开始流行了,赶上了这个时代是好的,也...

  阅读数 612最前近期根据助教的推荐,在莫烦Python上学习了Python爬虫的新操作,主要是多进程和多线程。本次结合课程作业,体验了一把多进程的速度。要求输入一座城市的名称,获取其百度百科的基本介绍。如输入北京...

  授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!

  授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。

  解决scrapy ValueError(Missing scheme in request url: %s % self._url)

  • 本文来自: 老铁博客,转载请保留出处!欢迎发表您的评论
  • 相关标签:多线程爬虫  
  • 已有0位网友发表了一针见血的评论,你还等什么?

    必填

    选填

    记住我,下次回复时不用重新输入个人信息

    必填,不填不让过哦,嘻嘻。

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。