网站地图 | RSS订阅 老铁博客 - 上海SEO优化|上海网站建设|蜘蛛池出租|站群代搭建
你的位置:首页 » 站群搭建 » 正文

爬虫系列(三)(GET请求和POST请求)

2019-7-28 20:49:38 | 作者:老铁SEO | 0个评论 | 人浏览

  在其中我们可以看到在请求部分里,之后出现一个长长的字符串,其中就包含我们要查询的关键词传智播客,于是我们可以尝试用默认的Get方式来发送请求。

  首先我们创建一个python文件, tiebaSpider.py,我们要完成的是,输入一个百度贴吧的地址,比如:

  发现规律了吧,贴吧中每个页面不同之处,就是url最后的pn的值,其余的都是一样的,我们可以抓住这个规律。

  先写一个main,提示用户输入要爬取的贴吧名,并用urllib.urlencode()进行转码,然后组合url,假设是lol吧,那么组合后的url就是:

  接下来,我们写一个百度贴吧爬虫接口,我们需要传递3个参数给这个接口, 一个是main里组合的url地址,以及起始页码和终止页码,表示要爬取页码的范围。

  我们已经之前写出一个爬取一个网页的代码。现在,我们可以将它封装成一个小函数loadPage,供我们使用。

  最后如果我们希望将爬取到了每页的信息存储在本地磁盘上,我们可以简单写一个存储文件的接口。

  其实很多网站都是这样的,同类网站下的html页面编号,分别对应网址后的网页序号,只要发现规律就可以批量爬取页面了。

  上面我们说了Request请求对象的里有data参数,它就是用在POST里的,我们要传送的数据就是这个参数data,data是一个字典,里面要匹配键值对。

  输入测试数据,再通过使用Fiddler观察,其中有一条是POST请求,而向服务器发送的请求数据并不是在url里,那么我们可以试着模拟这个POST请求。

  有些网页内容使用AJAX加载,只要记得,AJAX一般返回的是JSON,直接对AJAX地址进行post或get,就返回JSON数据了。

  GET方式是直接以链接形式访问,链接中包含了所有的参数,服务器端用Request.QueryString获取变量的值。如果包含了密码的话是一种不安全的选择,不过你可以直观地看到自己提交了什么内容。

  POST则不会在网址上显示所有的参数,服务器端用Request.Form获取提交的数据,在Form提交的时候。但是HTML代码里如果不指定 method 属性,则默认为GET请求,Form中提交的数据将会附加在url之后,以?分开与url分开。

  现在随处可见 https 开头的网站,urllib2可以为 HTTPS 请求验证SSL证书,就像web浏览器一样,如果网站的SSL证书是经过CA认证的,则能够正常访问,如:等...

  如果SSL证书验证不通过,或者操作系统不信任服务器的安全证书,比如浏览器在访问12306网站如:的时候,会警告用户证书不受信任。(据说 12306 网站证书是自己做的,没有通过CA认证)

  所以,如果以后遇到这种网站,我们需要单独处理SSL证书,让程序忽略SSL证书验证错误,即可正常访问。

  CA(Certificate Authority)是数字证书认证中心的简称,是指发放、管理、废除数字证书的受信任的第三方机构,如北京数字认证股份有限公司上海市数字证书认证中心有限公司等...

  CA的作用是检查证书持有者身份的合法性,并签发证书,以防证书被伪造或篡改,以及对证书和密钥进行管理。

  现实生活中可以用身份证来证明身份, 那么在网络世界里,数字证书就是身份证。和现实生活不同的是,并不是每个上网的用户都有数字证书的,往往只有当一个人需要证明自己的身份的时候才需要用到数字证书。

  普通用户一般是不需要,因为网站并不关心是谁访问了网站,现在的网站只关心流量。但是反过来,网站就需要证明自己的身份了。

  比如说现在钓鱼网站很多的,比如你想访问的是,但其实你访问的是”,所以在提交自己的隐私信息之前需要验证一下网站的身份,要求网站出示数字证书。

  一般正常的网站都会主动出示自己的数字证书,来确保客户端和网站服务器之间的通信数据是加密安全的。

  1. 网页抓取 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来抓取网页。 在python2中自带urllib和urllib2。两个最显著的不同如下: 1 urllib 模块仅可以接受URL,不能创建 设置headers...

  Author 尘世gu行转载请注明出处 URL编码转换:urllib模块里面的的urlencode() urllib 和 urllib2 都是接受URL请求的相关模块,但是提供了不同的功能。两个最显著的不同如下: urllib 模块仅可以接受URL,不能创建 设置了hea...

  1,简述 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来抓取网页。 在python2中自带urllib和urllib2。二者区别如下: 1,urllib 模块仅可以接受URL,不能创建 设置headers 的Request...

  老张发的图片,写情商有9大项,恕我孤陋,从来没对“情商”这个词研究过,以我对自身的了解,情商凑活,智商一般。我对情商的理解简单,看能否站在对方的立场考虑问题。 最近一本书快看完了,名字《内容营销》 企业管理出版社出版,正好借此机会来分享下。此书作者的观点跟情商关系很大,它提...

  首先,所有的观念仅仅代表我个人的看法没有任何的攻击性。 当然,其实我特别想有攻击性,指着她们的鼻子说,去你妈的吧,但是为了这篇文章我暂时忍忍吧,对,今天我想说的就是一些关于文明礼貌的事。 这不是鸡汤,因为我不是鸡,咳咳,跑偏了。中午在食堂吃饭的时候,对面有个姑娘站在了凳子上...

  昨日辅导结束后,一位家长和我了解孩子的最近学习情况并谈及孩子上课 注意力不集中的问题。故今日写此文章来谈一下自己的拙见。 题记 谈及孩子家长像我大倒苦水...

  蝴蝶效应:小小的蝴蝶扇动翅膀,可能引起一场龙卷风。 一只南美洲热带雨林的蝴蝶,偶尔扇动几下双翅,可能在两周后引起美国德克萨斯州一场龙卷风,这就是著名的“蝴蝶效应”。 许多微小的事物,一旦发生变化,其产生的后果是让人无法相像、不可控制的。换言之,社会上许多天灾人祸,最初可能在...

  • 本文来自: 老铁博客,转载请保留出处!欢迎发表您的评论
  • 相关标签:网页爬虫  
  • 已有0位网友发表了一针见血的评论,你还等什么?

    必填

    选填

    记住我,下次回复时不用重新输入个人信息

    必填,不填不让过哦,嘻嘻。

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。