网站地图 | RSS订阅 老铁博客 - 上海SEO优化|上海网站建设|蜘蛛池出租|站群代搭建
你的位置:首页 » 推广营销 » 正文

爬虫进阶:反反爬虫技术--5 网页隐藏信息

2019-8-8 2:23:16 | 作者:老铁SEO | 0个评论 | 人浏览

  在 HTML 表单中,“隐含”字段可以让字段的值对浏览器可见,但是对用户不可见(除非看网页源代码)。随着越来越多的网站开始用 cookie 存储状态变量来管理用户状态,在找到另一个最佳用途之前,隐含字段主要用于阻止爬虫自动提交表单。

  下图显示的例子就是 Facebook 登录页面上的隐含字段。虽然表单里只有三个可见字段(username、password 和一个确认按钮),但是在源代码里表单会向服务器传送大量的信息。

  用隐含字段阻止网络数据采集的方式主要有两种。第一种是表单页面上的一个字段可以用服务器生成的随机变量表示。如果提交时这个值不在表单处理页面上,服务器就有理由认为这个提交不是从原始表单页面上提交的,而是由一个网络机器人直接提交到表单处理页面的。绕开这个问题的最佳方法就是,首先采集表单所在页面上生成的随机变量,然后再提交到表单处理页面。

  第二种方式是“蜜罐”(honey pot)。如果表单里包含一个具有普通名称的隐含字段(设置蜜罐圈套),比如“用户名”(username)或“邮箱地址”(email address),设计不太好的网络机器人往往不管这个字段是不是对用户可见,直接填写这个字段并向服务器提交,这样就会中服务器的蜜罐圈套。服务器会把所有隐含字段的真实值(或者与表单提交页面的默认值不同的值)都忽略,而且填写隐含字段的访问用户也可能被网站封杀。

  总之,有时检查表单所在的页面十分必要,看看有没有遗漏或弄错一些服务器预先设定好的隐含字段(蜜罐圈套)。如果你看到一些隐含字段,通常带有较大的随机字符串变量,那么很可能网络服务器会在表单提交的时候检查它们。另外,还有其他一些检查,用来保证这些当前生成的表单变量只被使用一次或是最近生成的(这样可以避免变量被简单地存储到一个程序中反复使用)。

  虽然在进行网络数据采集时用 CSS 属性区分有用信息和无用信息会很容易(比如,通过读取 id和 class 标签获取信息),但这么做有时也会出问题。如果网络表单的一个字段通过 CSS 设置成对用户不可见,那么可以认为普通用户访问网站的时候不能填写这个字段,因为它没有显示在浏览器上。如果这个字段被填写了,就可能是机器人干的,因此这个提交会失效。

  这种手段不仅可以应用在网站的表单上,还可以应用在链接、图片、文件,以及一些可以被机器人读取,但普通用户在浏览器上却看不到的任何内容上面。访问者如果访问了网站上的一个“隐含”内容,就会触发服务器脚本封杀这个用户的 IP 地址,把这个用户踢出网站,或者采取其他措施禁止这个用户接入网站。实际上,许多商业模式就是在干这些事情。

  下面的例子所用的网页在。这个页面包含了两个链接,一个通过CSS 隐含了,另一个是可见的。另外,页面上还包括两个隐含字段:

  邮箱地址字段 name=“email” 是将元素向右移动 50 000 像素(应该会超出电脑显示器的边界)并隐藏滚动条

  因为 Selenium 可以获取访问页面的内容,所以它可以区分页面上的可见元素与隐含元素。通过 is_displayed() 可以判断元素在页面上是否可见。

  例如,下面的代码示例就是获取前面那个页面的内容,然后查找隐含链接和隐含输入字段:

  虽然你不太可能会去访问你找到的那些隐含链接,但是在提交前,记得确认一下那些已经在表单中、准备提交的隐含字段的值(或者让 Selenium 为你自动提交)。

  如图,打开后,就是一个span标签,除了链接标题外,什么也没有,这个怎么爬取啊,谢谢大神,在线等论坛

  LSB中文名字全称为最低有效位。常见的信息隐藏图片格式一般为png或者bmp这类无损压缩的图片且是8位图或者24位图,8位图是使用我们的调色板来保存颜色值,可以正好代表2的8次方256种颜色。8位即占...博文来自:mynd天堂

  最近在爬虫这个网站: 我再chorme上面用检查能看到很细的内容。 但是用beautifulsoup所生成的text 内容就很少很论坛

  1、使用re.DEBUG查看正则表达式的匹配过程正则表达式是Python的一大特色,但是调试起来会很痛苦,很容易得出一个bug。幸运的是,Python可以打印出正则表达式的解析树,通过re.debug...博文来自:weixin_33994429的博客

  问题:用Beautifulsoup抓取网页,网页中含有br标签,抓取相关的内容结果是None。试了用字符串的replace函数替换br,还是返回None。试了用re正则替换br,提示返回类型错误。原因...博文来自:u012587107的博客

  反爬虫 的技术大概分为四个种类: 注:文末有福利!一、通过User-Agent来控制访问:无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,比如知乎的req...博文来自:VampireKalus的博客

  爬虫是一种模拟浏览器对网站发起请求,获取数据的方法。简单的爬虫在抓取网站数据的时候,因为对网站访问过于频繁,给服务器造成过大的压力,容易使网站崩溃,因此网站维护者会通过一些手段避免爬虫的访问,...博文来自:了不起的水獭的博客

  学习爬虫肯定要了解反爬虫技术,因为在你爬取网页的时候不可避免的会遇到各种各样的反爬虫技术,但是大致可以分为四类1.robots.tet文件,这是一个君子协定,你遵守也行,不遵守也行,但是一般情况下我是...博文来自:oyjl19961216的博客

  Python破解反爬虫的两种方法由于有很多企业为了减轻网页负荷,抵御爬虫爱好者,设置了许多方法阻挡爬虫,本人也只是个菜鸡,目前只会两种方法绕过反爬虫机制,本文也就只列出这两种方法。1.伪装浏览器由于爬...博文来自:villaaaaaaaa

  WordPress文章内容资源收费查看/下载插件含vip会员功能/联盟推广/支付宝/财付通/贝宝/网银付款(v9.6.4),wordpress内容付费插件,内容扫码支付可见插件。wordpre...博文来自:个人博客

  请问,登录一网站,但有的版块不能浏览权限不够,有没有解决方法,可以浏览呢? 获取浏览权限是需要付费的,有没有方法破解论坛

  第一步,打开需要查看带星的密码第二步:打开浏览器自带的开发者模式。我用的是谷歌浏览器(F12),对密码处进行检查,将type=password双击“Passwrod”,将其修改...博文来自:w_system的博客

  清除文字水印的方法比较多,主要有两种:手动在Word里简易清除、利用浏览器插件来清除。1.颜色替...博文来自:liuyukuan的专栏

  1.禁用Cookie部分网站会通过用户的Cookie信息对用户进行识别与分析,所以要防止目标网站识别我们的会话信息。在Scrapy中,默认是打开cookie的(#COOKIES_ENABLED=Fal...博文来自:zupzng的博客

  本文转载自:越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓...博文来自:liujiayu2的专栏

  爬虫遇到的问题最近在用爬虫程序爬一些网站的时候发现爬到的数据出现乱码,不能正常显示:如上图我们可以发现有些数据的数字变成了加密字体,我就去查看了一下网站的代码,结果发现网站的代码显示是这样的:原来有些...博文来自:litang199612的博客

  新手参考学习了,原版写的真的很好!感谢!会遇到网站反爬虫策略下面几点:1/限制IP访问频率,超过频率就断开连接。(这种方法解决办法就是,降...博文来自:xiexiecm的博客

  在抓取58同城租房信息时出现自定义字体,将原本正常的数据信息隐藏,如图所示:  从源码中查找,找到@font-face自定义字体,将原本正常数据隐藏了接下来处理这段加密的脚本:defget_list(...博文来自:Alicia_N的博客

  在爬取58同城租房信息的联系号码时,发现抓取的‘’对应的内容是‘龒鑶龤驋鑶餼餼龒鸺閏閏’看起来应该是字体加密,字体加密一般是网页修改了默认的字符编码集,在网页上加载的网页定义的字...博文来自:数据之旅的点点滴滴

  前言这里将自己收集的,遇到的反爬机制进行简单的记录和简单的分析,如果有大佬路过,看到理解不正确的地方,希望可以指出来,学习进步,在此感激不尽。正文最基础的记录一下标题1.header反爬抓包copy一...博文来自:王嘟嘟的博客

  1.构造合理的HTTP请求头除了处理网站表单,requests模块还是一个设置请求头的利器。HTTP的请求头是在你每次向网络服务器发送请求时,传递的一组属性和配置信息。HTTP定义了十几种古怪的请求...博文来自:huoyingchong64的博客

  使用selenium+phontomjs爬取航空公司网站为例子1访问元素丰富度普通用户在打开网页时会有比较丰富的地址访问,而自动爬虫通常只有少数固定的页面访问,比如航司活动专版、舱位价格页面、航线动态...博文来自:大蛇王的博客

  一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间。之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了。但是,作为一个宅diao...博文来自:weixin_34066347的博客

  Gtihub相关项目推荐:知乎爬虫自建代理池一.对请求IP等进行限制的。  以知乎为例,当我们的请求速度到达一定的阈值,会触发反爬虫机制!  在我爬取知乎百万用户信息中,出现了429错误(TooMan...博文来自:云度

  对58同城二手平板电脑的爬虫一、先爬取内容中的一项先爬取一项的代码爬去一项的结果二、爬取一整页一整页代码一整页的全部信息结果一、先爬取内容中的一项网址如下:URL=‘博文来自:Prodigal

  主要针对以下四种反爬技术:Useragent过滤;模糊的Javascript重定向;验证码;请求头一致性检查。高级网络爬虫技术:绕过“403Forbidden”,验证码等爬虫的完整代码可以在githu...博文来自:weixin_33882443的博客

  主要针对以下四种反爬技术:Useragent过滤;模糊的Javascript重定向;验证码;请求头一致性检查。高级网络爬虫技术:绕过“403Forbidden”,验证码等爬虫的完整代码可以在githu...博文来自:1024小神的博客

  爬虫和反爬的对抗一直在进行着…为了帮助更好的进行爬虫行为以及反爬,今天就来介绍一下网页开发者常用的反爬手段。通过robots.txt来限制爬虫:爬虫都遵守着一个协议:robots.txtrobots....博文来自:爱python的王三金

  一:IP代理池从技术上说,IP地址是可以通过发送数据包进行伪装的,就是分布式拒绝服务攻击技术(DistributedDenialofService,DDoS),攻击者不需要关心接收的数据包(这样发送请...博文来自:huoyingchong64的博客

  网络爬虫深度知识反爬虫问题反爬虫原因1.网络爬虫浪费了网站的流量2.数据是私有资源3.爬虫协议与原则反爬虫问题在进行网络爬虫时,反爬虫和反反爬虫是经常会遇到的问题。反爬虫原因&...博文来自:ITxiaoangzai的博客

  这次这个爬虫废了我好几天时间,第一次遇到js反爬虫策略,瞬间被打趴下了。不过研究了好几天之后终于是搞定了,求助的一个朋友,最后的原理我可能也不是太清楚,写下来,记录一下,有遇到类似问题的可以参考一下。...博文来自:白夜

  副标题:董伟明知乎Live爬虫路径综述星期六晚上和周日上午学习了一个知乎Live《爬虫入门到进阶》,课程的主要内容是豆瓣工程师董伟明给大家讲解一些关于爬虫的内容。重点不在于,他给我们讲解了多少爬虫相关...博文来自:cxiaoxx1的博客

  何大量网站不能抓取?爬虫突破封禁的6种常见方法在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(b...博文来自:梦想成真那天

  问口碑的人比较多,写了一下思路,请点击这里现在论坛的反爬虫也改成了字体映射,所以本篇破解方式已经不适用了,新的破解方式可以看我的口碑破解方法.---2018-1-9目前论坛可以用,口碑的不能用. 最近...博文来自:zz153417230的博客

  HTTP协议之请求部分请求部分详解请求部分可以分成三块 请求行 包括:请求方式,请求的资源路径,协议版本 请求方式有很多种,常用就两种GET和POST。GET和POST的区别?GET:请求的参数会显示...博文来自:boss_way的博客

  一、爬与反爬爬虫目的:1.获取数据。填充公司的数据库,可以用来做数据测试。也可以直接登录2.通过爬虫爬取大量的数据。用来制作搜索引擎3.通过爬虫爬取数据,做数据采集和数据分析的工作4.通过爬虫爬取数据...博文来自:家有代码初写成 的博客

  使用爬虫访问网站,需要尽可能的隐藏自己的身份,以防被服务器屏蔽,在工作工程中,我们有2种方式来实现这一目的,分别是延时访问和动态代理,接下来我们会对这两种方式进行讲解1、延时访问见名之意,延时访问就是...博文来自:秦毅翔的专栏

  自己爬虫经验总结项目地址网络信息采集在编写爬虫之前可能需要先了解和搜集网站信息robots.txtRobots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(RobotsExclus...博文来自:No.96

  • 本文来自: 老铁博客,转载请保留出处!欢迎发表您的评论
  • 相关标签:反爬虫技术  
  • 已有0位网友发表了一针见血的评论,你还等什么?

    必填

    选填

    记住我,下次回复时不用重新输入个人信息

    必填,不填不让过哦,嘻嘻。

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

    10月经济运行平稳 就业提前超额完成全年预期目标
    “双11”房企战果如何?找房用户增5倍订单增3倍
    “双11”房企战果如何? 找房用户增5倍订单增3倍
    房企高管上演离职潮 年底业绩压力大?
    北京普宅沿用5年前标准 业内建议适时调整
    印尼马鲁古海北部附近发生7.2级左右地震
    外媒:逾八成全球投资者将增加中国投资
    贸易战吞噬美150万个就业岗位:货物越少 工作越少
    獐子岛遭问询:说明公司持续盈利能力
    10月经济数据出炉 专家称稳增长的重要性进一步提升