爬虫所需要的代理IP究竟是什么

技术爬虫所需要的代理IP究竟是什么爬虫所需要的代理IP究竟是什么,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。在爬取某些网站时,我们经常会设置代理 IP 来

我相信很多没有经验的人,对于代理IP爬虫需要什么都做不了。因此,本文总结了问题产生的原因及解决方法。希望你能通过这篇文章解决这个问题。

在抓取一些网站的时候,我们经常会设置代理IP,避免阻塞爬虫程序。我们获取代理IP地址的方式通常是从国内知名IP代理(如西慈代理、快递代理、无忧代理等)中提取免费代理。).这些代理通常提供透明代理、匿名代理和匿名代理。那么这些代理之间有什么区别呢?我们应该如何选择?主要内容是解释各种代理IP背后的原理。

00-1010座席类型可分为四种。除了前面提到的透明代理、匿名代理、高度隐藏代理和混淆代理。在安全性方面,这四种代理类型的排名是高模糊性、匿名性和透明性。

00-1010代理类型主要取决于代理服务器的配置。不同的配置导致不同的代理类型。在配置上,这三个变量REMOTE_ADDR,HTTP_VIAHTTP_X_FORWARDED_FOR是决定性因素。

1) REMOTE_ADDR

REMOTE_ADDR指示客户端的IP地址,但是它的值不是由客户端提供的,而是由服务器根据客户端的IP地址指定的。

如果你用浏览器直接访问网站,网络服务器(Nginx,Apache等。)将远程ADDR设置为客户端的IP地址。

如果我们为浏览器设置代理,我们访问目标网站的请求将首先通过代理服务器,然后代理服务器将请求转换为目标网站。网站的网络服务器会将远程ADDR设置为代理服务器的IP。

2)X-Forwarded-For(XFF)

x-forward-For是一个HTTP扩展头,用来表示HTTP请求者的真实IP。当客户端使用代理时,网络服务器不知道客户端的真实IP地址。为了避免这种情况,代理服务器通常会添加一个X-forward-For报头信息,并将客户端的IP地址添加到报头信息中。

转发请求报头格式如下:

x-转发-对于:客户端,代理1,代理2

客户端代表客户端的IP地址;Proxy1是距离服务器最远的设备的IP;Proxy2是辅助代理设备的IP;从格式可以看出,从客户端到服务器可以有多层代理。

如果一个HTTP请求在到达服务器之前经过三个代理Proxy1、Proxy2和Proxy3,IP分别为IP1、IP2和IP3,用户的真实IP为IP0,那么按照XFF标准,服务器最终会收到如下信息:

x-转发-针对:IP0、IP1、IP2

代理3直接连接到服务器,它会将IP2附加到XFF,表示它正在转发代理2的请求。列表中没有IP3,可以从服务器上的远程地址字段获取IP3。我们知道HTTP连接是基于TCP连接的,HTTP协议中没有IP的概念。远程地址来自TCP连接,表示与服务器建立TCP连接的设备的IP,在本例中为IP3。

3)HTTP_VIA

Via是HTTP协议中的一个头,它记录了HTTP请求通过的代理和网关。通过一个代理服务器后,增加一个代理服务器的信息,通过两个后,增加两个代理服务器。

1 代理类型

1) 透明代理(Transparent Proxy)

代理的配置如下:

远程_ ADDR=代理

HTTP _ VIA=ProxyIP

虽然HTTP_X_FORWARDED_FOR=YourIP透明代理可以直接“隐藏”客户端的IP地址,但它仍然可以从HTTP_X_FORWARDED_FOR中找到客户端的IP地址。

2) 匿名代理(Anonymous Proxy)

代理的配置如下:

远程_ ADDR=代理

HTTP _ VIA=proxyIP

HTTP _ X _ FORWARDED _ FOR=proxyIP

(=NationalBureauofStandards)国家标准局

p;

匿名代理能提供隐藏客户端 IP 地址的功能。使用匿名代理,服务器能知道客户端使用用了代理,当无法知道客户端真实 IP 地址。

3) 混淆代理(Distorting Proxy)
代理服务器的配置如下:

REMOTE_ADDR = Proxy IP
HTTP_VIA = Proxy IP
HTTP_X_FORWARDED_FOR = Random IP address

 

与匿名代理的原理相似,但是会伪装得更逼真。如果客户端使用了混淆代理,服务器还是能知道客户端在使用代理,但是会得到一个假的客户端 IP 地址。

2) 高匿代理(Elite  Proxy 或 High Anonymity Proxy)
代理服务器的配置如下:

REMOTE_ADDR = Proxy IP
HTTP_VIA = not determined
HTTP_X_FORWARDED_FOR = not determined

 

高匿代理既能让服务器不清楚客户端是否在使用代理,也能保证服务器获取不到客户端的真实 IP 地址。

4 代理的选择

普通匿名代理能隐藏客户机的真实 IP,但会改变我们的请求信息,服务器端有可能会认为我们使用了代理。不过使用此种代理时,虽然被访问的网站不能知道客户端的 IP 地址,但仍然可以知道你在使用代理,当然某些能够侦测 IP 的网页仍然可以查到客户端的 IP。

而高度匿名代理不改变客户机的请求,这样在服务器看来就像有个真正的客户浏览器在访问它,这时客户的真实IP是隐藏的,服务器端不会认为我们使用了代理。

因此,爬虫程序需要使用到代理 IP 时,尽量选择普通匿名代理和高匿名代理。另外,如果要保证数据不被代理服务器知道,推荐使用 HTTPS 协议的代理。

看完上述内容,你们掌握爬虫所需要的代理IP究竟是什么的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注行业资讯频道,感谢各位的阅读!

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/54430.html

(0)

相关推荐

  • 安装完mysql怎么使用(mysql怎么在第一步安装)

    技术mysql怎么样进行安装这篇文章主要为大家展示了“mysql怎么样进行安装”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“mysql怎么样进行安装”这篇文章吧。一、下载安装

    攻略 2021年12月20日
  • 岁寒然后知松柏之后凋也的意思,岁寒然后知松柏之后凋也的作文

    技术岁寒然后知松柏之后凋也的意思,岁寒然后知松柏之后凋也的作文《论语》一书中,有这样一句经典语句:子曰,岁寒,然后知松柏之后凋也。这句话出自《论语·子罕》,意思是:只有天气寒冷了,我们才明白松柏是最后凋谢的岁寒然后知松柏

    生活 2021年10月28日
  • 通过昵称找回微博账号,微博账号忘记登录邮箱怎么办

    技术通过昵称找回微博账号,微博账号忘记登录邮箱怎么办可以先把登录名找回通过昵称找回微博账号。一、找登录名的步骤是:1、电脑登陆weibo.com页面——页面最下方的左部找到微博帮助——自助服务。2、找登录名(绿色图标的第

    生活 2021年10月25日
  • 孙悟空的人物特点,西游记关于孙悟空性格特点的句子

    技术孙悟空的人物特点,西游记关于孙悟空性格特点的句子1、外貌孙悟空的人物特点: 身穿金甲亮堂堂,头戴金冠光映映。手举金箍棒一根,足踏云鞋皆相称。一双怪眼似明星,两耳过肩查又硬。挺挺身才变化多,声音响亮如钟磬。尖嘴咨牙弼马

    生活 2021年10月25日
  • Oracle索引范围扫描操作流程是什么

    技术Oracle索引范围扫描操作流程是什么本篇内容主要讲解“Oracle索引范围扫描操作流程是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Oracle索引范围扫描操作流

    攻略 2021年11月4日
  • 2021-2022-1-diocs-TCP/IP和网络编程

    技术2021-2022-1-diocs-TCP/IP和网络编程 2021-2022-1-diocs-TCP/IP和网络编程一、任务详情
    自学教材第13章,提交学习笔记(10分)
    知识点归纳以及自己最有收

    礼包 2021年11月23日