爬虫所需要的代理IP究竟是什么

技术爬虫所需要的代理IP究竟是什么爬虫所需要的代理IP究竟是什么,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。在爬取某些网站时,我们经常会设置代理 IP 来

我相信很多没有经验的人,对于代理IP爬虫需要什么都做不了。因此,本文总结了问题产生的原因及解决方法。希望你能通过这篇文章解决这个问题。

在抓取一些网站的时候,我们经常会设置代理IP,避免阻塞爬虫程序。我们获取代理IP地址的方式通常是从国内知名IP代理(如西慈代理、快递代理、无忧代理等)中提取免费代理。).这些代理通常提供透明代理、匿名代理和匿名代理。那么这些代理之间有什么区别呢?我们应该如何选择?主要内容是解释各种代理IP背后的原理。

00-1010座席类型可分为四种。除了前面提到的透明代理、匿名代理、高度隐藏代理和混淆代理。在安全性方面,这四种代理类型的排名是高模糊性、匿名性和透明性。

00-1010代理类型主要取决于代理服务器的配置。不同的配置导致不同的代理类型。在配置上,这三个变量REMOTE_ADDR,HTTP_VIAHTTP_X_FORWARDED_FOR是决定性因素。

1) REMOTE_ADDR

REMOTE_ADDR指示客户端的IP地址,但是它的值不是由客户端提供的,而是由服务器根据客户端的IP地址指定的。

如果你用浏览器直接访问网站,网络服务器(Nginx,Apache等。)将远程ADDR设置为客户端的IP地址。

如果我们为浏览器设置代理,我们访问目标网站的请求将首先通过代理服务器,然后代理服务器将请求转换为目标网站。网站的网络服务器会将远程ADDR设置为代理服务器的IP。

2)X-Forwarded-For(XFF)

x-forward-For是一个HTTP扩展头,用来表示HTTP请求者的真实IP。当客户端使用代理时,网络服务器不知道客户端的真实IP地址。为了避免这种情况,代理服务器通常会添加一个X-forward-For报头信息,并将客户端的IP地址添加到报头信息中。

转发请求报头格式如下:

x-转发-对于:客户端,代理1,代理2

客户端代表客户端的IP地址;Proxy1是距离服务器最远的设备的IP;Proxy2是辅助代理设备的IP;从格式可以看出,从客户端到服务器可以有多层代理。

如果一个HTTP请求在到达服务器之前经过三个代理Proxy1、Proxy2和Proxy3,IP分别为IP1、IP2和IP3,用户的真实IP为IP0,那么按照XFF标准,服务器最终会收到如下信息:

x-转发-针对:IP0、IP1、IP2

代理3直接连接到服务器,它会将IP2附加到XFF,表示它正在转发代理2的请求。列表中没有IP3,可以从服务器上的远程地址字段获取IP3。我们知道HTTP连接是基于TCP连接的,HTTP协议中没有IP的概念。远程地址来自TCP连接,表示与服务器建立TCP连接的设备的IP,在本例中为IP3。

3)HTTP_VIA

Via是HTTP协议中的一个头,它记录了HTTP请求通过的代理和网关。通过一个代理服务器后,增加一个代理服务器的信息,通过两个后,增加两个代理服务器。

1 代理类型

1) 透明代理(Transparent Proxy)

代理的配置如下:

远程_ ADDR=代理

HTTP _ VIA=ProxyIP

虽然HTTP_X_FORWARDED_FOR=YourIP透明代理可以直接“隐藏”客户端的IP地址,但它仍然可以从HTTP_X_FORWARDED_FOR中找到客户端的IP地址。

2) 匿名代理(Anonymous Proxy)

代理的配置如下:

远程_ ADDR=代理

HTTP _ VIA=proxyIP

HTTP _ X _ FORWARDED _ FOR=proxyIP

(=NationalBureauofStandards)国家标准局

p;

匿名代理能提供隐藏客户端 IP 地址的功能。使用匿名代理,服务器能知道客户端使用用了代理,当无法知道客户端真实 IP 地址。

3) 混淆代理(Distorting Proxy)
代理服务器的配置如下:

REMOTE_ADDR = Proxy IP
HTTP_VIA = Proxy IP
HTTP_X_FORWARDED_FOR = Random IP address

 

与匿名代理的原理相似,但是会伪装得更逼真。如果客户端使用了混淆代理,服务器还是能知道客户端在使用代理,但是会得到一个假的客户端 IP 地址。

2) 高匿代理(Elite  Proxy 或 High Anonymity Proxy)
代理服务器的配置如下:

REMOTE_ADDR = Proxy IP
HTTP_VIA = not determined
HTTP_X_FORWARDED_FOR = not determined

 

高匿代理既能让服务器不清楚客户端是否在使用代理,也能保证服务器获取不到客户端的真实 IP 地址。

4 代理的选择

普通匿名代理能隐藏客户机的真实 IP,但会改变我们的请求信息,服务器端有可能会认为我们使用了代理。不过使用此种代理时,虽然被访问的网站不能知道客户端的 IP 地址,但仍然可以知道你在使用代理,当然某些能够侦测 IP 的网页仍然可以查到客户端的 IP。

而高度匿名代理不改变客户机的请求,这样在服务器看来就像有个真正的客户浏览器在访问它,这时客户的真实IP是隐藏的,服务器端不会认为我们使用了代理。

因此,爬虫程序需要使用到代理 IP 时,尽量选择普通匿名代理和高匿名代理。另外,如果要保证数据不被代理服务器知道,推荐使用 HTTPS 协议的代理。

看完上述内容,你们掌握爬虫所需要的代理IP究竟是什么的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注行业资讯频道,感谢各位的阅读!

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/54430.html

(0)

相关推荐

  • 怎样使SQL用户只能看到自己拥有权限的库

    技术怎样使SQL用户只能看到自己拥有权限的库怎样使SQL用户只能看到自己拥有权限的库,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。以SQL Server 2

    攻略 2021年12月1日
  • mysql百万级数据统计(mysql百万级数据分组)

    技术Mysql百万级数据迁移的示例分析这篇文章将为大家详细讲解有关Mysql百万级数据迁移的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

    攻略 2021年12月20日
  • 怎么解决Java中Unexpected Exception报错问题

    技术怎么解决Java中Unexpected Exception报错问题这篇文章主要讲解了“怎么解决Java中Unexpected Exception报错问题”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的

    攻略 2021年11月16日
  • SQL如何限制查询结果

    技术SQL如何限制查询结果小编给大家分享一下SQL如何限制查询结果,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!SQL查询结果只显示指定的行项

    攻略 2021年11月11日
  • 把世故圆滑的人喻为什么,把足谋多智的人喻为什么

    技术把世故圆滑的人喻为什么,把足谋多智的人喻为什么7月31日 11:45 把混混噩噩的人喻为(糊涂虫)把世故圆滑的人喻为什么,把世故圆滑的人喻为(老油条),有专业知识的外行人为(门外汉 ),把技艺不精,勉强凑合的人喻为(

    生活 2021年10月29日
  • 怎样解析Java的异常处理机制

    技术怎样解析Java的异常处理机制这期内容当中小编将会给大家带来有关怎样解析Java的异常处理机制,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。你觉得自己是一个Java专家吗?是否肯定

    攻略 2021年10月23日