在 Internet 世界中,客戶端的 IP 位址是唯一的,因此目標將使用 IP 位址作為客戶端的標識。
通常,目標**的伺服器會判斷是否從同乙個IP位址傳送頻繁的請求,如果訪問速度過高或訪問次數過高,會對IP位址進行反爬蟲訪問限制。
因此,我們需要**ip來協助我們的工作。 在本期《百科》中,我們將梳理出 Python 中使用 **IP 的 4 種方法。
Python 中最基本的網路請求是使用 urllib 模組,我們可以用它來使用 **IP。 使用 urllib 時,我們需要使用 ProxyHandler 類來處理資訊,如下所示:
在上面,我們使用 proxy IP 來設定 IP,使用 proxyHandler 來構造處理器物件,使用 Build Opener 來構造乙個自定義的 Opener 物件,使用 Opener 物件來發起請求。 如果需要設定 https**ip,只需將"http"相反"https"能。
Python 中最常用的網路請求模組是請求,因為它非常易於使用和方便。 我們也可以用它來使用 IP,如下所示:
在上面,我們還使用代理 IP 來設定 IP,使用代理來設定資訊,並使用請求get 方法發起請求。 如果需要設定 https**ip,只需將"http"相反"https"能。
在某些情況下,我們需要使用 Selenium 來模擬瀏覽器操作。 在這種情況下,我們也可以使用 **ip。 **下面:
在上面,我們使用代理 IP 來設定 IP,使用 add 引數方法來設定資訊,並使用 WebDriverChrome 建立瀏覽器物件。 如果需要設定 https**ip,只需將"http"相反"https"能。
在實際的爬蟲開發中,我們通常使用 Scrapy 框架進行快速開發。 Scrapy 框架自帶 IP 設定功能,我們只需要在設定中設定即可您可以在 py 檔案中新增以下配置:
在上面,我們使用 RandomProxyMiddleware 來設定 IP。 在中介軟體中py檔案,我們需要自定義randomProxyMiddleware類,如下所示:
在上面,我們使用了一種稱為 Get Random Proxy 的方法來獲取 IP,使用 Requestmeta['proxy'] 設定 IP。如果需要設定 https**ip,只需將"http"相反"https"能。
Python 爬蟲有很多使用 **IP 的場景,並且有很多方法,每種方法都有自己的優點。 您必須根據需要選擇不同的方式。