花虞HY跨境 勿忘初心、回歸本質 今天我來分享如何使用Brightdata的代理IP以及如何設置代理管理器Proxy Manager,如何配置、設置規則、以及有關于社交媒體自動化的一個導覽。 代理不僅用于匿名,同樣也可以使用代理在社交媒體或者其他網站上進行數據抓取和自動化任務執行,例如自動發送請求,自動點贊評論。 使用代理,我們可以繞開網站關于地理等封鎖,以正常用戶的角色在目標網站中獲取真實的信息,或者執行自定義任務,例如點贊、關注等 接下來,我將會使用Brightdata來演示如何通過brightdata的代理在無代碼環境下如何實現數據抓取以及自動化。 (全文4473字,如果沒有Brightdata基礎,建議先收藏看完基礎再來?。?strong>
目錄:
什么是代理IP?
為什么使用代理IP進行社交媒體的數據爬取&自動化執行?
代理如何配合網站抓取數據收集&自動化執行?
我們需要多少代理IP來進行數據收集或自動化
如何在Brightdata中創建設置代理IP?
設置代理管理器Proxy Manager來統一分規則智能管理所有代理IP
Proxy Manager針對不同功能需求的規則設置指南
社交媒體自動化簡單舉例
相關鏈接:
Brightdata官網&中文經理對接專屬注冊地址:
Brightdata官方注冊&中文經理服務鏈接:https://bit.ly/3DM8bH1
代理IP就是代理服務商提供給我們的IP地址,能夠在我們訪問目標網站時匿名我們的真實用戶IP;同時,我們想要抓取某個站點時,他們也不會檢測到我們的真實IP以做出封鎖或者誤導的舉措。
當你對目標網站進行大規模數據爬取時,使用代理就可以匿名
一個優質的代理服務商不僅能夠提供你需要的IP地址,還能提供一個綜合的代理管理器,讓你在沒有任何代碼的情況下也能有效的使用數據爬蟲去進行抓取以及管理。
?
3個核心原因:
隱藏本地真實使用IP
繞過地理封鎖
有效控制在目標網站上的速率限制問題
這樣的操作也有利于保護用戶個人信息,并且保證數據抓取的真實程度,同時針對地理封鎖,舉個例子,或許在某些國家某些廣告是侵權的,但是在其他國家正常,那么如果你用當地IP去收集數據,那么這些侵權廣告將會被屏蔽,而如果你用其他地區的IP去抓取,這些廣告又會展示出來。
另外一方面,如果你想在單個站點上抓取數千個網頁,單純只用一個或者少量IP發出過多的請求如果被網站檢測到,那么他們就會采取限速或者是其他封鎖的舉動,所以為了防止這種情況的出現,我們需要使用Brightdata的代理管理器,運用大量的代理IP,設置一定的規則,將請求均勻的分配給這些代理代理IP,這樣目標網站只能看到單個IP僅有少量的請求,從而避免被限制。
?
大型的網站一般都會采取很多的方式監控并限制阻止抓取,所以如果我們需要在這些網站上抓取數據,那就必須以智取勝。
我們在實際操作中經常會遇到以下的情況:輪轉代理IP(Proxy Rotation),應對被禁止Ban,節流會話(Throttling),會話管理(Session Management),減少帶寬(Ruduce Bandwidth)、SSL可視化(SSL Decryption)、黑名單(Blacklisting)等等。
Brightdata的代理管理器(https://bit.ly/3DM8bH1)就能夠完全覆蓋這些問題,
識別禁令(Identify Bans):能夠檢測出多種類型的禁令,排除故障并且修復潛在問題。例如捕獲、重定向、封鎖、隱藏、重復錯誤、超時等等,那么如果代理管理器遇到這些問題,就可以使用不同的代理IP進行重試請求。
管理用戶代理(UA):對于良性爬蟲是至關重要的,用戶代理能讓目標網絡識別出訪問IP的使用設備、操作系統等,以響應不同的界面,例如PC端和手機端,就是不一樣的。
管理控制代理:有一些爬取項目需要在同一個代理下保持會話,那么我們就需要使用代理管理器配置代理以同意這個情況。
增加延遲:隨機的延遲以及良性節流能夠有效掩蓋正在數據抓取的行動。
地理位置定位:有些時候我們需要設定某些特定地理位置的代理IP去訪問網站
多種類型的線路:通過使用不同類型的代理IP發送請求,自定義規則以獲得最具性價比的數據結果。
減小帶寬:使用代理管理器像正則表達式或者自定義規則以減少帶寬流量的產出。
?
代理池的大小取決于很多的因素,我們主要考量以下方面:
1.首先計算每小時預計發出的請求數量,通常每個小時每個代理發送500個請求左右不太容易引起注意。
2.根據目標網站來進行考量,越大的網站會有更多的反機器人措施,所以我們需要更大的代理池
3.根據你需求的代理類型來考量(數據中心、動態住宅、靜態住宅、移動IP)
4.根據你項目的復雜性來考量具體代理池的大小,例如代理輪轉,減小帶寬等等,這些因素對代理池的質量和有效性都有很大的影響
?
?
進入Brightdata(https://bit.ly/3DM8bH1):在側邊欄中找到代理通道,點擊頁面中的創建通道。
進入頁面,如果我們是養號,那么直接選擇靜態住宅IP即可,如果是數據抓取,那么就根據我們的數據需求來選擇相應適合的代理。
最新的是右上方可以輸入你想要爬取的網站域名,系統會給你推薦適合的,不過一般我們自行選取即可。
一般如果網站阻止或者封鎖后,我們就需要選擇Web Unlocker亮網絡解鎖器,常規來說網絡解鎖器用的也是住宅IP,同時解鎖率能夠達到100%。
使用網絡解鎖器的優勢在于:
能夠解決驗證碼的問題
能夠捕獲處理標記的變化
自動重試
那么接下來我們就需要進一步設置,通道名稱這個時候可以直接設置成域名,這樣便于分辨;
另外獨享的IP組意味著你創建這個通道后能夠獲得一組專屬于你的IPS供你一個人使用,這其中的所有IPs都沒有任何人使用過在你的目標網站。
最后選擇授權是否需要定位到更加細化的地理位置等,最后點擊創建通道,zone創建成功。
zone創建后,我們需要使用代理管理器來創建端口以及設置代理管理器的規則。
?
代理管理器很多很好的功能:
例如整個流量日志的實時預覽;
用于分割貸款流量的統計規則以及可以自動重試失敗請求的成本優化規則;
調整header和ssl指紋的方法;
代理輪轉以及會話管理等等;
當然,如果本地安裝代理管理器覺得速度慢,占用空間。也可以使用Brightdata提供的云代理管理器或者將代理管理器配置與vps里。
Win和Mac、Linux的安裝方式不一樣,win直接下載安裝包即可,而mac則需要跟隨向導進行安裝,
有關于mac的安裝方法我著重講一下:
1.在Mac上打開“Terminal”

2.我們輸入
curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash
或者
curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash
這兩個安裝腳本中的一個,即可,如果兩個都不行,那么只能手動安裝,
大概需要花費10分鐘的時間運行后,我們復制中間的URL到瀏覽器中,進行代理管理器后臺的登錄
然后我們需要為剛剛創建的通道創建一個新的端口,點擊右上角的Add New Port
端口指的是電腦上特定虛擬位置的數字,然后我們在通道的地方選擇我們剛剛創建的那個zone。然后一路點繼續,這個端口就創建成功了。
我們點擊創建好的post,進入設置頁面,選擇定位,我們可以自行設置國家、州、省等
然后我們來到IP control這個選項中,找到DNS lookup,這里有兩種選項,一個是“Local(dafault)-resolved by super proxy”,這個選項會讓我們的本地速度加快,更適合于養號的時候開啟;
那如果我們現在要進行的是數據收集,就選擇“Remote-resolved by peer”,這個選項會讓我們有更高的匿名性
我們還會把Session Terminaation這個選項打開,如果不能打開,先到設置里講SSL Analyzing打開,這樣做的意義在于當這個IP無效時,就會停止發送重試請求,這對于社交媒體賬號是非常重要的,因為在登錄社交媒體賬號的過程中更改IP對于賬號來說是非常不利的。

我們可以看到代理池大小和輪轉ips都是被禁止的狀態,而且我們也點不動,這是因為我們上面預設選擇的是“Long Single session(IP)(default)”長單一會話模式,這種模式最適合的就是社交媒體或者是自動化會話,因為在會話期更換IP會容易跳驗證或者是被檢測到異常。
如果你需要輪轉IP,那么就選擇第二個選項“Rotating(IPs)”,這樣的話你就能打開下面的滑塊了,并且設置IP池的大小。
在這情況下,你可以在不登錄的狀態下抓取社交媒體賬號或者是電子商務網站的數據。
那么我們在對于社交媒體賬號相關的時候,一般還是選擇長單一會話模式
接下來我們來看看
URL:指的是在特定的url觸發,當你想從數據中心切換到住宅或者移動IP時可以使用這個觸發器(特定url觸發行為)
Status code:在請求響應的特定頁面上的url狀態代碼,就像你可以選擇200/403/404/500等等響應正文
Response body:正文觸發器,在html響應正文包含使用正則表達式的指定字符串時,它將掃描正文以查找指定此觸發器的字符串用于捕獲問題。
至于下面的兩個請求的時間大于或者小于的規則,則是可以設置響應時間毫秒,例如禁止慢速ips或者快速的。
我們選擇了任意一個觸發器后,就需要選擇一個action動作。
對于URL觸發來說,action有以下幾種方式:
舉個例子:來設置一個規則去重試當一個新的IP狀態是顯示403
403又叫做錯誤代碼,這意味著通道入口被拒絕,我們一般可以通過更換新的IP來解決這個問題。
要設置這個觸發器,我們需要選擇狀態代碼status code這個選項,狀態代碼選擇403,下面的動作我們選擇以一個新IP重試。而重試次數我們自己設置即可。
如果我們不想用同樣類型的IP,那么我們可以選擇以新的代理端口進行重試,這意味著我們可以選擇其他類型的代理IP,從不同的端口發送同樣的請求,以測試實現數據收集的最優成本。
當然,這里的新端口我們需要在Brightdata通道管理中提前開好,就可以選擇了。
另外一個例子就是我們想要設置減少帶寬的有效方法是使用正則表達式,通過選擇列出的文件格式,它將從請求中刪除選定的文件格式,并且響應會更輕
另外一個節省數據抓取的重要規則就是剛開始的時候我們選擇使用數據中心IP.根據后期的一個反饋再考慮是否切換到住宅或者移動IP這種成本比較高的代理。這可以通過設置URL的觸發器來實現,
選擇觸發器為URL,輸入觸發的url網址,然后選擇動作是”選擇一個新的端口重試“
以上就是我對代理管理器的一個大致的講解以及設置方面的介紹。
那么很多人就問,這種代理IP具體在社交媒體中的用處是什么呢?
其實有很多方面,我們不僅可以使用代理IP收集數據,同樣的我們也能用他們進行一些自動化的功能操作,當然這些還需要配一些第三方的功能軟件才能很好的去使用,
舉個例子,我們使用Brightdata的靜態住宅養facebook的賬號,然后在此環境下,運行自動化和facebook好友群發信息的功能。例如群發廣告等等,那么這樣,極大地減少了人工操作的成本和時間。
就比如下面這個平臺的,首先我們在我們搭建好的養號環境中,登錄我們的賬號,這個腳本會自動抓取在同瀏覽器已經登錄的facebook的cookie進行登錄。
第二步我們設置我們需要群發的信息,設置相關想要發送的東西
并且在上面批量上傳我們需要群發的facebook用戶的個人主頁鏈接。
之后下一步就會開始運行,系統也會記錄整個流程運行的問題,
那么可以看到,我最后運行失敗,facebook賬號跳了驗證,就是因為這個整個過程我是直接在電腦上,并沒有在一個純凈隔離的IP環境去登錄這個賬號,所以導致fb查到異常而封號。
這也是為什么我一直在強調代理IP的重要性。
更多深入的玩法,后期我在會員專區會專門去介紹能夠配合Brightdata一起使用的一些第三方的數據收集軟件,不需要代碼,同樣也能獲得數據并且執行一些我們的需求功能,敬請期待~
無人獨立站(Unmanned Simulative Website)的Begin Again
【營銷干貨】獨立站賣家如何通過聯盟營銷Affiliate提升品效,實現流量破圈?
有效發掘Niche為何能讓個人小團隊輕松實現月入萬刀-跨境獨立站數字營銷思維拓展
關于Facebook的BM企業認證、網域解綁、廣告賬戶像素創建等系列問題的Step by Step解決實操步驟詳解
911S5+AdsPower配置網絡環境指南/淺談FB商城怎么玩?
17個方面詳解如何使用Tiktok Ads+Tiktok Shop正確拓展獨立站流量(手把手圖解版)
看完閉眼玩轉Tiktok英國跨境小店-超全操作指南(2022新春版)
Brightdata代理IP創建、代理管理器規則配置&自動化簡述指南

微信號 | huayukuajing8888
花虞:原創跨境撰稿人
跨境獨立站培訓、運營陪跑、
FB賬號、海外戶開戶、虛擬卡
文章為作者獨立觀點,不代表DLZ123立場。如有侵權,請聯系我們。( 版權為作者所有,如需轉載,請聯系作者 )

網站運營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個互相交流的平臺和資源的對接,特地開通了獨立站交流群。
群里有不少運營大神,不時會分享一些運營技巧,更有一些資源收藏愛好者不時分享一些優質的學習資料。
現在可以掃碼進群,備注【加群】。 ( 群完全免費,不廣告不賣課!)