花虞HY跨境

      勿忘初心、回歸本質



      隨著在線業務的愈發發展壯大,越來越多的商家依賴線上電商業務,無論國內還是國外。

      線上業務最大的特點就是需要依賴各種渠道的流量去展開針對性營銷,亦或者說我們需要有一定策略性去獲取流量,只有有了流量,我們的線上業務才能有機會發展,有盈利。

      今天我就結合Brightdata的數據收集器data collector這個數據收集工具,來針對性分析,為什么電商需要數據收集、如何判斷收集來的數據真實準確?如何搭建自己的數據收集框架?等等。

      (本文8375字,閱讀時間20min)


      目錄:

      • 前言-簡說數字營銷核心【流量】

      • 什么是線上電商業務的數據收集?

      • 數據收集對于在線電商&用戶的影響?

      • 數據收集對于電商賣家有哪些好處?

      • 數據收集案例分享1-保險業

      • 數據收集案例分析2-Running Warehouse定價策略

      • 目前數據收集我們會遇到哪些問題?

      • 數據收集需要什么樣的代理基礎框架?

      • 數據收集成功的3個關鍵因素

      • 3個判斷訪客是真人還是機器的方式?

      • 解決網站審查屏蔽的3個解決方法


      相關鏈接索引:

      Brightdata官方注冊&中文經理服務鏈接:https://bit.ly/3DM8bH1



      前言-簡說數字營銷核心【流量】


      “流量為王”這四個字,對于電商來說,我想沒有人不認可的。


      但是流量分為泛流量精準流量我們實際需要的是精準流量,精準流量質量高轉化好,但獲客成本高;


      如何高效大量獲客轉化且能成本可控?這就需要我們能夠有邏輯性、計劃性地制定營銷計劃,那么這里又涉及到我之前文章所說的數字營銷的概念,不知道什么是數字營銷的,先看這篇文章:跨境獨立站-數字營銷入門導覽&思維拓展

      數字營銷的兩個核心:用戶和數據,只有把這兩個核心讀懂,才能真正掌握數字營銷

      數據對于我們精準獲客&營銷決策來說是至關重要的

      那么接下來,我就從數據相關的問題開始入手,循序漸進地帶領各位了解:




      01

      什么是線上電商業務的數據收集?

      首先我們明確一個概念:什么叫做數據收集data collection?

      簡單來說,就是通過程序收集目標網站中對我們有價值的信息,例如電商網站的話就是價格、產品、銷量、描述等等,這個收集信息的過程就叫做數據收集。

      根據我之前的示意圖,如果我們使用真實IP進行訪問并發出大量的請求,那么多次以往很容易被目標網站判定為機器人或者異常,并且做出一些防御性手段。所以這個時候,我們就需要借助代理IP來完成這項工作。

      通過不斷切換IP進行訪問,規避網站針對性封鎖限制。這里就有幾個關鍵點:基礎環境構架,大量的高質量IP,統一管理執行的IP管理工具等,具體詳細內容接著往下看:)


      數據收集對于代理IP的數量質量要求是比較高的,我們需要提前構建或者選擇適合的工具與代理IP來配合使用,所以這也是為什么我推薦Brightdata的代理IP并且使用官方以代理ip為基礎開發出來的數據收集器,來幫助我們的在線電商工作。


      首先我們先來了解一個問題,數據收集在日常生活中的運用以及對我們(用戶&商家)有什么影響:


      02

      數據收集對于在線電商&用戶的影響?
      • 我們以用戶的角度來看:

      互聯網時代,理論上來說每個用戶接收到的信息都是一樣的;

      但是隨著技術的發展,網站會通過多項數據因素識別收集用戶,例如IP、地理位置、使用設備、cookie等去標記區分用戶,從而讓每一個用戶都會獲得比較個性化的體驗。

      簡單的一個例子就是國內常見的大數據殺熟,不同的手機用戶機票報價不一樣,購物售價不一樣,這些就是很明顯的用戶數據“定制化”的體現。

      簡單的一個例子就是國內常見的大數據殺熟,不同的手機用戶機票報價不一樣,購物售價不一樣,這些就是很明顯的用戶數據“定制化”的體現。


      • 再以電商商家的角度來說

      在日常經營中,我們不僅需要監測自己網站的數據,同時也需要對競爭對手的網站進行監測,如果是能夠實時監控,那么我們就能在第一時間針對對方的變化來做出策略性優化。


      那在這個過程中,我們最容易碰到的問題,就是我們在設法獲取競對網站的數據時,因為一些技術,導致我們不能看到競爭對手最真實的信息,那么我們收集一堆虛假信息的話,對我們來說產生了不小的阻礙以及成本流失。





      • 對于注重版權的品牌方來說

      針對知識產權、版權等問題,他們經常需要去監控審查;

      然而下游零售商或者是一些仿牌侵權的商家為了銷量或者價格方面等等的規避,會在他們的網站中設置機器人通過IP檢測誤導或者封鎖品牌方的數據抓取爬蟲進入“安全頁”或者訪問失敗,而不是真正進入真實客戶能夠看到的頁面。

      所以如果我們沒有真實有效的獲取數據,那么就很難根據這些數據進行實時優化。(下圖是用戶看到的信息和品牌方看到的信息不一致)



      由此可見,是否能獲取真實且有效的信息對于我們來說,無論是用戶還是商家都至關重要。


      數據收集對于在線業務有什么好處?

      對于商家來說,目前數據收集主要有以下重要作用:

      • 更好的了解客戶(用戶畫像、行為習慣)

      • 設定最優價格

      • 緊跟市場潮流

      • 保護品牌隱私版權

      • 倉儲優化

      • 競爭對手數據分析

      • 新品市場調研

      • 等等


      這只是一個大概的舉例,可能還是有很多朋友不是太懂,到底數據收集的真實意義在何處,那么我這里舉兩個例子你就明白了。


      數據收集案例分析 1-保險業

      在2000年Jason Tan擔任澳大利亞最大保險公司之一的定價分析師,他們聘請了數十名“背包客”為他們手動收集數據,他們手動從競爭對手的網站上獲取成千上萬的保險代碼,之后精算師會對數據進行進一步分析,去探究競爭對手公司是如何為每個參考評級因素進行收費;

      (這里說的評級移因素指的是用戶的年齡、性別、財產所有等,這些基本的因素通常會構成客戶為保險支付的最終保費),所以Jason Tan利用這些數據通過模擬競爭對手向用戶收取多少費用以及內部的其他相關數據進行整合后會輸入到公司的定價優化平臺,確保能在客戶更新保單之前能夠生成最優的價格。


      在這個過程中不難看出,整個決策的主要參考依據之一,就是大量實時且真實的競爭對手數據信息

      當然,目前已經不需要請背包客來手動抓取數據了,Jason Tan借助了Brightdata的Data Collector以及Data Unblocker這兩個自動化工具,能夠快速實時高效地抓取到數據。

      正如他說的:Do not put you money on the table.

      什么意思呢,就是在有限的預算范圍內,將成本最大利益化,或者說通過一些方法,盡可能的減小不必要的開支,例如能夠自動化的就減少人工開支等等

      在上文中,Jason Ton招聘大量的背包客手動收集數據,通過精算師處理大量的數據,然而人工統計出決策難免會有一定的滯后或者出錯;

      隨著技術的發展,目前們已經能夠實現自動化執行這些復雜費工的任務了,不過這個不是我今天說的重點,那想要了解自動化執行數據收集以及自動化任務的相關內容,下一篇就是。


      數據收集案例分析 2-Running Warehouse運動鞋價格定價策略

      一個經銷品牌跑鞋的全球送貨的網站Running warehouse,他的競爭對手就是線下品牌實體以及線上品牌店。

      作為消費者來說,他們在購買前通常會訪問很多的網站,特別是能在不同平臺找到同款的時候,舉個例子,一雙adidas的跑鞋,在U這個網站上售價是$139.95;


      那么我們可以看下其地方的,例如adidas官網,售價是$140




      我們再來看下澳大利亞最大的零售網站Rebel的售價是多少?可以看到是$259.99




      最后我們來看看亞馬遜上的價格表現,在亞馬遜上是$215.7+$26.25的配送費,很明顯亞馬遜的價格是經過優化的,亞馬遜連上運費的報價,介于中等位置,這樣能夠是他們借助平臺的信任優勢獲得更多的訂單,同時,這個26.25美元的運費則是吸引用戶注冊Amazon Prime的最佳接口,因為只要成為Amazon Prime會員能夠體驗全年急速物流以及免運費。


      而且正常的報價來說,人為設置價格并不會以7這樣奇怪的數字結尾,這幾乎可以肯定是價格檢測優化工具的作用。




      綜上所述,running warehouse是幾個平臺中最便宜的,在價格方面他也是最具有優勢的。

      所以我們日常賣家在定價時,就需要收集數據,來參考判斷。


        在定價策略階段,如何能夠在同樣競爭力下,爭取到一個最高的價格獲得盡可能高的利潤,這些東西如果單純靠人為計算策劃,很難控制的精準,連上我之前說過數據收集問題,如此大的數據集、大的工程量和成本之下,我們肯定需要借助自動化的工具來協助我們實現需求;同時,也需要保障我們整個項目的穩定運行。



      基于這種需求,我們首先需要考慮的就是具備一個好的數據收集的基礎架構。

      那么我們目前遇到了什么問題,又是什么什么構成了數據收集的基礎架構?我們來看看:


      目前數據收集,我們會遇到的問題?

      隨著技術的進步,屏蔽技術越來越復雜;

      當我們訪問網站的時候,網站會根據IP、地理以及速度限制

      (爬蟲速率)以IP為基礎的區分主要是網站通過檢查IP類型來了解到底是正常用戶還是機器人在訪問網站;


      數據收集的流程和我們正常訪問網站的流程是一樣的,我們利用高質量的代理IP,讓自己這次請求完全偽裝成一個真實的用戶在訪問,唯一區別在于數據收集具有規模性、目的性、規則性。所以像brightdata能夠提供的代理IP,就是做數據收集比較好的選擇,而我之前教大家的日常的養號環境的搭建,其實也是基于這個原理的。

      所以我們需要一個高質量的代理基礎框架來支持我們做這件事情。

      (Brightdata官方注冊&中文經理服務鏈接:https://bit.ly/3DM8bH1)


      數據收集需要什么樣的代理基礎框架?


      我們要達成目的解決問題,就需要有一套完善的代理基礎架構

      代理基礎架構由以下3個方面構成:IP類型、規模配置、全球性覆蓋

      ?

      要素1.代理IP類型

      Brightdata的IP主要分為4個類型,足夠豐富,數量巨大,

      【數據中心、動態住宅、靜態住宅、移動IP】


      1.1 數據中心:
      一共有750萬個ip并且遍布全球95個國家,最大的優勢是只要你正確使用它,那么數據中心的ip是足夠便宜的,唯一的缺點就是ips池數量較少。

      1.2 動態住宅ip:

      目前總共擁有超過7200w個,基于Brightdata點對點的技術,它幾乎覆蓋了全球大部分的地方,有一個常識就是,任何大規模的代理操作都需要非常廣泛的代理全面覆蓋,所以Brightdata的住宅ip是不錯的選擇。基本每個月有700萬ip的增長。

      1.3 靜態住宅IP:

      算是住宅ip中真正靜態的IP,他們相當于Brightdata通過合法的手段從各個國家供應商中通過各種方式合作放入Brightdata中閑置托管的,其最大的好處就是足夠的穩定,且真實,但是他的缺點就是數量較為稀少。

      1.4 移動IP:

      就是海外真實用戶使用的手機設備上的IP,足夠真實,但是僅限于用戶閑置狀態時使用,所以每一個IP的存活時間都不一定。

        “我們想要實現這些方面的需求,就需要專業技術和資源作為支撐,但是一般的電商團隊或者說剛起步的獨立站賣家,是不具備專門聘請一個專業技術團隊的條件的;Brightdata(https://bit.ly/3DM8bH1)作為 全球最大的代理服務提供商,基于他龐大IP環境下的數據類產品,值得我們試一試。”


      要素2:數據收集的配置規模

      通常,我們的數據抓取量級不是以個算的,那么如果處于多個并發大量執行的數據收集任務中,就非常考量我們提供服務的平臺的承接管理能力。


      Brightdata能夠快速提供任意數量的代理,并且以不限額不限速的方式支持我們建立任意數量的同時并發的連接;


      所以如果你需要做一個非常大的行動,那么就需要有這樣的足夠數量和管理系統的代理供應商才能夠支撐你的行為。


      要素3:代理IP的全球性覆蓋

      我們如果需要全球性的電商數據收集,或者說針對某一個地區進行收集,那么勢必需要有這個地方的真實高質量IP;

      Brightdata中的IPs根據地理位置呃不同,都分別存放在不同位置的數據庫中,那么當我們使用不同地區的IP去訪問目標網站時,網站就會檢測這個行為的IP是從哪個國家地區來的.

      舉個例子,我們現在需要從使用美國的一個服務器來收集數據,


      那么當我的這個ip被檢測出來是一個數據中心ip,那么目標網站可能就不會以正常用戶來對待,如果我們只是單一的ip,那么很有可能很快就被阻止,然后這個數據中心ip以及在美國的服務器就會被劃分,那么接下來我們獲取的所有信息都會是以美國用戶的視角得來的,當然也有可能是網站針對這個IP設定的其他信息,那么如果我們需要其他的國家地區的能夠獲取的信息,那么就需要我們有其他國家的ip和服務器,這就需要我們有足夠數量和規模的IP。


      以上這三個點構成了數據收集的基礎構架,基礎構架之后,我們就需要了解,如何評判一個數據收集器收集是否成功?那么有以下3個關鍵因素:


      數據收集成功的3個關鍵因素


      首先我們要明白數據收集成功的3個關鍵因素

      1. 穩定高質量且多樣化的IP基礎環境;

      2. 自動功能強大的代理管理器;

      3. 主動&被動的指紋生態管理系統;

      那么如何評判這3個方面是否符合要求?我依次來講解:


      因素1:需要穩定高質量且多樣化的IP基礎環境



      對于穩定高質量且多樣化的IP基礎環境來說,4個核心因素決定數據收集的成功與否:


      【速度、規模、成功率、精確度】


      1.1 優質IP評判標準-速度:

      指的是什么?速度指的是訪問者發出請求返回的這個過程的時間,在各個網站之間是有差距的,這種差距主要來自于網站的基礎設施建設,有幾個方面來考量:


      • 是否收集的數據是實時的,如果基礎架構做的不好,那么或許響應會有一些延遲;

      • 是否能夠最大化利用現有資源的價值-花更少的時間更高的效率去進行收集數據的動作;


      舉個例子,當目標用戶進入多個網站在篩選價格產品的時候,結果某一網站請求返回的時間就超過了5分鐘以上,等待時間過長容易跳出,那么其實這個網站就已經失去了競爭力;


      1.2優質IP評判標準- 規模:

      針對規模有如下3個情況:

      • 對請求訪問的流量有一定的監控和管理,支持使用監控網站峰值:例如銷售旺季,以防流量過大,請求過多導致網站不能夠正常訪問,這在正常的數據收集中是不被允許的;

      • 始終保持數據收集的質量:在大量高頻次同時并發情趣運行數據收集的過程中,能夠始終數據質量;

      • 沒有最高限制:對于數據收集沒有過多的限制,理論上說只要能承受,規模是無上限的;


      1.3 優質IP評判標準- 成功率:

      成功率主要根據以下3個方面來進行考量:

      • 實時成功獲取準確的數據隨需隨取

      • 輕量構建和調試,我們作為電商賣家,肯定不愿意吧很多的精力放在數據基礎架構的維護和調試,我們需要余出更多的時間來做其他更加有價值的工作,那么brightdata的工程師們就將構建和長期維護作為他們的主要工作,我們只需要根據需求,簡單的操作,就能獲得高質量的數據。

      • 合理的價格:數據收集主要以流量和成功率來計算,那么成功率越高所需要支付的費用就會越低,如果抓的數據成功率只有50%,那么其實你所需要支付的成本是雙倍的。


      1.4 優質IP評判標準- 準確性:

      我認為準確性是4個核心中最重要的一個點,只有信息準確,那么前三點才你那個成立,否則你的整個數據分析、決策、定位、實施都是錯誤無用的

      光是獲取到信息或者抓到數據其實是不夠的,你需要確保抓取到的信息是準確的、真實的。舉個例子,正如我之前所說的經銷商或者仿牌亦或者一些電商公司,他們在不斷的更改信息、價格、策略,那么如果我們抓取到的是錯誤的信息,很有可能就會影響我們接下來的策略決定。



      因素2:自動功能強大的代理管理器

      如果我們需要支持大量的數據收集的工作,并且同時并發或者需要在其中設置不同的規則以及檢測規避一些問題,那么就需要一個自動化智能統一管理執行的管理系統,那么Brightdata的代理管理器就具備這些能力,除了能夠統一管理所有的代理IP,還能夠實現其他所有功能例如能夠解決下面的問題:

      • 識別禁令(Identify Bans)

      能夠檢測出多種類型的禁令,排除故障并且修復潛在問題。例如捕獲、重定向、封鎖、隱藏、重復錯誤、超時等等,那么如果代理管理器遇到這些問題,就可以使用不同的代理IP進行重試請求。


      • 管理用戶代理(UA)

      對于良性爬蟲是至關重要的,用戶代理能讓目標網絡識別出訪問IP的使用設備、操作系統等,以響應不同的界面,例如PC端和手機端,就是不一樣的。


      • 管理控制代理

      有一些爬取項目需要在同一個代理下保持會話,那么我們就需要使用代理管理器配置代理以同意這個情況。


      • 增加延遲

      隨機的延遲以及良性節流能夠有效掩蓋正在數據抓取的行動。


      • 地理位置定位

      有些時候我們需要設定某些特定地理位置的代理IP去訪問網站


      • 多種類型的線路

      通過使用不同類型的代理IP發送請求,自定義規則以獲得最具性價比的數據結果。


      • 減小帶寬

      使用代理管理器像正則表達式或者自定義規則以減少帶寬流量的產出。


      有關于這些問題的詳細介紹,我會在后天的數據收集&代理管理器配置及案例實操中,詳細講解為什么這些相關問題那么重要。。

      Brightdata代理管理器目前win系統只需要簡單的安裝,而mac或者linux系統也只需要簡單的配置就能使用,詳細的mac配置教程同樣我放在今天發布的第二篇的文章當中進行實操講解。



      因素3:主動&被動指紋生態管理配置系統

      目前的指紋技術能夠檢測到訪問者的真實使用情況,而我們在收集數據的過程中,如果比探查出來我們的真實身份其實是大大不利的,那么Brightdata的Data collector就能很好地解決這個問題,讓目標網站并不能檢測出我們究竟是誰,大多時候,會以真實用戶去對待我們的IP。


      具體的操作比較復雜,我就不深入去探討,因為我自己本身對于代碼和程序也是小白狀態,我們只需要明白原理即可。

      另外,Brightdata的工程師也提出了一些建議:


      數字指紋的常規原則

      1.我們首先要去了解目標網站請求到返回中各項信息,以統一請求的各個方面來達到模仿“目標”請求

      2.不要隨機更改屬性

      3.不要隨意的更改內容,不要增加額外的東西,只是正常的去查看,因為如果你增加一些日常正常流程中一般不會出現的行為,那么請求很容易被檢測到后被拒絕。

      綜合以上3點,我們大概率就能部署一個成功率較高且操作比較簡單的數據收集系統。


      當然,并不是說有了這些我們就能一本萬利,隨著技術在不斷迭代,網站屏蔽技術升級同時愈發復雜。但是目前主要還是按照以下3種方式,來對訪問者進行區分劃分后做出一系列的應對措施。這個我在上文也已經講過,這里在拉出來點一下:



      3個判斷訪客是真人還是機器的方式?


      • IP地址檢查

      • Geo地理位置

      • 速率限制(爬蟲速率)


      • IP地址檢查

      站首先會檢查這個訪問請求的IP類型是什么樣的,那就能確定到底是從什么養的環境來的,是機房IP,還是帶有cookie的還是說是住宅類型的還是說是真實的用戶訪問,那么移動端的用戶又會呈現出不同的響應效果,所以如果我們要獲取正確的信息,就要用正確的環境進入網站。


      • GEO地理位置

      這個其實是基于地理位置的一個數據庫,這個ip是從哪里來的,哪個國家的IP,那么根據這些網站所呈現的東西也會不同,例如語言、貨幣、價格、物流貨運政策等等,那么有很多信息會因為地理位置改變而改變。

      所以舉個例子,如果我想查詢最便宜的航班機票,那么就可以從不同的地理位置去查詢以篩選最便宜的票價;另外有一些網站可能對某一些地區國家的用戶不開放,同樣如果你用這些地方的IP進入訪問,那么大概率是會被阻止的。

      再比如我們在做一些廣告測試的項目,某些國家我是不想投放的,或者說某些音樂某些視頻在某些國家涉及到版權問題我需要單獨屏蔽出來,那么我們就需要用到代理IP去檢測,以確保我的廣告以正確的語言在正確的地理位置展示。


      • 速率限制(爬蟲速率)

      速度限制在開發初期主要目標是為了防止網站多種類型的攻擊,目前網站如果檢測到某一IP在短時間內大量爬蟲,一樣會采取封鎖的措施,那么這個時候我們使用代理管理系統以及IP基礎構架,在同一時間內通過智能輪轉的方式,進行訪問請求,這樣會很大程度上防止我們的請求被封鎖,因為如果一個IP被封鎖后,其余多個也被封鎖且被網站識別出來自同一個范圍的IP,那么在某一段時間內這一整段的IP都會被封鎖,可以說連帶其他在同一段的IP都有被封鎖的可能性,會給我們的數據收集操作以及其他方面造成比較巨大的干擾。


      解決網站審查屏蔽的3個解決方法

      首先針對這種情況,我們的解決方法就是:

      • 準備充足的IP池(建議設置比預估值多一點的數量。)

      • 盡可能經常都切換和輪換你的IP;

      • 保持測試和優化


      舉個例子,假如在測試階段,測試得出這個網站的屏蔽時長大概是3分鐘左右,那么我們可以設置規則,在2min30s的時候采取輪換新IP的措施;或者有一些非常嚴格的網站,那么我們就需要每一次請求就切換一次IP,所以我們盡可能多的做一些測試,抓住一些規律后,可以設置一些規則去有效規避或者說盡可能減少IP被封鎖的概率;



      當然,在使用Brightdata的時候,他們已經把大部分的IP進行調整,改組,所以即使有部分IP被封鎖,那么接下來的IP被關聯封鎖的概率幾乎為零。


      同時,Brightdata也有其他幾個工具配合數據收集器來進行使用,當你開始操作后,遇到封鎖情況,那么可以使用Brightdata的Data unblock這個工具,他的主要用處就是解鎖各種原因的封鎖情況,我們使用unblock之后99%能解。


        Brightdata推出了一個”100%可用時間“的政策,意思就是,當你在實施爬蟲的時候,由于該IP對應供應商出現一些特殊的問題例如斷電、調試等等,為了不影響爬蟲結果,那么Brightdata會直接置換響應數量正常運行的IP補充進IP池,以保證這次爬蟲的正常運行;(有關于IP池輪轉是什么時候會進行輪轉,我們可以自行設置規則)。


      所以綜上所述,通過案例分析我們可以明白數據收集分析對在線電商的重要性和必要性,同時,本文也比較詳細和明確的講解解釋了有關于數據收齊器的基礎要求、條件等,其實對于一個無代碼基礎的賣家來說,這種借助現有工具來直接進行操作的,是最有利的。能夠大大減少我們的成本開支。

      那至于數據收集方面更加深入的玩法,我后期會在會員區或者后面的文章中進行分享,敬請期待!


      相關閱讀:

      Brightdata入門-環境搭建&自動化數字營銷工具推薦

      高端養號環境搭建指南-Brightdata+Adspower(第2版)【手把手圖解跨境獨立站指南】


      微信號 | huayukuajing8888

      花虞:原創跨境撰稿人

      跨境獨立站培訓、運營陪跑、

      FB賬號、海外戶開戶、虛擬卡


      點贊(3) 打賞

      評論列表 共有 0 條評論

      暫無評論

      服務號

      訂閱號

      備注【拉群】

      商務洽談

      微信聯系站長

      發表
      評論
      立即
      投稿
      返回
      頂部