來源:智優營家 發布日期:2018-11-23 關注:3357
11月22日,既是小雪節氣又是感恩節,再四舍五入一下這日子已經逼近年關,這關口不得不提一個“火車票預售”的話題。
每年的12306的驗證碼都會成為自媒體者調侃的對象,比如之前大火的要選擇“白百合&王珞丹”。
為啥12306會搞出這么“坑爹”的驗證碼?實際上,就是為了防止“惡意”爬蟲。(也可以看看淺黑科技在搜狐平臺發布的《我收到一份中國圖鑒》文章)
一:爬蟲是什么?
爬蟲就是一個探測機器,它的基本操作就是模擬人的行為去各個網站溜達,點點按鈕,查查數據,或者把看到的信息背回來。就像一只蟲子在一幢樓里不知疲倦地爬來爬去。
但是,爬蟲也分善惡。
像百度這樣的搜索引擎爬蟲,每隔幾天對全網的網頁掃一遍,供大家查閱,各個被掃的網站大都很開心。這種就被定義為“善意爬蟲”。
但是,像搶票軟件這樣的爬蟲,對著12306每秒鐘恨不得擼幾萬次。12306并不覺得很開心。這種就被定義為“惡意爬蟲”。(注意,搶票的你覺得開心沒用,被掃描的網站覺得不開心,它就是惡意的。)
給你看一張圖:
這張圖里顯示的,就是各行各業被爬“叨擾”的比例。(注意,這張圖顯示是全世界,不是全中國。)而每一個色塊背后,都是一條真實而強大的利益鏈條。
二:接下來我們來聊聊爬蟲的騷操作了
1、出行
出行行業中爬蟲的占比最高(20.87%)。在出行的爬蟲中,有89.02%的流量都是沖著12306去的。
我們說回到“白百合&王珞丹”驗證碼。
這些東西不是為了故意難為老老實實賣票的人的,而恰恰是為了阻止爬蟲(也就是搶票軟件)的點擊。剛才說了,爬蟲只會簡單的機械點擊,它不認識白百何,所以很大一部分爬蟲就被擋在了門外。
你可能會說,不對啊,我現在還可以用搶票軟件搶到票啊。
沒錯。搶票軟件也不是吃素的。 它們在和12306搞“對抗”。
有一種東西叫做“打碼平臺”,你可以了解一下。
打碼平臺雇傭了很多叔叔阿姨,他們在電腦屏幕前不做別的事情,專門幫人識別驗證碼。那邊搶票軟件遇到了驗證碼,系統就會自動把這些驗證碼傳到叔叔阿姨面前,他們手工選好哪個是白百何哪個是王珞丹,然后再把結果傳回去。總共的過程用不了幾秒時間。
當然,這樣的打碼平臺還有記憶功能。如果叔叔阿姨已經標記了這張圖是“鍋鏟”,那么下次這張圖片再出現的時候,系統就直接判斷它是“鍋鏟”。時間一長,12306系統里的圖片就被標記完了,機器自己都能認識,叔叔阿姨都可以坐在一邊斗地主了。
你可能會問:為什么12306這么摳呢?它大方地讓爬蟲隨意爬會死嗎?
答:會死。
你知道每年過年之前,12306被點成什么樣了嗎?公開數據是這么說的:“最高峰時1天內頁面瀏覽量達813.4億次,1小時最高點擊量59.3億次,平均每秒164.8萬次。”這還是加上驗證碼防護之后的數據。可想而知被攔截在外面的爬蟲還有多少。
況且這里還沒有討論,被搶票軟件把票搶走,對我們父母那樣的不會搶票的人來說,是不是公平呢?
鐵路被爬蟲“點雞”成這樣已經夠慘了,但它還有個難兄難弟,就是航空。
而航空里,被搞得最慘的不是國航,不是海航,也不是東航。而是亞航。
看看航空類爬蟲的分布比例
很多人可能都沒坐過亞洲航空。這是一家馬來西亞的廉價航空公司,航線基本都是從中國各地飛往東南亞的旅游勝地,飛機上連礦泉水都得自費買,是屌絲窮X度假之首選。
為什么爬蟲這么青睞亞航呢?因為它便宜。確切地說,因為它經常放出便宜的票。
本來,亞航的初衷只是隨機放出一些便宜的票來吸引游客,但這里面黃牛黨是有利可圖的。
據我所知,他們是這樣玩的:
技術宅黃牛黨們利用爬蟲,不斷刷新亞航的票務接口,一旦出現便宜的票,不管三七二十一先拍下來再說。
亞航有規定,你拍下來半小時(具體時間記不清了)不付款票就自動回到票池,繼續賣。但是黃牛黨們在爬蟲腳本里寫好了精確的時間,到了半小時,一毫秒都不多,他又把票拍下來,如此循環。直到有人從黃牛黨這里定了這個票,黃牛黨就接著利用程序,在亞航系統里放棄這張票,然后0.00001秒之后,就幫你用你的名字預定了這張票。
“我是中間商,我就要賺差價!”這波騷操作,堪稱完美。
2、社交
社交的爬蟲重災區,就是你們喜聞樂見的微博。
給你看張圖:
這是爬蟲經常光顧的微博地址。
這里的代碼其實指向了微博的一個接口。它可以用來獲取某個人的微博列表、微博的狀態、索引等等等等。
獲得這些,能搞出什么騷操作呢?
你想想看,如果我能隨心所欲地指揮一幫機器人,打開某人的微博,然后刷到某一條,然后瘋狂關注、點贊或者留言,這不就是標準的僵尸粉上班兒的流程么...
還有更騷的么?有的。
你家愛豆不是經常在微博上發紅包么?好的,我率十萬僵尸粉去搶。
憑本事搶來的紅包,就問你有什么不妥嗎?
除了這個,還有“果姐”(公眾號ID:HUGO)在《吳亦凡造假,他們才是受害者》一文中說:微博號稱3億用戶,結果關注安吉拉大寶貝的用戶1個億,關注楊冪的差不多1個億,還有1億人幫蔡徐坤在轉微博。
這些數據哪來的?結合爬蟲想想吧~我就不多說了。
3、電商
你回憶一下,有幾種東西叫做“比價平臺”“聚合電商”和“返利平臺”。他們大體都是一個原理:
你搜索一樣商品,這類聚合平臺就會自動把各個電商的商品都放在你面前供你選擇。有淘寶、京東,還有唯品會蘇寧易購。
這就是爬蟲的功勞。它們去淘寶上,把胖次襪子杜蕾斯的圖片和價格統統扒下來,然后在自己這里展示。
這個原理和搜索引擎差不多。只不過他們展示的不是網頁而是商品。 但是被放在一起比價,淘寶是拒絕的,京東也是拒絕的啊。
然鵝,由于機器爬蟲模擬的是人的點擊,電商很難阻止這類事情發生。他們甚至都不能向12306學習。
你想想看,如果你每點開一個商品詳情,淘寶都讓你先分辨一次白百合和王珞丹,你肯定沒心情剁手,沒準還要提刀去剁馬云呢。
4、搜索引擎黑帽
注意到我們智優營家在官網上寫的seo優化優勢嗎?——人工白帽手法。
白帽手法會根據搜索引擎的喜好,將網站進行調整修改,甚至還會要求重新做網站來符合搜索引擎的算法(里面包含了點擊次數、內容質量、網頁結果、代碼結構等等很復雜的東西),讓善意“爬蟲”去掃網站并把它搬運出來,給用戶去展現看。
而黑帽是造假,邊說“走過路過別錯過,這里都是高質量內容很多用戶喜歡看啊,我們點擊可高啦!”,邊把“爬蟲”騙過來搬運,于是看自己的網站排名三天之內甚至是一天,嗖嗖往上漲排到首頁了。
你覺得可以停了,不用做“優化”了,結果排名又嗖嗖往下掉——這還是結果比較好的,如果用人工白帽手法就不用擔心這類問題(除開搶的特別兇的核心詞哈~);
還有的運氣不好,被查出來,那網站基本上就涼了,這個域名都別想再用。
今天的課堂超時了,不過音樂老師請假,大家好好復習吧,啊哈哈~
熱門推薦
關注智優