擷取網站大數據,助你進行投資、開拓市場及分析對手

by | 五月 10, 2018 | 文章 | 0 comments

這是大數據時代

數據年代來了,有大公司開始分析儲下來的大量用戶及營運數據,為公司作出新的決策,帶來數以億元計的盈利增長。《哈佛商業評論》將之譽為「21 世紀最性感工作」 [1],大企業會擺出優厚薪金及待遇去聘請這方面的人材。

其實有很多類型的大數據均是由人的活動而產生,例如淘寶、Amazon、Google 等,均記錄了大量用戶的網頁瀏覧數據、購買數據、喜好收據等,這些數據一旦能被分析理解出來,便可以用來引導或改變用戶的行動。

你可能會認為大數據只有專業人士才能運用,但其實不論你的職業如何,但也可以不用成本,獲取藏在互聯網的數據,供我們分析,尋找獲利機會。

 

你也可以收集數據去進行分析

我們每一天都會接觸不同的互聯網平台,有些是提供資訊的網站(例如:aastocks、中原地產、100毛),有些是用戶會互動參與的網站(例如:facebook、Uwants 討論區等等)。

這些散布在網絡上的資料,都是免費及大量的,我們若能有系統地將內容擷取下來,進行分析,有機會幫助我們進行生意、工作或投資的決策。例如:討論區上某些標題用字出現的頻率、資產股票價格的走勢,都有機會反映出對你有用的情報。

但是數據的數量多到讓你頭痛,如果以人手去處理複製及儲存在電腦上,可能也要花上幾個月,甚至數年的時間。你應該在有能力動手去分析數據之前,就已經失去耐性而放棄了。

請放心,我們可以利用電腦程序,協助我們解決如此耗時及重覆性高的數據挖掘工作。

 

使用網路資料爬蟲(crawler),自動化收集數據

網站的數據都是遵守一定的格式表達出來的,當我們知道所需要的資料格式後,我們可以利用python 的Selenium 工具,利用電腦自動將數據收集起來。

電腦是你忠實的員工,他可以一天24小時不停運作,你只需要對員工下達清晰的工作命令(編程),他就會準確無誤的執行起來。你可以免除枯燥沈悶的資料搜集的過程,直接進入分析工作。

 

胸部大的人消費力高?淘寶數據分析的有趣例子

數據收集下來,我們可以透過比較數據的方式,去發現新資訊,去優化我們的投資或經營決策。

例如淘寶在2014年時,公布一個有趣的發現,他們針對內衣數據進行分析,將罩杯從A到F的女性,按照淘寶設定的低、偏低、中、偏高、高的五檔消費能力分類。

他們發現A罩杯的女生消費能力位於平均水平,從B罩杯開始,罩杯越大,高消費人群佔比越來越多,偏低消費的人數佔比則越少。值得注意的是,在B罩杯的消費群體中,其中9成以上都處於中低的消費水平。而G罩杯的姑娘中,8成以上都處於中高消費水平。

偏低消費能力,從B – F罩杯,偏低消費群分別佔比 (B) 64.9%,(C) 21.1%,(D) 14.1%,(E) 12.8%,(F) 7.6%。

在高消費群體,其佔比則為 (B) 0, (C) 4.5%, (D) 5.9%, (E) 7.1%, (F) 6.9%。

而在偏高消費群,其佔比則分別為 (B) 7.0%,(C) 12.1%,(D) 17.9%,(E) 26.7%,(F) 24.5%,

淘寶獲得這樣的數據後,可以向大罩杯的用戶推送更多商品,促成更多交易。同時,淘寶也可以改變小罩杯的用戶的廣告內容、用戶介面等,去開發這個人群市場。

 

想開始搜集你的數據,開始你的個人數據分析旅程?

HKLEx 大數據學院 (Maker Hong Kong)將會舉辦的 “Python 大數據採集培訓課程”, 學習在網路上快速及自動化的數據採集捷徑,在不同網站上收集各類你所需要的數據,例如酒店價格、股票價格、房產價格等等,協助你進行投資、市場及對手分析。

還有免費的試聽活動,歡迎大家參加!

課程資料:

Python 大數據採集培訓課程– 一起學會搜集網上數據!

 

參考資料:

[1] Data Scientist: The Sexiest Job of the 21st Century