數據分析很難學?60天就夠了

大數據2019-03-19 18:10:29


無處不在的數據分析


谷歌的數據分析可以預測一個地區即將爆發的流感,從而進行鍼對性的預防;淘寶可以根據你瀏覽和消費的數據進行分析,為你精準推薦商品;口碑極好的網易雲音樂,通過其相似性算法,為不同的人量身定製每日歌單……


數據正在變得越來越常見,小到我們每個人的社交網絡、消費信息、瀏覽數據……,大到企業的銷售、運營數據,用户數據,交通網絡數據……


如何從海量數據中獲得別人看不見的知識,如何利用數據來武裝營銷工作、優化產品、用户調研、支撐決策,數據分析可以將數據的價值最大化。


那麼,小白如何快速獲得數據分析的能力呢?知乎上有很多書單,你可能也聽過很多學習方法,但嘗試過就知道這些跟高效沒什麼關係。



01 數據分析師應該具備哪些技能


要明確學習的路徑,最有效的方式就是看具體的職業、工作崗位對於技能的具體需求。


我們從拉勾上找了一些最具有代表性的數據分析師職位信息,來看看薪資不菲的數據分析師,到底需要哪些技能。



其實企業對數據分析師的基礎技能需求差別不大,可總結如下:


  • SQL數據庫的基本操作,會基本的數據管理

  • 會用Excel/SQL做基本的數據分析和展示

  • 會用腳本語言進行數據分析,Python or R

  • 有獲取外部數據的能力,如爬蟲

  • 會基本的數據可視化技能,能撰寫數據報告

  • 熟悉常用的數據挖掘算法:迴歸分析、決策樹、隨機森林、支持向量機等



02 尋找最合適的學習路徑


最高效的學習路徑是什麼樣的?


你一定要清楚的是,你想要達到的目標是什麼?如果你想利用數據分析的方法來支撐工作決策,那麼你可能需要知道數據分析的流程是什麼,通過數據分析的方法能獲得哪些信息,這些信息可以用來支撐什麼工作。


然後你需要知道要達到這樣的目的,需要哪些必備的技能,哪些是不需要學習的。其實在這個過程中你對知識的框架就有了大概的瞭解,並知道如何去避免無效的信息。


更重要的是,你需要了解,完成一個數據分析項目,基本的流程是什麼。這樣你才知道學習的知識,在具體的工作中是如何應用,並能夠在學習之後進行鍼對性的訓練,做到有的放矢。



03 數據分析的工作流程


1. 定義問題


在做具體的分析前,你需要確定要分析的問題是什麼?你想得出哪些結論?


  • 比如某地區空氣質量變化的趨勢是什麼?

  • 影響公司銷售額增長的關鍵因素是什麼?

  • 生產環節中影響產能和質量的核心指標是什麼?

  • 如何對分析用户畫像並進行精準營銷?

  • 如何基於歷史數據預測未來某個階段用户行為?


問題的定義需要你去了解業務的核心知識,並從中獲得一些可以幫助你進行分析的經驗。


2. 數據獲取


有了具體的問題,你就需要獲取相關的數據了。比如你要探究北京空氣質量變化的趨勢,你可能就需要收集北京最近幾年的空氣質量數據、天氣數據,甚至工廠數據、氣體排放數據、重要日程數據等等。


如果你要分析影響公司銷售的關鍵因素,你就需要調用公司的歷史銷售數據、用户畫像數據、廣告投放數據等。


數據的獲取方式有多種。


一是公司的銷售、用户數據。可以直接從企業數據庫調取,所以你需要SQL技能去完成數據提取等的數據庫管理工作。比如你可以根據你的需要提取2017年所有的銷售數據、提取今年銷量最大的50件商品的數據、提取上海、廣東地區用户的消費數據……,SQL可以通過簡單的命令幫你完成這些工作。


第二種是獲取外部的公開數據集,一些科研機構、企業、政府會開放一些數據,你需要到特定的網站去下載這些公開數據。


第三種是編寫網頁爬蟲。比如你可以通過爬蟲獲取招聘網站某一職位的招聘信息,爬取租房網站上某城市的租房信息,獲取知乎點贊排行等。基於互聯網爬取的數據,你可以對某個行業、某種人羣進行分析,這算是非常靠譜的市場調研、競品分析的方式了。


3. 數據預處理


原始的數據可能會有很多問題,比如殘缺的數據、重複的數據、無效的數據等等。把這些影響分析的數據處理好,才能獲得更加精確地分析結果。


比如空氣質量的數據,其中有很多天的數據由於設備的原因是沒有監測到的,有一些數據是記錄重複的,還有一些數據是設備故障時監測無效的。


那麼我們需要用相應的方法去處理,比如殘缺數據,我們是直接去掉這條數據,還是用臨近的值去補全,這些都是需要考慮的問題。


當然在這裏我們還可能會有數據的分組、基本描述統計量的計算、基本統計圖形的繪製、數據取值的轉換、數據的正態化處理等,能夠幫助我們掌握數據的分佈特徵,是進一步深入分析和建模的基礎。


4. 數據分析與建模


在這個部分需要了解基本的數據分析方法、數據挖掘算法,瞭解不同方法適用的場景和適合的問題。分析時應切忌濫用和誤用統計分析方法。濫用和誤用統計分析方法主要是由於對方法能解決哪類問題、方法適用的前提、方法對數據的要求不清等原因造成的。


比如你發現在一定條件下,銷量和價格是正比關係,那麼你可以據此建立一個線性迴歸模型,你發現價格和廣告是非線性關係,你可以先建立一個邏輯迴歸模型來進行分析。


當然你也可以瞭解一些數據挖掘的算法、特徵提取的方法來優化自己的模型,獲得更好的結果。


5. 數據可視化及數據報告撰寫


分析結果最直接的是統計量的描述和統計量的展示。


比如我們通過數據的分佈發現數據分析師工資最高的5個城市,目前各種編程語言的流行度排行榜,近幾年北京空氣質量的變化趨勢,商品消費者的地區分佈……這些都是我們通過簡單數據分析與可視化就可以展現出的結果。


另外一些則需要深入探究內部的關係,比如影響產品質量最關鍵的幾個指標,你需要對不同指標與產品質量進行相關性分析之後才能得出正確結論。又比如你需要預測未來某個時間段的產品銷量,則需要你對歷史數據進行建模和分析,才能對未來的情況有更精準的預測。


數據分析報告不僅是分析結果的直接呈現,還是對相關情況的一個全面的認識。所以你需要一個講故事的邏輯,如何從一個宏觀的問題,深入、細化到問題內部的方方面面,得出令人信服的結果。




你看,其實數據分析就這幾個步驟,實現起來也感覺並不難。最好的學習路徑是什麼,就是按照解決問題的流程去學習。你瞭解這個流程,然後循序漸進深入每個部分,你會覺得這是一件特別容易上手的事情。


當然如何尋找、篩選優質學習資源,如何避開學習過程中的坑,遇到問題何如解決……這些本身都是我們學習過程中會遇到的問題。


不過不用擔心,DC學院推出的這門系統的數據分析課程,就是按照這樣的學習路徑。是無數分析師的爬坑經驗、以及無數本書的總結,60天,足夠打敗市面上多半所謂的分析師。




 關於學習路徑 


我們知道一般的數據分析流程是:“數據獲取-數據存儲-數據清洗-Python數據建模與分析-數據可視化與報告”,而課程正是按照實際的分析流程搭建整體框架。這條學習路線足夠清晰,沒有一上來直接灌輸大量理論,而是在實踐中學習,這就有效過濾掉了無效知識。


每學習一部分知識,能解決實際的問題。比如學習 Python 爬蟲,就能獲取相應的數據;學習 pandas,就能將獲取的數據進行清洗;學習 Seaborn,你就可以實現炫酷的可視化……即便是對於純小白來説,也沒有什麼壓力。


數據清洗-獲得乾淨數據


數據可視化-探索性數據分析


附:《數據分析(入門)》課程大綱

60天入門數據分析師


第一章:開啟數據分析之旅 (1天)

1) 數據分析的一般流程及應用場景 

2) Python 編程環境的搭建及數據分析包的安裝 


第二章:獲取你想要的數據 (2周)

1) 獲取互聯網上的公開數據集 

2) 用網站 API 爬取網頁數據 

3) 爬蟲所需的 HTML 基礎 

4) 基於 HTML 的爬蟲,Python(Beautifulsoup)實現 

5) 網絡爬蟲高級技巧:使用代理和反爬蟲機制 

6) 應用案例:爬取豆瓣 TOP250 電影信息並存儲 


第三章:數據存儲與預處理 (2周)

1) 數據庫及 SQL 語言概述 

2) 基於 HeidiSQL 的數據庫操作 

3) 數據庫進階操作:數據過濾與分組聚合 

4) 用 Python 進行數據庫連接與數據查詢 

5) 其他類型數據庫:SQLite&MongoDB 

6) 用 Pandas 進行數據預處理:數據清洗與可視化 


第四章:統計學基礎與 Python 數據分析 (3周)

1)探索型數據分析:繪製統計圖形展示數據分佈 

2)探索型數據分析實踐:通過統計圖形探究數據分佈的潛在規律 

3)描述統計學:總體、樣本和誤差,基本統計量 

4)推斷統計學:概率分佈和假設檢驗 

5)驗證型數據分析實踐:在實際分析中應用不同的假設檢驗 

6)預測型數據分析:線性迴歸

7)預測型數據分析:Python中進行線性迴歸(scikit-learn實現)

8)  預測型數據分析:分類及邏輯迴歸

9)  預測型數據分析:其它常用迴歸和分類算法(k近鄰、決策樹、隨機森林)

10) 預測型數據分析:聚類算法(k均值、DBSCAN)

11) 預測型數據分析:用特徵選擇方法優化模型 

12) 預測型數據分析實踐:用 scikit-learn 實現數據挖掘建模全過程 

13) 預測型數據分析實踐:用 rapidminer 解決商業分析關鍵問題 

14) 高級數據分析工具:機器學習、深度學習初探


第五章 報告撰寫及課程總結 (1周)

1) 養成數據分析的思維 

2) 數據分析的全流程及報告撰寫的技巧 

3) 課程回顧以及一些拓展 



 關於學習資料 


即便你有很強的資源獲取能力,或者你已經收藏了很多幹貨,但我們還是很想幫你節約篩選有效信息的時間,已經幫你找到最有用的那部分,你可以把更多的時間用來做更多的練習和實踐。


考慮到各種各樣的問題,課程中每一節都準備了學習資料。主要包含四個部分:


1 課程中重要的知識點,資料中會進行詳細闡述,幫助理解;

2 默認你是個小白,補充所有基礎知識,哪怕是軟件的安裝與基本操作;

3 課程中老師的參考代碼打包,讓你有能力去復現案例;

4 提供超多延伸資料更多問題的思路實踐代碼,讓你可以去做更多的事情。


某節部分學習資料



 關於實踐項目 


我們在課程中準備了很多基於真實數據的實踐項目,每個章節你都能夠得到實際的訓練,跟着完成一遍,你就能熟悉數據分析的工作流程,掌握其中所需的技術細節。


首次將課程與數據分析/挖掘競賽相結合,讓你有針對性地在真實數據中去實踐,並客觀地檢測自己的學習成果。提交分析結果可以即時獲得評分,並查看自己在同學中的排名。




 關於課程老師 


課程主講老師王樂業是港科大的博士後,在數據挖掘方面成果不俗。更重要的是,他喜歡分享,知乎粉絲不少,能把知識提煉到極致,所以課程全是乾貨,沒有廢話。


周濤教授很多人比較熟悉,作為這門課的研發老師,他也將自己多年的大數據分析和挖掘的經驗、教學經驗傾注其中。所以課程不僅是知識,還有思維和學習方法,你完全可以遷移到其它層面。


【課程主講老師】



王樂業

香港科技大學博士後


王樂業,香港科技大學博士後,法國國立電信學院及巴黎六大計算機科學與技術專業博士。本科和碩士畢業於北京大學計算機科學與技 術專業。目前研究方向研究方向為城市時空數據挖掘。從事研究工作包括通過社交網絡識別個人興趣、通過移動通信網絡推理人羣移動模式、以及通過公共交通數據優化交通站點分佈等。發表論文20餘篇,其中SCI10餘篇,引用300餘次。


【課程研發老師】



周濤

電子科技大學教授


周濤,電子科技大學教授、大數據研究中心主任。主要從事統計物理與複雜性,數據挖掘與數據分析方面的研究。在 Physics Reports、PNAS等國際 SCI 期刊發表300餘篇學術論文,引用超過17000次,H 指數為63。2015年入選全國十大科技創新人物,超級暢銷書《大數據時代》譯者,暢銷書 《為數據而生:大數據創新實踐》作者。周濤教授參與課程的研發和課程體系的設計,以多年的教學科研和企業數據團隊管理經驗為課程的頂層設計保駕護航。



除此之外,你還會遇到指導你每一個細節的答疑老師,在學習羣裏,你的問題能夠得到快速解答,即便是最初級的問題。還有一羣未來的優秀分析師,跟你一起,探索數據分析技術。在短時間內,有不少同學都有了從0到1的進步:





【課程信息】


「 上課形式 」

錄播課程,可隨時開始學習,反覆觀看


「 學習週期 」

建議每週學習至少8小時,建議兩個月內完成一遍


「 學習路徑 」

數據獲取-數據預處理-數據建模與分析-可視化與報告


「 面向人羣 」

零基礎的小白、負基礎的小白白


「 答疑形式 」

學習羣老師隨時答疑,即便是最初級的問題


「 課程資料 」

重點筆記、操作詳解、參考代碼、課後拓展


「 課程證書 」

學完課程並達到要求,發放數據分析師結業證書



限額底價:¥499(原價599)限前100名

長按下方二維碼,瞭解詳情&名額預定



如有任何疑問和購買問題

加Amy小姐姐微信



哦,對了,我們還為這門課準備證書


每個證書編號對應一個獨立身份信息


點擊下方“閲讀原文”瞭解課程詳情

https://hk.wxwenku.com/d/110021252