中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

2018-12-31    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

繼上一篇如何成為數(shù)據(jù)分析師系列(一):可視化圖表初階整理了折線圖、柱形圖、散點圖、餅圖4種基本圖表的特性及其使用場景,這次整理了一些平常不太使用,但在合適的場景的使用它們,往往能為你的分析報告加分不少的圖表。

需要說明的是,這次演示的圖表幾乎都是用Tableau制作的「因自身學習的原因」,不再是Excel制作的圖表。其中有部分圖,仍舊能用Excel制作,有部分已經(jīng)不適合使用Excel制作了。

樹狀圖(TreeMap)

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

功能&應用場景

主要功能用于可視化整體與部分關系,以區(qū)塊表示部分層級(不同區(qū)塊用顏色區(qū)分),用矩形面積表示大小關系。

缺點

以面積表示大小,當數(shù)值相近時人眼難以辨別,當然可通過填充數(shù)值彌補。

漏斗圖(FunnelPlot)

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

應用場景

適用于關鍵業(yè)務環(huán)節(jié)數(shù)據(jù)比較,將各環(huán)節(jié)串聯(lián)起來構成漏斗,量化流程內環(huán)節(jié),追蹤各環(huán)節(jié)轉化率。轉化是漏斗圖主要表達信息。

♦ 電商類:訪問 -> 注冊 -> 購物車 -> 下單 -> 付款;

♦ 營銷推廣:展現(xiàn) -> 點擊 -> 訪問 -> 咨詢 -> 下單 -> 付款;

♦ CRM:潛在客戶階段 -> 意向客戶階段 -> 談判階段 -> 成交簽約。

以上只是常見漏斗,實際各種業(yè)務流程都可構建漏斗。

缺點

♦ 漏斗圖在實際分析中并不常見,但在PPT中用作信息描述卻明顯優(yōu)于干巴巴的數(shù)字

♦ 追蹤流程較困難,而企業(yè)是結果導向的,我們更在意整個流程的轉化率,有時不會深究細節(jié);

有時候我們更關心某環(huán)節(jié)轉化率在時間維度上的變化。

漏斗圖 vs 行為路徑分析

漏斗圖要區(qū)分于行為分析路徑圖,行為分析路往往是你對用戶的訪問路徑未知,而漏斗圖則是基于已知關鍵流程構建。

樣式變種:將面積形式變種為柱形圖樣式,顯得更加清晰

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

雷達圖(RadarChart)

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

應用場景

雷達圖主要用于靜態(tài)的多維對比,它直觀地呈現(xiàn)幾個觀察對象在多個指標上對比情況。

缺點

能表達的靜態(tài)數(shù)據(jù)信息有限,線條不宜超過5條,指標不宜超過8個。

注意事項

雷達圖中的指標必須是正向且可以比較的,也就是指標代表越好,且當指標差異較大時,需要進行標準化,消除單位影響。

♦ 指標必須是相同表征含義:如都是越大代表越好,或越小代表越好;

♦ 雷達圖的數(shù)據(jù)必須進行標準化;

♦ 雷達圖是靜態(tài)數(shù)據(jù)很量,不可能有時間維度。

制作過程

數(shù)據(jù)如圖

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

♦ 數(shù)據(jù)源-第一個指標要重復一列,作為環(huán)形的起點和終點;

♦ 在Tableau中要進行透視表操作;

♦ 生成路徑: CASE [數(shù)據(jù)透視表字段名稱]

WHEN '認證兩分鐘回復率' then 1

WHEN '認證數(shù)' then 2

WHEN '消息兩分鐘內回復率' then 3

WHEN '消息回復率' then 4

WHEN '回復消息數(shù)' then 5

WHEN '質檢得分' then 6

ELSE 7

END

♦ 生成弧度:IF [路徑]=7 THEN pi()/2 ELSE PI()/2 - ([路徑]-1)*2*PI()/6 END

♦ 生成X = [數(shù)據(jù)透視表字段值]*COS([弧度])、Y = [數(shù)據(jù)透視表字段值]*SIN([弧度])

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

箱線圖/盒須圖(Box plot)

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

箱線圖是利用五個統(tǒng)計量:最小值、第1分位數(shù)、第2分位數(shù)、第3分位數(shù)、最大值 來描述數(shù)據(jù)的圖形。

應用場景

主要用于觀察數(shù)據(jù)分布:觀察分布&異常值&偏態(tài)等

♦ 箱線圖可直觀明了地觀察數(shù)據(jù)的分布情況,對不同數(shù)據(jù)批的數(shù)據(jù)分布進行對比;

♦ 箱線圖可直觀明了地識別數(shù)據(jù)批中的異常值;

♦ 箱線圖可初步判斷數(shù)據(jù)批中的偏態(tài)和尾重; 異常值出現(xiàn)于一側的概率越大,中位數(shù)也越偏離上下四分位數(shù)的中心位置; 異常值集中在較小值一側,則分布呈現(xiàn)左偏態(tài);異常值集中在較大值一側,則分布呈現(xiàn)右偏態(tài)。

圖形元素說明

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

矩盒兩端的位置分別對應數(shù)據(jù)的Q1、Q3分位數(shù),矩形盒內部繪制一中位數(shù)線

♦ 內限=Q1-1.5*IQR、=Q3+1.5*IQR IQR(四分位矩)=Q3-Q1,它反映了中間50%數(shù)據(jù)的離散程度(數(shù)值越小,中間50%數(shù)據(jù)越集中)

♦ 外限=Q1-3*IQR、=Q3+3*IQR 內限以外位置都是異常值,其中在內限與外限之間的為溫和異常值(Mild outliers),外限以外的稱為極端異常值(extreme outliers)。

應用舉例

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

甘特圖(Gantt chart)

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

應用場景:項目管理

甘特圖對于說明項目各元素的起始與終止日期效果非常好,清楚看到需要完成的內容和截止時間對于項目的成功非常關鍵。 多數(shù)情況下,我們把甘特圖和項目管理聯(lián)系到一起,不過它其實還可以用來表現(xiàn)隨時間推移事物的變化(人員、機器、訂單等)。

♦ 顯示項目進度。例如:說明關鍵可交付成果、所有者、截止期限。

♦ 顯示隨時間推移的其他事物使用事項。例如:機器使用的持續(xù)時間、團隊成員有空與否,訂單發(fā)貨時間等。

桑基圖(Sankey diagram)

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

;鶊D,即桑基能量分流圖,也叫桑基能量平衡圖。

起源

♦ 1898年Matthew Henry Phineas Riall Sankey繪制的“蒸汽機的能源效率圖”而聞名世界,此后便以其名字命名為“;鶊D”。

應用場景

♦ 展示分類維度間的相關性,以流的形式呈現(xiàn)同一類別的元素數(shù)量;

♦ 表示集群的發(fā)展,比如特定人群的分布,如:杏仁活躍醫(yī)生在一段時間的活躍狀態(tài)變遷;

♦ 具有流程圖的性質,表示能量/物質流轉。

核心特征

最明顯的特征是始末端的分支寬度總各相等,即所有主支寬度的總和應與所有分出去的分支寬度的總和相等,保持能量的平衡。

圖形制作

1.S型曲線-sigmoid Fuction

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

該函數(shù)圖像的特點有: 1. 連續(xù),光滑,嚴格單調; 2. 關于(0, 0.5)中心對稱; 3. 值域為(0,1).

1. 簡單;鶊D 數(shù)據(jù)格式如下。左為Data,右為模型Model,要求制作;鶊D表示用戶ID從position 1變化為position 2的路徑。

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

a. 連接Excel文件,將Data與Model均拖入數(shù)據(jù),并由Link進行inner join連接;

b. 創(chuàng)建計算字段Sigmoid Function代表S曲線函數(shù):1/(1+EXP(1)-[t]);

c. 創(chuàng)建計算字段Curve代表曲線:[Position 1]+(([Position 2]-[Position 1])*[Sigmoid Function]);

d. 將t拖拽至[列],Curve拖拽至[行],并調整為連續(xù)的維度; e. 將Name、ID拖到詳細信息,Name拖拽到顏色;

f. 選擇標記類型為 線,一個簡單的;鶊D就完成了,示例可參見Tableau文件。

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

難點理解:曲線是如何生成的!

♦ 每一個用戶有position 1、position 2,以ID=1的用戶為例:

  1. position 1=1
  2. position 2= 100
  3. [Position 2]-[Position 1]=99
  4. ([Position 2]-[Position 1])*[Sigmoid Function]

將上式記作A,根據(jù)S曲線特性,當t->負無窮時,函數(shù)s->0,A->0;因s函數(shù)嚴格單調,當t增大時,s增大;當t->正無窮時,s->1,A->([Position 2]-[Position 1])。所以curve=[Position 1]+(([Position 2]-[Position 1])*[Sigmoid Function])可生成一條S曲線.

難點是設置position,讓每個類別的點靠近。不僅是大類別要靠近,細分類別也要靠近

詞云

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

應用場景

詞云圖是為了描述事物的主要特征,要求能夠讓人一眼看出一個事物的主要特征,越明顯的特征越要突出顯示。不要為了詞云而詞云,要關注制作詞云要表達什么信息(包括數(shù)據(jù)的關系是什么)

♦ 內容型網(wǎng)站對內容關鍵詞提取制作詞云作為網(wǎng)站導航;

♦ 人物肖像刻畫、事物肖像刻畫、小說核心主題刻畫,總之對于各種事物進行某種主題的刻畫,可以選用詞云,如果是表現(xiàn)層次化關系,則不建議使用詞云。(下圖就不是詞云最合適的運用場景)

 

如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階

 

主要特征

詞云是可視化中較為藝術化的圖表。 Word直接展示對象,Word字體大小表示某種度度量。

以上就是圖表類型的介紹了。其實圖表類型還有很多很多,如基于鼠標點擊的熱力圖、基于網(wǎng)絡傳播的關系圖等等,但它們都不再適合用Excel或Tableau制作,需要用R/Python進行繪圖,暫時用不上,故沒有再往下寫的必要。

此外,圖表制作還有很多主意事項,比如:背景色的使用

黑色背景給人以震撼,但它的情感色調是鄭重、悲傷、緊張 白色背景比較單調,但它的情感色調是以輕松

具體的圖表如何使用,它是非常靈活的,見仁見智。這些基礎理論只是將圖形的特征介紹清楚,具體如何用仍需要結合業(yè)務場景、分析目標等。

標簽: 電商 數(shù)據(jù)分析 推廣 網(wǎng)絡

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:2019 年,被高估的 AI 與數(shù)據(jù)科學該如何發(fā)展?

下一篇:2018 年最受歡迎的 Python 庫,你都用過嗎?