POWER BI / 讀取PDF資料夾做資料視覺化處理

POWER BI 可以讀取PDF裡面的表格

這是excel做不到的事情

在臉書上看到用CDC每日新增案例資料表來製作POWER BI分析表
只要做好一次,之後放新檔案再更新資料就可以了

看起來蠻厲害的,想說之前買了POWER BI的書,並沒有實際操作

於是就按圖索驥嘗試自己實作看看,書上的版本比較舊,會有一些功能選項的名稱不同

最後的成果如下

3月19、20日不知道為什麼沒有PDF檔,在之前的新聞稿都是文字說明,所以就沒處理了
CDC的案例表格隨著日期、疫情的情況會增加資料欄位
而且可能是做表的人會輪流,會有某幾天相同欄位的資料格式卻不一樣
像是案號-大多天數新聞稿是數字 XXX、有少數幾天會變成 案XXX

POWER BI沒辦法更改個別資料,「取代值」的功能會修改整個資料行也沒辦法做修正
所以比較好的方式還是要自己先正規化資料處理,這樣也才能在源頭修改資料

紀錄一下製作流程:

1.先把CDC上的每日新增案例PDF檔抓回來放在同一個資料夾

2.開啟POWER BI–WIN10可以到 MicrosoftStore下載安裝

3.點選-取得資料-資料夾

4.可以選擇讀取的方式:載入-直接載入、轉換-會進到Power Querry處理資料表格式
   合併-因為是讀取多個資料檔,點進去會再選擇讀取方式是載入或轉換
   多個檔案等於多個資料表,Power Querry 會問要用哪個資料表作為建立資料表的基礎

5.讀取完資料,畫面會是空空的
   要再點選-轉換資料-轉換資料,會跳出一個新視窗到Power Querry

在這邊的操作就如同資料庫的處理,可以進行資料的合併、分割、計算等等

6.處理完資料存檔之後,可以關掉這個視窗回到前面的「報告」進行資料視覺化處理
   大部分的處理方式都可以從圖示看出來是怎樣的視覺類型
   比較特別的是「卡片」,可以顯示資料的數值,同時可以取消標題
   會這樣處理的原因是沒辦法調整標題位置,所以乾脆用另外的文字方塊功能 (上方功能分頁-格式-文字方塊)
   而且其他視覺效果都要保留資料標題

7.接下來就是處理資料的呈現方式
   以摺線與群組直條圖為例說明操作方式
   表格符號是欄位-選取要放入的資料,這邊跟Excel很像,可以設定資料的型態與處理方式
   油漆刷符號是格式,可以決定要呈現哪些圖例,以及如何呈現

這個是完成設定後的每日新增案例摺線與群組直條圖
共同軸(X軸)是發佈日期、直條圖為性別案例數、折線圖為每日新增案例數

8.最後,底色圖案的設定方式,不要選取任何視覺化圖例,或者在空白處點一下
   再按油漆刷就可以設定頁面-頁面背景跟桌布,兩者的效果一樣,不知道差別哪裡

9.如果在PowerQuerry資料處理過程中發現不知如何修改起,想要重新再來的話
   可以到查詢-找到目前的資料表,按右鍵-將啟用載入的勾勾拿掉
   不過按刪除好像也是同樣的效果

POWER BI 還可以做很多其他的處理 像是模型-關聯式資料庫
但是基於用到才學的宗旨,等真的需要用到再來看看吧


參考資料

1.文淵閣工作室(2017)。翻倍效率工作術–不會就太可惜的Excel+Power BI 大數據視覺圖表設計與分析。台北市:碁峰資訊。
2.衛生福利部疾病管制署-新聞稿,https://www.cdc.gov.tw/。