????2023 更新:回頭看這篇 3 年前寫的文章,發現有許多讀者其實對於考到雲端運算證照後的下一步更感興趣,包括轉職、工作內容、面試技巧,因此將相關連結整理在文章末端。
更新:
DP-200: Implementing an Azure Data Solution 和 DP-201: Designing an Azure Data Solution 將在 2021 年 8 月 31 日更新成為 DP-203: Data Engineering on Microsoft Azure
快速連結
DP-203(新)和 DP-200 與 DP-201(舊)有什麼不同:考試大綱比對
新舊考試都有的部分
- Design and Implement Data Storage
- Design and Develop Data Processing
- Monitor and Optimize Data Solutions (Data Storage and Data Processing)
新考試多包含實現資訊安全的範圍
DP-201 有 Design for Data Security and Compliance,而到了 DP-203 則更改為 Design and Implement Data Security。因此需要多花點心思熟悉以下內容
- encrypt data at rest and in motion
- implement row-level and column-level security
- implement Azure RBAC
- implement POSIX-like ACLs for Data Lake Storage Gen2
- implement a data retention policy
- implement a data auditing strategy
- manage identities, keys, and secrets across different data platform technologies
- implement secure endpoints (private and public)
- implement resource tokens in Azure Databricks
- load a DataFrame with sensitive information
- write encrypted data to tables or Parquet files
- manage sensitive information
更多細節請參考大綱
誰需要考這張認證
官網上具體的列出了如果你的工作包含以下內容,那麼 DP-203 很適合你:
Responsibilities for this role include helping stakeholders understand the data through exploration, building and maintaining secure and compliant data processing pipelines by using different tools and techniques. This professional uses various Azure data services and languages to store and produce cleansed and enhanced datasets for analysis.
基本上就是與在 Azure 上建立、規劃、維運各種資料相關服務所需的技能,
尤其在資料處理以及儲存面。除此之外,也包含如何維護資訊安全。
如何拿到 Data Engineer 認證
如果想要拿到 Data Engineer,需要通過以下考試:
Exam DP-203: Data Engineering on Microsoft Azure
考試模式
我們有 120 分鐘的時間可以作答。
可能碰到的考題類型有
- 單選題
- 多選題:例如非結構化資料有哪些?
- 是非題:例如要將 Synapse 資料壓縮,應該使用 A 功能嗎?並且會出現連三題詢問 ABC 三種功能,送出答案以後不能回頭修改答案。
- 案例題:例如 X 公司是一家跨國企業,在全球各地都有分公司。他們需要將資料庫遷移上雲,有不同種類的需求需要達成,譬如平行運算、資料一致性,應該如何做架構建議?
- 配對題:哪些情境應該使用那些功能?例如什麼時候應該選用 xx data sharding, yy data sharding?
- 順序排列題:例如要將地端 SQL 遷移到雲端,有哪些步驟需要依序執行?
- 完成架構圖題:例如要達成 App 用戶行為分析,這張架構圖上還缺少哪項服務?
考試範圍包含哪些服務
(根據考試大綱)
- Azure Monitor
- Azure Synapse Analytics
- Azure Data Lake Storage
- Azure Data Factory
- Azure Stream Analytics
- Azure Databricks
- Azure Blob Storage
- Azure Event Hubs
我使用過的學習資源
Microsoft Learning
如果對於基礎觀念不熟悉,建議從官方網站提供的 Learning Path 開始。例如 Data Engineer 適用的課程就有許多不同的小單元,例如
- Azure for the Data Engineer
- Implement a Data Streaming Solution with Azure Streaming Analytics
- Implement a Data Warehouse with Azure Synapse Analytics
- Data Engineering with Azure Databricks
這幾個 Path 都很實用,我自己也上過其中幾個,覺得基礎觀念講得很清楚,之後再看文件也比較不會有看不懂的問題。
Azure Synapse Document
這一系列的文件是我經常翻閱的,感覺在考試中特別注重 Synapse 相關知識,包含如何設計分散式資料表?怎麼將資料分割?Index 有哪些? 都是考試中見過的題目。
GitHub 的 Lab 資源
如果你已經開通了 Azure Portal,卻望著資源不知道該如何開始練習,Microsoft Learn 在 GitHub 上有針對每一門考試放了 Lab 供使用。裡面最有感的是 Case Study,跟實際考試上會碰到的題長相很像,可以讓我們更熟悉、臨場發揮得更好。
更新:2024 發現這些連結已經失效了,因此刪除,不繼續誤導大家。
如果能重來一次,我會著重在哪方面?
如果能重來一次,我會把重點擺在Synapse、Databricks、Data Lake 這幾項服務的比較。例如,這幾項服務都有儲存區,該如何選擇?一樣都有平行運算,什麼時候該選擇哪一個?
另外,資料倉儲 Synapse 是一大重點,蠻多題目圍繞在這個服務上面,建議多花些時間熟悉各種 Synapse 的特色,舉例如下:
除此之外,Databricks 的 Dataframe 和 Data Lake Storage 的特性,例如相容 Hadoop 和支援異地備援儲存體也要注意。
10 個真實的跨領域轉職進入雲端領域的案例
想要跟你分享我從相對傳統的製造業跨領域到雲端運算領域,非本科出身,如何將工作之間的「可轉換技能」找出來並說服雇主的故事,也很幸運地完成了出國工作的夢想。
我相信沒有人生下來就是行業專家,我們就像個背包客,不斷地在職涯道路上尋找可以放進背包、帶得走的東西,即使踏入不同領域,也能夠發揮價值,佔有一席之地。成功轉職後,我觀察身邊的同事,發現非本科系出身的不在少數。
所以我紀錄並分析後整理成一份檔案。在這個檔案中,我會分享給你十位真實案例,都是我身邊的 同事,他們之中不乏從文組、金融業等成功轉職的故事。
有需要的朋友歡迎訂閱電子報,就可以下載這份跨領域轉職案例的分析,以及各種資源。