更新:
DP-200: Implementing an Azure Data Solution和DP-201: Designing an Azure Data Solution將在2021年8月31日更新成為DP-203: Data Engineering on Microsoft Azure
這篇文章的內容
- DP-203和DP-200與DP-201有什麼不同:考試大綱比對
- 誰需要考這張認證
- 如何拿到Data Engineer認證
- 考試模式:題目類型、長度
- 考試範圍包含哪些服務
- 我使用過的學習資源
- 如果能重來一次
DP-203(新)和DP-200與DP-201(舊)有什麼不同:考試大綱比對
新舊考試都有的部分
- Design and Implement Data Storage
- Design and Develop Data Processing
- Monitor and Optimize Data Solutions (Data Storage and Data Processing)
新考試多包含實現資訊安全的範圍
DP-201有Design for Data Security and Compliance,而到了DP-203則更改為Design and Implement Data Security。因此需要多花點心思熟悉以下內容
- encrypt data at rest and in motion
- implement row-level and column-level security
- implement Azure RBAC
- implement POSIX-like ACLs for Data Lake Storage Gen2
- implement a data retention policy
- implement a data auditing strategy
- manage identities, keys, and secrets across different data platform technologies
- implement secure endpoints (private and public)
- implement resource tokens in Azure Databricks
- load a DataFrame with sensitive information
- write encrypted data to tables or Parquet files
- manage sensitive information
更多細節請參考大綱
誰需要考這張認證
官網上具體的列出了如果你的工作包含以下內容,那麼DP-203很適合你:
Responsibilities for this role include helping stakeholders understand the data through exploration, building and maintaining secure and compliant data processing pipelines by using different tools and techniques. This professional uses various Azure data services and languages to store and produce cleansed and enhanced datasets for analysis.
基本上就是與在Azure上建立、規劃、維運各種資料相關服務所需的技能,
尤其在資料處理以及儲存面。除此之外,也包含如何維護資訊安全。
如何拿到Data Engineer認證
如果想要拿到Data Engineer,需要通過以下考試:
Exam DP-203: Data Engineering on Microsoft Azure
考試模式
我們有120分鐘的時間可以作答。
可能碰到的考題類型有
- 單選題
- 多選題:例如非結構化資料有哪些?
- 是非題:例如要將Synapse資料壓縮,應該使用A功能嗎?並且會出現連三題詢問ABC三種功能,送出答案以後不能回頭修改答案。
- 案例題:例如X公司是一家跨國企業,在全球各地都有分公司。他們需要將資料庫遷移上雲,有不同種類的需求需要達成,譬如平行運算、資料一致性,應該如何做架構建議?
- 配對題:哪些情境應該使用那些功能?例如什麼時候應該選用xx data sharding, yy data sharding?
- 順序排列題:例如要將地端SQL遷移到雲端,有哪些步驟需要依序執行?
- 完成架構圖題:例如要達成App用戶行為分析,這張架構圖上還缺少哪項服務?
考試範圍包含哪些服務
(根據考試大綱)
- Azure Monitor
- Azure Synapse Analytics
- Azure Data Lake Storage
- Azure Data Factory
- Azure Stream Analytics
- Azure Databricks
- Azure Blob Storage
- Azure Event Hubs
我使用過的學習資源
Microsoft Learning
如果對於基礎觀念不熟悉,建議從官方網站提供的Learning Path開始。例如Data Engineer適用的課程就有許多不同的小單元,例如
- Azure for the Data Engineer
- Implement a Data Streaming Solution with Azure Streaming Analytics
- Implement a Data Warehouse with Azure Synapse Analytics
- Data Engineering with Azure Databricks
這幾個Path都很實用,我自己也上過其中幾個,覺得基礎觀念講得很清楚,之後再看文件也比較不會有看不懂的問題。
Azure Synapse Document
這一系列的文件是我經常翻閱的,感覺在考試中特別注重Synapse相關知識,包含如何設計分散式資料表?怎麼將資料分割?Index有哪些? 都是考試中見過的題目。
GitHub的Lab資源
如果你已經開通了Azure Portal,卻望著資源不知道該如何開始練習,Microsoft Learn在GitHub上有針對每一門考試放了Lab供使用。裡面最有感的是Case Study,跟實際考試上會碰到的題長相很像,可以讓我們更熟悉、臨場發揮得更好。
- DP-200-Implementing-an-Azure-Data-Solution
- DP-201-Designing-an-Azure-Data-Solution
- DP-203T00: Data Engineering on Azure
如果能重來一次,我會著重在哪方面?
如果能重來一次,我會把重點擺在Synapse、Databricks、Data Lake這幾項服務的比較。例如,這幾項服務都有儲存區,該如何選擇?一樣都有平行運算,什麼時候該選擇哪一個?
另外,資料倉儲Synapse是一大重點,蠻多題目圍繞在這個服務上面,建議多花些時間熟悉各種Synapse的特色,舉例如下:
除此之外,Databricks的Dataframe和Data Lake Storage的特性,例如相容Hadoop和支援異地備援儲存體也要注意。