こんにちは、moriです。
2024年9月11日から12日にかけて、Databricksの「Data Engineering with Databricks」セッションに参加してきましたのレポートを投稿させていただきます!日本語でのセミナーで、主にデータエンジニア向けの内容でした。
セッション概要
1日目はDelta LakeとDelta Live Tables、2日目はワークフローとUnity Catalogについて深掘りしました。
Databricks Certified Data Engineer Associateの認定試験が範囲とのことで今回はBIやMLに関する話はなかったものの、Lab環境でのハンズオン形式で実際の環境に触れながら学べたのが大きな収穫です。
参加者は90名ほどでした。受講者の中にはハンズオンでエラーになることもあり、講師によるライブデバッグなどもあり、とても実践的に学べました。
1日目: Delta LakeとDelta Live Tables
Delta Lakeのメダリオンアーキテクチャ(ブロンズ→シルバー→ゴールドのデータ処理フロー)は、データクレンジングや処理の効率化を図る強力なアプローチです。
データエンジニアリングの専門的な領域でしたが、データクレンジングやメダリオンアーキテクチャを使ったデータフローは興味深かったです。Notebook上での開発は新鮮で、分散処理の便利さを実感しました。
Sparkなどの仕組みで分散処理を行っているのですがインフラレイヤーを意識せずに使える点が魅力でした。最近、Serverlessも利用できるようになったとのことです。さらにリキッドクラスタリングなど最近のアップデート内容も紹介していただけました。
2日目: ワークフローとUnity Catalog
ワークフローではジョブの実行状況がリアルタイムで可視化され、エラー箇所の追跡が簡単でした。
ジョブの進行状況やエラートラッキングの容易さは、運用効率を大幅に上げると感じました。特にSQL実行計画を確認できる点は処理時間の改善やデバッグにも役立つと感じました。
Unity Catalogは、データガバナンスにおいて極めて強力なツールです。しかも無料で利用できるのがポイントです。
きめ細かなアクセス制御とその実装方法(個人情報のマスキング機能方法なども)、データソースの統合管理(metastoreの作成方法など)について学びました。
データを視覚的に一元管理できる仕組みは自社のデータで試してみたくなりました。
コストについて
DatabricksはAWS(またはGCPやAzure)上で動作するので、ストレージ費用はAWSのS3などにかかりますが、Databricks自体のストレージ料金はかかりません。また、利用時間に応じた課金で、使わないときは自動でクラスタが停止するため、コスト効率も高いです。
所感
Databricksは、ワークフローの使い勝手の良さとUnity Catalogによるデータガバナンスの強化が非常に魅力的でした。コスト効率もよく、小規模からでも始められそうです。インフラのことをほとんど意識せず、データ処理に専念できるのも大きな利点ですね。ただし、SQLやPythonに強いデータエンジニアが必要になってくるので、その育成も課題だと感じました。
これからもっと積極的に活用していきたいと思います!