こんにちは、matsuです。
前回 Dataiku資格取得に向けて学習を始めました を書かせていただきましたが、その後最初の資格であるCore Designer取得に向けて続きを書かせていただきます。
※ここでは基本的に英語版にて説明させていただいています。
前段のブログでも記載しましたが日本語版とは若干コース内容に差があります。
1.資格取得のためのコースを学習しよう
Core Designer取得のための必須とも言えるコースが3つあります。
・Interface & Data Exploration
・Visual Recipes
・Collaboration
基本的には各セクション、動画(英語)、チュートリアルを繰り返していき学習する形になっています。
英語がわからなくてもチュートリアルを翻訳して進めていけば大丈夫だと思います。
私の場合、ラーニングに関しては英語、Dataikuに関しては日本語で学習していました。
難点といえば各操作がラーニングのチュートリアルだと英語なのですが、実際にDataikuを操作する際は日本語なのでその変換が少しわかりにくい時があるくらいでしょうか。
2.Interface & Data Exploration
はじめにDataikuの基本的なインターフェースの操作と、データを効果的に編集して理解するためのツールについて学びます。
このセクションに含まれる一般的なトピックは以下の通りです。
1. Dataikuのインターフェース:
- Dataikuの基本的なユーザーインターフェースについて学びます。プロジェクトの作成、データセットのインポート、レシピ(データ処理のルール)の設定など、Dataikuで作業を始めるための基礎を学びます。
2. データセットの管理:
- データセットのインポート、確認、編集、およびエクスポートの方法に関する技能を学びます。さまざまな形式のデータを扱うための基本的な操作方法を習得します。
3. データの視覚化:
- Dataikuで利用可能な視覚化ツールを使用して、データを視覚的に表現する方法を学びます。グラフやチャートを作成してデータの傾向やパターンを見つける方法を学習します。
4. データ品質の確認:
- データの品質を評価し、データクレンジングに必要な処理を特定するための機能を探ります。データの欠損値や異常値の検出と処理方法についても理解を深めます。
5. フィルタリングとサンプリング:
- 大規模なデータセットから必要な情報を効率的に抽出するためのフィルタリングとサンプリングのテクニックを学びます。
6. データの探索的分析:
- Exploratory Data Analysis (EDA) についての基本的な技法を身につけ、データを探索して潜在的なパターンや特徴を明らかにする方法を学びます。
まずはこちらを学習してDataikuに慣れてみましょう。
3.Visual Recipes
ここではコードを書かずにDataikuのビジュアルインターフェースを使用してデータ操作や分析を行う方法を学びます。
ビジュアルレシピは、データパイプラインを構築する上で非常に有用です。
このセクションで一般的に学習するトピックは以下の通りです。
1. レシピの概要:
- ビジュアルレシピの基本を学び、データセットに対する変換や操作をどのように設定するか理解します。
2. 準備レシピ:
- データのクレンジングや変換を行うためのツールについて学びます。データのフォーマット変更、フィルタリング、重複の削除など、一般的なデータ準備操作が含まれます。
3. 結合レシピ:
- 複数のデータセットを結合する方法を学びます。データのマージや、キーを用いた結合(内部結合、外部結合など)の手法について学習します。
4. アグリゲーション(集計)レシピ:
- データを集計して要約統計を作成する方法を学びます。グループ化や集計関数を使用して、洞察の得られるデータビューを構築します。
5. フィルタリングレシピ:
- 特定の条件に基づいてデータをフィルタリングする方法を学びます。フィルタ条件の設定や、必要なデータのみを抽出する手法を理解します。
6. サンプルリングレシピ:
- 大規模なデータセットからサンプルを抽出し、分析を効率化する方法を学びます。
7. 変換レシピ:
- テキストや数値データを変換する方法を学び、データを標準化したり、形式を揃える作業を行います。
8. データのスプリットまたはアペンド:
- データセットを分割したり、複数のデータセットを1つにまとめるなど、データの構造を変更する方法を学びます。
これらのビジュアルレシピを使用することで、プログラミングの経験がなくても複雑なデータ操作を行うことができ、データ分析プロジェクトをより効率的に進めることができます。
またプログラミング(SQL等)やっているとよりイメージが付きやすいと思います。
また上記以外にも下記のようないろいろなビジュアルレシピがあります。
4.Collaboration
最後のセクションではチームメンバーと効率よくプロジェクトを進めるための方法やツールについて学びます。
このセクションでは、一般に以下のようなトピックになります。
1. プロジェクト共有:
- チーム内でプロジェクトを共有し、共同作業が可能な状態にする方法について学びます。
2. バージョン管理:
- プロジェクトやデータフローの履歴を管理し、異なるバージョン間での変更を追跡する方法を学びます。
3. ノートの利用:
- 分析やデータ処理の成果をチームと共有する方法として、ノートを使う方法を学びます。
4. コメント機能:
- データフローやレシピ、ダッシュボードなどにコメントを追加し、フィードバックを行う方法を学びます。
5. セキュリティと権限設定:
- データやプロジェクトへのアクセス権を適切に管理し、必要な人だけが適切な権限を持つようにする方法を学びます。
6. リアルタイムコラボレーション:
- 同じプロジェクトに対して複数のユーザーがリアルタイムで作業できるようにする方法を理解します。
一人でしか使わないよって場合以外では必須と言える機能でチーム全体での統合的なデータ分析が可能となります。
5.オプションコースについて
ここまで3つのコースを学習すればCore Designerの認定試験は受けられます。
まだ2つのコース残っているけど?と思われるかもしれません。
この2つはオプションコースで認定試験受験のためには必須ではありません。
しかしこの先の資格を取得していくには学習しておいたほうがいいと思います。
私の場合は次のような流れで学習していきました。
まず必須となるコースをしっかり学習する。
学習し終えたら認定試験を受ける。
合格したらオプションのコースを学習する。
ここまで終わったら次の資格に向けて上記の流れを繰り返す。
オプションとなっていますが個人的には学習しておいたほうがいい内容だと思いました。
6.最後に
ここまで学習できたらあとは認定試験を受けるだけです。
学習意欲の熱が冷めないうちに試験を受けちゃいましょう。
また前回の記事でも書きましたが今回は英語版でラーニングを受けています。
やってみてやっぱりなんかしっくりこないなという人は日本語版でも学習してみてはどうでしょうか?
次回は「Core Designer認定試験を受けてみた」を掲載予定です。