本ブログ記事で相愛している Project Maestroはβ版ですが、2018年4月にTableau Prepという名称の製品としてローンチされました。

Tableau Project Maestro概要

Project Maestroは、Tableau社がローンチを予定しているデータプレパレーションツールです。(本記事初出日の2018年1月時点では最新版がベータ2でしたが、その後、2018年2月現在、公開されている最新のベータ版はベータ3です。)Tableau Desktopは基本的にはきちんと整形されたデータのビジュアライズを行うツールであり、例えば、エクセルが人間が見やすい形に整形されていて、分析には不要な行や列が混ざっている場合、望みどおりのビジュアライズができない場合があります。
そうしたデータをビジュアライズしたい場合、Tableau Desktopでは、「データインタプリタ」や、「項目名への別名の付与」、「計算フィールドの利用」でなんとかデータを整形しますが、そうした「Tableauにデータを読ませる前の下準備の作業」を切り離して一つの製品にしたのがProject Meastroと考えることができます。
Tableau社が提供しているベータプログラムでProject MaestroのBeta2に触ることができましたので、その使用感をレポートします。(追記:その後、Beta3にも触っています。本記事に掲載している動画2つのうち、2つめの動画はBeta3によるものです。)

Project Maestroでできること

Project Maestroでできることを、を筆者なりに以下の10個にまとめてみたのが以下です。

1.データの俯瞰

データをProject Maestroに取り込むと、データを俯瞰して見ることができます。
例えば、全体のレコード数、カラム数、特定ディメンションのディメンションメンバーの内訳(例えば、「ユーザータイプ」カラムには「New Visitor」と「Returning Visitor」の2つのディメンションメンバーが存在すること)、ディメンションメンバーごとのレコード数

2.データインタプリタ

エクセルファイルが人間が見やすいようにデータを格納していた場合、表のタイトル、セルの結や、データ以外の説明文などTableau Desktopでの分析からすると余分な要素が含まれています。
そうした要素を除外し、エクセルの中の表組み部分を取り出すのがデータインタプリタです。Tableau Desktop本体にも実装されているので、ご存じの方も多いと思います。
Project Maestroにもこの機能が実装されています。

3.データのフィルタ

Tableau Desktopでの分析に利用しないデータ、テストの結果残ってしまったデータ、明らかに入力間違いと思われるデータなどをフィルタで除外することができます。

4.データの整形

項目の名前やデータ型の変更はもちろん、データ=値の修正が可能です。
例えば、「部署名」というカラムに、「営業1部」と「営業一部」という値があり、実態が同じ場合、2つを同じ値に修正できます。
また、列自体をマージすることができます。
2つの表をユニオンする際、片方の表のヘッダーが、「Impression」、もう一つの表が「表示回数」となっているが、同じ列として扱いたい。という場合に大変便利です。

5.データのピボット

いわゆる横持ちのデータを縦持ちに変形することができます。

国名が複数列にまたがっています。こうしたデータを横持ちと呼びます。一方、「国名」という項目が1列だけあり、その列の中に、アメリカ、中国、台湾、、、と値が格納されるデータの持ち方が縦持ちと呼ばれます。一般的にはTableauは縦持ちのデータを上手にビジュアライズすることができます。

6.データの集計

例えば、日付、デバイスカテゴリ(PC/Mobile/Tabletの3つのメンバー)、ユーザータイプ(New Visitor/Returning Visitorの2つのメンバー)、都道府県(47個のメンバー)セッションの4列のデータがあったとします。
1日分のレコードは、3x2x47=282レコードとなります。これが1年分だと282行x365日分=102,930レコードになります。
ランディングページや参照元などの列があると、非常に多くのレコードを持つテーブルになるのが想像できると思います。
一方、今分析したいのが、「日別のデバイスごとのセッション数」だった場合、ユーザータイプ、都道府県のレコードを集計(SUM)して小さなデータソースに変換することができます。また、データに「率の指標」が存在していた場合、それらは(AVG)で平均して集計することもできます。

7.データのユニオン

1月分の「部署別売上高」に2月分のデータを追加する。という場合に利用します。
表の行が増えてゆくイメージを持っていただければ良いと思います。Beta3からは、csvファイルに加えてエクセルに対してもワイルドカードユニオンが利用できるようになりました。ワイルドカードユニオンとは、*(=アスタリスク)を「なんでも良い文字列」として取り扱うことで、例えば、一つのエクセルファイルの中に「売上高2017」と「売上高2018」が存在する場合、「売上高*」と指定することで、2つのシートを、個別に指定することなくユニオンの対象とする機能です。

8.データの結合(JOIN)

「製品別売上高」の製品が、実際には製品コードで表現されている場合で、分析には製品名を出したい場合「製品コード別製品名」のテーブル(マスターテーブル)が必要になります。
「製品別売上高」と「製品コード別製品名」の2つの表をJOINすることができます。
表の列が増えるイメージを持っていただければ良いと思います。

9.データのアウトプット

整形、集約、結合、集計したデータをTableau Desktop等で利用できるようにファイルとしてアウトプットします。
hyper(Tableau10.5のデータエンジン)、tde(Tableau10.4までのデータエンジン)に加え、csvファイルでのアウトプットが可能です。

(10.データの複製)

少々番外編の「できること」ではありますが、Maestro内でデータを「複製」することができます。ただし、明示的に「複製」や「コピー」メニューがある訳ではなく、一つの「ステップ」から処理を分岐させることで、実質的に分岐する前のデータをコピーして利用していることになります。例えば、以下の画像では「項目名の整形」ステップから2つのピボットに分岐していますが、これは「項目名の整形」データをコピーしていることに他なりません。以下に掲載している2つの動画の2つめでこの「データの複製」を利用していますので、詳しくはそちらを御覧ください。

実際のProject Maestroの操作

それでは、実際のProject Maestroの操作を2つの動画でお見せします。
最初の動画は10個に分類したProject Maestro(Beta2)で「できること」のうち、

  1. 1.データの俯瞰
  2. 2.データインタプリタ
  3. 3.データのフィルタ
  4. 4.データの整形
  5. 7.データのユニオン
  6. 9.データのアウトプット

を利用しています。
千葉県柏市が公開している人口データ(エクセル)を利用して、Tableauで人口ピラミッドを描く。
というお題に対して、エクセルが少々手強い形をしています。
その部分をProject Maestroで前処理する手順を御覧ください。

2つ目の動画は10個に分類したProject Maestro(Beta3)で「できること」のうち、

  1. 1.データの俯瞰
  2. 2.データインタプリタ
  3. 4.データの整形
  4. 7.データのユニオン(ワイルドカードユニオン)
  5. 8.データの結合(JOIN)
  6. 9.データのアウトプット
  7. 10.データの複製

を利用しています。
政府が発表した企業規模別、勤続年数別、退職理由別の退職者数と退職金のエクセルファイルが複数シートで記述されていたり、退職理由毎に退職者数と退職金が別の列になっているのをMaestroで整形しています。

プリンシプルでは、DMP(複数のデータベースを結合し、より深くお客様や商品を知るためのデータ基盤)構築支援を行っています。
DMPに格納するデータがファイルで供給される場合、Project Maestroなどの利用価値がある場面があるかもしれません。
ご興味のあるお客様は、info@principle-c.com までご連絡ください。

お気軽にご質問、ご相談ください

関連タグ

木田和廣

早稲田大学政治経済学部卒。取締役副社長。カスタマーサクセス室室長。チーフ・エバンジェリスト。

関連ブログ