クラウドインフラ構築記

現在AWSの構築支援に携わっております。今注視しているのは、GKE、BigQuery、Google Dataflowなどサービスを展開しているGoolge Cloud Platformです。

Google Cloud DatalabでBigQueryデータの可視化をしてみました。 #gcpug #gcpja

Google Cloud Datalabは、ワンクリックで開始できる大規模データの探索、分析、可視化が行えるツールです。

過去途中でOut Of Memoryでデプロイに失敗していましたが、昨日試したところ、正常にデプロイできるようになっていました。アップレートされたのでしょうか。

Cloud Datalabを始めるには、https://cloud.google.com/datalab/?hl=ja から

Deployをクリックすれば、必要なインスタンスとかを作成してくれます。完了まで10分程度かかります。

screencapture-datalab-cloud-google-com-1451113496606

デプロイが成功すると、下記画面が表示できるようになります。

screencapture-main-dot-datalab-dot-skillful-fx-531-appspot-com-tree-1451114146971

変数定義

import gcp.bigquery as bq
import pandas as pd
df = bq.Query('SELECT * FROM [nginx_datasheet.access_log] limit 10000').to_dataframe();

10,000レコードをSELECTするのに、10秒。BigQuery Web UIだと4.2s(2Gデータ)なので、オーバーヘッドがある?

BigQueryのuaフィールドでグルーピングを行います。

groups = df.groupby('ua')

最後に、グラフで可視化

df['ua'].value_counts().head(20).plot(kind='bar', figsize=(20,10))

screencapture-main-dot-datalab-dot-skillful-fx-531-appspot-com-notebooks-access_log_analytics-ipynb-1451114559409

チュートリアルもDatalabをデプロイするとできます。Cloud Storageからデータをロード、むろんBigQueryのデータをロードして、可視化が簡単にできます。

グラフについても、折れ線、棒グラフ、パイチャート等できるようです。

作成したNoteBooksについては、Cloud Source Repositoryに保存されるようになっていて、Cloud Datalabを削除しても、再作成時に以前作成したNotebooksを再ロードしてくれます。

Cloudlabの削除もApp Engineを削除すれば、ワンクリックで完了です。

コメントは受け付けていません。