Google Cloud Datalabは、ワンクリックで開始できる大規模データの探索、分析、可視化が行えるツールです。
過去途中でOut Of Memoryでデプロイに失敗していましたが、昨日試したところ、正常にデプロイできるようになっていました。アップレートされたのでしょうか。
Cloud Datalabを始めるには、https://cloud.google.com/datalab/?hl=ja から
Deployをクリックすれば、必要なインスタンスとかを作成してくれます。完了まで10分程度かかります。
デプロイが成功すると、下記画面が表示できるようになります。
変数定義
import gcp.bigquery as bq import pandas as pd
df = bq.Query('SELECT * FROM [nginx_datasheet.access_log] limit 10000').to_dataframe();
10,000レコードをSELECTするのに、10秒。BigQuery Web UIだと4.2s(2Gデータ)なので、オーバーヘッドがある?
BigQueryのuaフィールドでグルーピングを行います。
groups = df.groupby('ua')
最後に、グラフで可視化
df['ua'].value_counts().head(20).plot(kind='bar', figsize=(20,10))
チュートリアルもDatalabをデプロイするとできます。Cloud Storageからデータをロード、むろんBigQueryのデータをロードして、可視化が簡単にできます。
グラフについても、折れ線、棒グラフ、パイチャート等できるようです。
作成したNoteBooksについては、Cloud Source Repositoryに保存されるようになっていて、Cloud Datalabを削除しても、再作成時に以前作成したNotebooksを再ロードしてくれます。
Cloudlabの削除もApp Engineを削除すれば、ワンクリックで完了です。