えんじにあのじゆうちょう

勉強したことを中心にアウトプットしていきます。

砂が踊るように可視化できるSandDanceをVisualStudioCodeから使うと便利そうだった

はじめに

会社の人にイケてそうな可視化ツールあるよーと教えてもらったので、そのテストついてにまとめてみます。
小さいデータ(Titanic)でしか試していませんが、実際触ってみると、サクサクといい感じの可視化ができるので、データの概要を掴むのに良さそうだという感じです。

github.com

試してみる

ただ試すだけであれば、オンラインでもがあるのでそれが単純です。
sanddance.js.org

この記事ではまぁインストールしてやるだけなのですが、VisualStudioCodeで使ってみたところを中心に書きたいと思います。

インストール〜起動

まずは検索してインストールします。
f:id:marufeuillex:20200204121620p:plain

あと、今回はデータとして有名なtitanicのデータを使います。

www.kaggle.com

ダウンロード、展開し、VisualStudioCodeでフォルダを開いておいてください。

f:id:marufeuillex:20200204121809p:plain

可視化機能を試していく

まずはファイルをロードします。
対象となるファイル(今回はtrain.csv)を右クリックし、「View in SandDance」を選択します。

f:id:marufeuillex:20200204121907p:plain

なんかいきなり、いい感じ(に見える)可視化がされています。
f:id:marufeuillex:20200204121927p:plain

年齢とEmbarkedのグラフのようですね。

では、titanicらしくSurvivedで色々見ていきましょう。

例えば、Pclass別の生存数を見ていきます。

f:id:marufeuillex:20200204124759p:plain

Pclass1の生存率が高くて、3が低いかな、という印象ですね。

さらにこれを男女別に分けてみるとこうなります。

f:id:marufeuillex:20200204124856p:plain

まぁ女性の方がそもそもの生存率が高いのですが、Pclassでわけると、女性にしてもPclass1, 2はほとんど生存していて、3は半々くらいなんだな、とかわかるわけです。

Stackを使えば、例えば運賃と年齢別で生存率に差がないか、とか見られます。
3Dビューは無駄におしゃれなので好きです笑
f:id:marufeuillex:20200204130238p:plain

他の項目も見ていく

まずは色の調整です。色々なプリセットがあったり、binningの調整ができたりします。
f:id:marufeuillex:20200204125107p:plain

次にデータの中身を見ていく機能です。1つのレコードずつ中身を確認できます。
また、右の可視化上で今見ているレコードがどこにあるのかもわかります。今回はmaleのPclass3の一番左下のようですね。
f:id:marufeuillex:20200204125207p:plain

データを絞り込むことができます。例えば女性で生存した人とするとこんな感じ。
データがどこに有るのかがひと目でわかります。
f:id:marufeuillex:20200204125543p:plain

可視化した結果を残したいと思うこともよくあると思いますが、SnapShotをとして保存できます。
保存したものは、色々操作したあとにクリックするとその状態に戻せるのでとても便利です。

f:id:marufeuillex:20200204125700p:plain

まとめ

今回はSandDanceの使用感についてまとめてみました。
表形式でデータを並べるということはできないと言うか、これの範囲ではなく、いろいろなグラフを駆使してヴィジュアル的にデータを把握するということに長けていると思います。
また、VisualStudioCodeのプラグインとして利用できるので、ローカルファイルをちょちょっと可視化してしまいたい、というときにとても便利ですね。