はじめに
会社の人にイケてそうな可視化ツールあるよーと教えてもらったので、そのテストついてにまとめてみます。
小さいデータ(Titanic)でしか試していませんが、実際触ってみると、サクサクといい感じの可視化ができるので、データの概要を掴むのに良さそうだという感じです。
試してみる
ただ試すだけであれば、オンラインでもがあるのでそれが単純です。
sanddance.js.org
この記事ではまぁインストールしてやるだけなのですが、VisualStudioCodeで使ってみたところを中心に書きたいと思います。
インストール〜起動
まずは検索してインストールします。
あと、今回はデータとして有名なtitanicのデータを使います。
ダウンロード、展開し、VisualStudioCodeでフォルダを開いておいてください。
可視化機能を試していく
まずはファイルをロードします。
対象となるファイル(今回はtrain.csv)を右クリックし、「View in SandDance」を選択します。
なんかいきなり、いい感じ(に見える)可視化がされています。
年齢とEmbarkedのグラフのようですね。
では、titanicらしくSurvivedで色々見ていきましょう。
例えば、Pclass別の生存数を見ていきます。
Pclass1の生存率が高くて、3が低いかな、という印象ですね。
さらにこれを男女別に分けてみるとこうなります。
まぁ女性の方がそもそもの生存率が高いのですが、Pclassでわけると、女性にしてもPclass1, 2はほとんど生存していて、3は半々くらいなんだな、とかわかるわけです。
Stackを使えば、例えば運賃と年齢別で生存率に差がないか、とか見られます。
3Dビューは無駄におしゃれなので好きです笑
他の項目も見ていく
まずは色の調整です。色々なプリセットがあったり、binningの調整ができたりします。
次にデータの中身を見ていく機能です。1つのレコードずつ中身を確認できます。
また、右の可視化上で今見ているレコードがどこにあるのかもわかります。今回はmaleのPclass3の一番左下のようですね。
データを絞り込むことができます。例えば女性で生存した人とするとこんな感じ。
データがどこに有るのかがひと目でわかります。
可視化した結果を残したいと思うこともよくあると思いますが、SnapShotをとして保存できます。
保存したものは、色々操作したあとにクリックするとその状態に戻せるのでとても便利です。
まとめ
今回はSandDanceの使用感についてまとめてみました。
表形式でデータを並べるということはできないと言うか、これの範囲ではなく、いろいろなグラフを駆使してヴィジュアル的にデータを把握するということに長けていると思います。
また、VisualStudioCodeのプラグインとして利用できるので、ローカルファイルをちょちょっと可視化してしまいたい、というときにとても便利ですね。