2018/06/29

高速データ処理ツールnysolをBash on Windows (Subsystem for Linux)で動かす

要約


データ処理ツールnysolをWindows PCで動かすまで。

環境 


Microsoft Windows 10(64bit)


経緯


コマンドライン上でcsv形式のデータを高速に処理できるnysolなるものがあるという。


NYSOL(にそる)はデータ分析のためのオープンソースソフトウェアで,2003 年にリリースされたMUSASHIの後継となる.NYSOL の特徴は,大規模なCSV データに対して単一の処理に特化したコマンド群を組み合わせることで,データの加工・前処理から,マイニングアルゴリズムの適用まで,KDD (Knowledge Discovery in Databases) の全プロセスを効率よく実現できる.そして1 億件以上の大規模データをPC で処理することが可能である.
中原・中本・羽室(2016)*

気になる。

しかし公式ドキュメントを読んだところ、残念ながらWindows上ではそのままでは動かない。
Windows上で動かす選択肢としては

1. Virtual box上で動かす
2. Cygwin上で動かす
3. Bash on Windows(Windows Subsystem for Linux)上で動かす

があるが、わざわざVirtual Boxを立ち上げて動かすのは面倒。

手軽に動かしたいので、既に入っているGit Bashで動かそうと挑戦したものの、
そちらは諸々のライブラリの入れ方がわからず失敗。

そこでBash on Windows(Windows Subsystem for Linux)を導入し、インストールすることにした。
これを使えば、コマンドプロンプトからUbuntu上のbashに簡単に遷移できる。

手順


Bash on Windowsの導入は以下のリンクを参考にした。

Windows Subsystem for Linuxをインストールしてみよう!

これでUbuntuが入るところまではできるので、今度は公式ページを参考にする

インストール - NYSOL

今回入れたのはUbuntuなので「Ubuntu Linux」の項を見ればよい。
公式ページ経由で最新版(今回は2.4)のインストール用のファイルをダウンロードする。

nysol_2.4-0_amd64.deb

をダウンロード。

これをそのままインストールしようとしたらgemがないと言われて怒られるので、rbenvを入れる(こだわりがなければ普通のrubyでもいいかもしれない)。

$ sudo apt-get install rbenv

rbenvが入った段階でnysolがインストール可能になる。

$ sudo dpkg -i nysol_2.4-0_amd64.deb

インストールが完了したらnysolのコマンドが動くかどうか確認する。
$ mcut -version
lib Version 2:1:0:0: mod Vesion 2773f52145b34ff52ac0ec5a7181496380fa3dca

これでnysolが使える状況にはなったようだ。
とりあえず今日はここまで。

次回はこれを使ってデータの加工に取り組みたい。

引用文献


* 中原 孝信・中元 政一・羽室 行信(2016). ビッグデータ解析ツールNYSOL
―性能評価,並列処理,ビジネス応用ケース―. オペレーションズ・リサーチ 61(1), 11-18.