WSL2上のUbuntu 20.04LTSでデータサイエンス100本ノック
はじめに_
「データサイエンティスト協会スキル定義委員」の「データサイエンス100本ノック(構造化データ加工編)」の実行環境を構築する。
前提_
WSL2上にUbuntu 20.04 LTSがインストール済みとする。
Docker Desktopのインストール_
以下のページに従い、Docker Desktopをインストールし、Ubuntu 20.04 LTSと連携させる。
データサイエンス100本ノック(構造化データ加工編)の実行環境設定_
Ubuntu 20.04 LTSのターミナル上で以下のように作業を進める。まず、作業ディレクトリを作成する。
% mkdir -p ~/Sandbox/DS100Knocks % cd ~/Sandbox/DS100Knocks
データサイエンス100本ノック(構造化データ加工編)のリポジトリを取得する。
% git clone https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess.git % cd 100knocks-preprocess % docker-compose up -d --build Creating network "100knocks-preprocess_default" with the default driver Building db [+] Building 40.6s (5/5) FINISHED => [internal] load build definition from Dockerfile.postgres 0.8s ~中略~ Successfully built 1b7b80cf0cf5e58e9038aa9955d36f11948177b8a1117eaaaeb8d4aa7783d0e9 Creating dss-postgres ... done Creating dss-notebook ... done
これでDockerに実行環境が準備される。Webブラウザ(MS Edgeなど)で以下のURLにアクセスする。 http://localhost:8888
データサイエンス100本ノック(構造化データ加工編)の実行方法_
Docker Desktopにて100knocks-preprocessが動いていることを確認する。以下のように表示されていれば動いている。

Webブラウザ(MS Edgeなど)で以下のURLにアクセスする。
すると以下のようなWebサイトが表示される。

下図赤枠のworkをクリックする。すると preprocess_knock_XXX.ipynbというファイルがある。これが100本ノック本体となる。ここではSQL版を開いている。

コマンドの実行は、まず、セルをアクティブ(カーソルで選択)する。

セルをアクティブにした状態で、左上にあるメニューのRun→Run Selected Cellを選ぶ。そうすると、コマンドが実行っされる。以下の例は初期設定の実行。

各問題への解答はCellへ入力し、Runで実行するという流れになる。模範回答はanswerディレクトリの下にある。以下の例はSQLのノック1本目を回答し、実行した例。
