WSL2上のUbuntu 20.04LTSでデータサイエンス100本ノック

はじめに_

「データサイエンティスト協会スキル定義委員」の「データサイエンス100本ノック(構造化データ加工編)」の実行環境を構築する。

前提_

WSL2上にUbuntu 20.04 LTSがインストール済みとする。

Docker Desktopのインストール_

以下のページに従い、Docker Desktopをインストールし、Ubuntu 20.04 LTSと連携させる。

データサイエンス100本ノック(構造化データ加工編)の実行環境設定_

Ubuntu 20.04 LTSのターミナル上で以下のように作業を進める。まず、作業ディレクトリを作成する。

% mkdir -p ~/Sandbox/DS100Knocks
% cd ~/Sandbox/DS100Knocks

データサイエンス100本ノック(構造化データ加工編)のリポジトリを取得する。

% git clone https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess.git

% cd 100knocks-preprocess

% docker-compose up -d --build
Creating network "100knocks-preprocess_default" with the default driver
Building db
[+] Building 40.6s (5/5) FINISHED                                               
 => [internal] load build definition from Dockerfile.postgres              0.8s
~中略~
Successfully built 1b7b80cf0cf5e58e9038aa9955d36f11948177b8a1117eaaaeb8d4aa7783d0e9
Creating dss-postgres ... done
Creating dss-notebook ... done

これでDockerに実行環境が準備される。Webブラウザ(MS Edgeなど)で以下のURLにアクセスする。 http://localhost:8888

データサイエンス100本ノック(構造化データ加工編)の実行方法_

Docker Desktopにて100knocks-preprocessが動いていることを確認する。以下のように表示されていれば動いている。

Webブラウザ(MS Edgeなど)で以下のURLにアクセスする。

すると以下のようなWebサイトが表示される。

下図赤枠のworkをクリックする。すると preprocess_knock_XXX.ipynbというファイルがある。これが100本ノック本体となる。ここではSQL版を開いている。

コマンドの実行は、まず、セルをアクティブ(カーソルで選択)する。

セルをアクティブにした状態で、左上にあるメニューのRun→Run Selected Cellを選ぶ。そうすると、コマンドが実行っされる。以下の例は初期設定の実行。

各問題への解答はCellへ入力し、Runで実行するという流れになる。模範回答はanswerディレクトリの下にある。以下の例はSQLのノック1本目を回答し、実行した例。

戻る_