2024-05-28
今回の授業ではコードの書き方(R)を学んだ
でも、解析を再現可能にするのに、全部で三つのことを管理しないといけない:
バージョン管理とは、ソフトウェアやドキュメントの変更履歴を追跡し、特定の時点に戻すことができるシステム
特に Git は広く使用されており、GitHub というプラットフォームを利用してオンラインでプロジェクトを管理できる
複数人での作業が容易になり、同じファイルを同時に編集しても衝突を防ぎやすくなる
コードとまた別に、解析する環境(パソコン、ソフトウエア)の管理が必要
コードが同じでも、解析環境が異なると、同じ解析結果が得られない恐れがある
ハードウエアを再現するのはほぼ不可能ですが、ソフトウエアの環境をDockerというツールで再現することはできる
Dockerは、自分のパソコンの中に存在する別のパソコンみたいなもの
「イメージ」あるいは「コンテナ」と呼ぶ
自分のパソコンのソフトを変えても(RやRパッケージのアップげレードなど)、コンテナの中身は変わらないので、どれくらい時間が経っても、再現できる
https://github.com/joelnitta/pleurosoriopsis
必要なソフトはDockerのみ
あとは全部Dockerのコンテナに入っているので、別にインストールするひつしょうがない
データを置くだけではなく、キチンと説明することも大事(「metadata」)
https://data.europa.eu/data/datasets/erasmus-mobility-statistics-2014-2020?locale=en
メタデータがちゃんと記録されていないから困りましたね・・
Rに困った時、tokyoRのスラックで聞くと(多くの場合)すぐに誰か答えてくれる