第8回:再現可能な
データ解析のベスト
プラクティス

2024-05-28

https://data-science-chiba-2024.github.io/day8/

再現可能性を高めよう

  • 今回の授業ではコードの書き方(R)を学んだ

  • でも、解析を再現可能にするのに、全部で三つのことを管理しないといけない:

    • コードの管理(バージョン管理)
    • 解析環境の管理
    • データの管理

バージョン管理:git

  • バージョン管理とは、ソフトウェアやドキュメントの変更履歴を追跡し、特定の時点に戻すことができるシステム

  • 特に Git は広く使用されており、GitHub というプラットフォームを利用してオンラインでプロジェクトを管理できる

  • 複数人での作業が容易になり、同じファイルを同時に編集しても衝突を防ぎやすくなる

解析環境の管理:Docker

  • コードとまた別に、解析する環境(パソコン、ソフトウエア)の管理が必要

  • コードが同じでも、解析環境が異なると、同じ解析結果が得られない恐れがある

  • ハードウエアを再現するのはほぼ不可能ですが、ソフトウエアの環境をDockerというツールで再現することはできる

Dockerの概要

  • Dockerは、自分のパソコンの中に存在する別のパソコンみたいなもの

  • 「イメージ」あるいは「コンテナ」と呼ぶ

  • 自分のパソコンのソフトを変えても(RやRパッケージのアップげレードなど)、コンテナの中身は変わらないので、どれくらい時間が経っても、再現できる

gitとDockerのデモンストレーション

https://github.com/joelnitta/pleurosoriopsis

  • 必要なソフトはDockerのみ

  • あとは全部Dockerのコンテナに入っているので、別にインストールするひつしょうがない

データのリポジトリ

  • 解析(論文)を発表する際、データも公開しましょう
    • 再現性を高める
    • 信頼度を高める
    • 「頼めば提供します」では足りない!
  • 公開しているデータのリポジトリに置くのがベスト

データのリポジトリ

データを置くだけではなく、キチンと説明することも大事(「metadata」)

erasmusのデータ

https://data.europa.eu/data/datasets/erasmus-mobility-statistics-2014-2020?locale=en

メタデータがちゃんと記録されていないから困りましたね・・

tokyoRについて