第2回:ガイダンス、データサイエンスとR入門

2024-04-09

https://data-science-chiba-2024.github.io/day2/

ガイダンス

ニッタ ジョエル

  • 研究テーマその1:シダ植物の進化と生態学

  • 研究テーマその2:データサイエンス用ソフトの開発

  • https://www.joelnitta.com

Image of Joel Nitta in field

スケジュール

  1. 生成AIの基本、RとRStudioのインストール(オンデマンド)
  2. ガイダンス、データサイエンスとR入門
  3. プロジェクトの整理とデータの読み込み
  4. データの整理
  5. データの可視化
  6. 再現可能な文書の書き方
  7. レポートの発表
  8. 再現性を高めるツール(オンデマンド)

内容はニーズに合わせる

サイト

https://data-science-chiba-2024.github.io/

スライドと動画のリンクが掲載されている

オフィスアワー

予約制(までメールにて連絡ください)。対面・非対面での相談、ご希望とご都合に合わせて対応いたします。

教科書

リーディング

毎週のリーディングを講義の前に読んでください。

リーディング

課題と評価

  • 宿題(25%)
    • Moodleからダウンロード、提出
    • 締め切り:次の週の授業まで
  • リーディング
  • 授業のディスカッションに参加する(25%)
  • Rを使って、自分の研究に関するレポートを書く(50%)

データサイエンスとは?

データサイエンスとは?

  • データから洞察(インサイト)を得ること

データサイエンスとは?

  • 他の特徴
    • 大量のデータを扱う(「ビッグデータ」
      • 統計学を使う
    • プログラミングを使う(python、R、など)
    • 様々な用がある(学術研究、治療、産業、など)

データ解析の循環

https://r4ds.hadley.nz/diagrams/data-science/base.png

  • Import: データを入力する
  • Tidy and Transform: データを整える
  • Visualize: データを可視化する
  • Model: モデルを構築する(予測する)
  • Communicate: 結果を伝える

再現性とは?

再現性とは?

  • 他の人(将来の自分を含めて)があなたの解析を
    再度行って、同じ結果を得ることができること

  • データサイエンスにおいて、とても重要。再現性がなければ、「サイエンス」にならない!

再現可能にするには・・

  • コードが必要
    • 自分が何をやったのか、記録が残る
    • 将来、同じ解析ができる
  • コードとして残らない方法はよろしくない(エクセル、SPSSなど)

本授業では、Rを使う

  • 無料
  • データ解析の機能が豊富
  • 多様なニーズに応えるパッケージ
  • コミュニティー

RとRStudioについて

  • Rとは「R Project for Statistical Computing」という組織が提供しているオープンソースプログラミング言語

RとRStudioについて

  • Rのコードを書く・実行する最適なソフト(無料)
  • RStudioなしでもRは一応使えるけど、不便
  • この授業ではRStudioを介してRを使う。

RStudioについて

  • 主に四つのパネルがある
    • Source(コードを書く)
    • Environment(今のRのセッションに入っているオブジェクトが表示される)
    • R Console(Rに直接コマンドをする)
    • Files and Plots(ファイルと図)

Rを計算機として使う

  • RStudioのコンソール(左下のパネル)にカーソルを置いて、簡単な計算をしてみましょう:
2 * 20
[1] 40

おめでとうございます!Rプログラミングができました!

オブジェクト(変数)について

  • 次に、Rの中のデータを変数(Rでは、「オブジェクト Object」と呼ぶ)として保存しよう:
age <- 2 * 20

オブジェクト(変数)について

これだけでは何も返ってこない。

変数の内容を確認するには、コンソールにその変数の名前を打てば良い:

age
[1] 40

関数とは

何かの値(インプット)を受けて、処理して、計算結果(アウトプット)を返すもの

関数とは

関数の書き方:

  • 関数名(引数)

例えば

round(3.1415, digits = 1)
[1] 3.1

関数とは

関数の使い方を確認したい時は?関数名と打って、ヘルプファイルを参照すれば良い

?round

パッケージとは

  • Rパッケージとは、Rが出来ることを大幅に増やす「追加」のソフト(関数のまとまり)
    • 現在、2万近くのパッケージがある!

パッケージのインストール

Rパッケージのインストールを行うには、install.packages()を使う:

install.packages("ggplot2")

一回インストールしたら、次回からはしなくて良いので、これはコードとして保存しない

パッケージのロード

  • パッケージをインストールしたら、使える状態するにはロードすることが必要
    • インストールは一回でいい
    • ロードは毎回必要

library()関数でロードする:

library(ggplot2)

tidyverse

  • tidyverseはデータサイエンス用パッケージの集まりのパッケージ
    • ggplot2(可視化)
    • dplyr(データの整理)
    • stringr(文字データを扱う)
    • など

これからよく使うので、インストールしましょう。一気に出来るから、楽。

install.packages("tidyverse")

install.packages()library()の違い

  • install.packages()は一回だけで良い(パソコンにパッケージをダウンロードする)

  • library()はRを使う毎にしないといけない(パッケージを今回のRのセッションで使えるようにする)