第1回:生成AIの基本、RとRStudioのインストール

2024-04-02

https://data-science-chiba-2024.github.io/day1/

ニッタ ジョエル

  • 研究テーマその1:シダ植物の進化と生態学

  • 研究テーマその2:データサイエンス用ソフトの開発

  • https://www.joelnitta.com

Image of Joel Nitta in field

生成AIの基本

みなさん、生成AI(ChatGPT、DeepLなど)を使っていますか?

  • 私も使っています

  • データサイエンスのみならず、様々な場面において大事なツール

  • でも、そもそもAIが何をしているのか、分かりますか?

Artificial Intelligenceという名前は嘘

  • AI =「人工知能」

  • ・・でも、AIは何も考えていない!

    • 真偽を知らない!

LLMは言葉を予測するモデルである

  • ChatGPTはLarge Language Model(LLM)の一種である
    • 言葉を予測するモデル
    • 莫大的な量のデータ(インターネットの大部分)を使っている
  • LLMは入力された言葉に対して、最も確率の高い次に来る言葉を返す

LLMにとっての「言葉」は人間にとっての言葉と違う

  • 言葉ではなく、token(トークン)という

https://platform.openai.com/tokenizer

LLMはトークンを予測するモデルである

https://perplexity.vercel.app/

LLMは必ず「もっともらしい」言葉を自信満々で返す

・・けど、それが正解とは限らない

  • 平気な顔で嘘をつく

LLMは「妄想」しがち

https://chat.openai.com/share/dcee3278-0f51-4bc2-8051-849ef1b0b072

  • LLMが返した言葉を信用できるかどうか判断するのがあなたの責任

じゃ、どうやって使ったら良いのか?

  • 返ってきた答えを確かめる
    • コードを走らせてみる
    • 内容を他のソースで確認する
    • 裏付けとなっている文献を出すように指示する(ChatGPT 4.0に限る)
  • 必ず批判的なスタンスを持つこと

コピペしないこと

  • 大学とは自分で考えることを身につける場である
  • 「言葉の計算機」だと思えば良い
    • 計算機があるからといって、算数を全く勉強しなくていいわけではない
  • LLMは色々な作業を手伝う(よく嘘をつく)アシスタントであるが、自分の代わりに考えるものではない!

宿題

  • 自分が得意(詳しい)分野についてChatGPTに質問して、しばらく会話をしてください
    • 嘘を見つけたら、それをメモってください
  • 提出はしなくていいけど、次回の授業でディスカッションがある

RとRStudioのインストール

なぜR?

  • 無料
  • データ解析の機能が豊富
  • 多様なニーズに応えるパッケージ
  • コミュニティー

RとRStudioについて

  • Rとは「R Project for Statistical Computing」という組織が提供しているオープンソース(タダの)プログラミング言語

RとRStudioについて

  • Rのコードを書く・実行する最適なソフト(タダ)
  • RStudioなしでもRは一応使えるけど、不便
  • この授業ではRStudioを介してRを使う。

Rのインストール

https://cloud.r-project.org/から自分のOSに合ったファイルをダウンロードして、インストール

RStudioのインストール

https://posit.co/download/rstudio-desktop/から自分のOSに合ったファイルをダウンロードして、インストール

困ったら・・

ご連絡下さい(