データサイエンス(基礎)[23A0452]

科目名
Course Title
データサイエンス(基礎)[23A0452]
Data Science (Basic)
授業言語
Language
Japanese
科目区分・科目種 情報 クラス 全学科
コンピテンシー ◎創造的思考力,◎問題解決力,◎内的統制感,○省察的思考力
カラーコード
単位数 2.0単位 履修年次 14

担当教員 土山 玄
学期 後期
曜日・時限・教室
火曜 1 2 理学部3号館601室【ITルーム1】

受講条件・その他注意
文理融合データサイエンスTと授業内容が重複している部分があるので、本科目か文理融合データサイエンスTのいずれか一方を受講することが望ましい。

授業の形態
講義,演習,対面授業のみ

教科書・参考文献
教科書については講義中にアナウンスする。

ALH区分
ALHを実施しない

アクティブラーニングの技法
AL技法は授業に用いない

評価方法・評価割合
小論文(レポート)=90%(中間レポート:30%, 期末レポート:60%),授業への参加態度=10%

主題と目標
データサイエンスは多種多様なデータから新たな知見や新たな視点を得る分野です。そのため、データサイエンス(基礎)では統計的なものの見方を理解し、統計的思考を学び、課題発見力および課題解決のための実践力を身につけることを目的とします。本科目では、講義と演習を通じてデータサイエンスの基礎的な手法を理解し、統計解析ソフトRの操作に習熟することを目指します。

授業計画
1. データサイエンスとは何か(1週)
統計学の歴史を概観することでどのようにデータサイエンスが発展したのか知り、現代社会においてデータサイエンスが必要とされている背景を理解する。

2. ExcelとRの基礎(1週)
ExcelとRの基礎的な関数を学ぶ。

3. データの要約と集計(1週)
データを要約するために用いられる代表値(平均値、中央値、最頻値)、散らばりの尺度(分散や標準偏差など)、2変数の関係をあらわす統計量(相関係数など)を学ぶ。

4. データの可視化(1週)
単純集計やクロス集計といった質的変数の集計方法と量的変数の集計方法である度数分布表について学ぶ。
棒グラフ、円グラフ、折れ線グラフ、ヒストグラム、箱ひげ図、散布図などのグラフの特徴と作成方法を理解する。

5. 母集団と標本(2週)
母集団から標本を抽出するための手法(有意選出および無作為抽出)を学ぶ。
標本分布(標本平均の分布)は正規分布に従うことを理解する。

6. 推定(1週)
標本平均から母平均を推定する方法を学ぶ。
点推定と区間推定を理解する。

7. 検定(3週)
統計的仮説検定の基礎的な考え方を学ぶ。
帰無仮説と対立仮説、有意水準、棄却域、p値について理解する。

8. 回帰分析(2週)
回帰分析の考え方(残差、最小二乗法など)について学ぶ。
過学習を理解し、モデル選択の方法(AIC、ステップワイズ法など)を学ぶ。

9. 判別分析(2週)
判別分析の考え方(群間分散や群内分散など)について学ぶ。
マハラノビス距離について理解する。

10. 総復習(1週)
これまでに採り上げた手法の復習を行う。

データサイエンス(基礎)では分析手法について講義を行った後にExcelとRを使用した演習を行います。

時間外学習
時間外には復習として講義資料を読み返すことを推奨する。また、本授業ではデータサイエンスに関連する書籍を紹介するので、余裕がある受講生にはそれらの書籍を読むことを薦める。

学生へのメッセージ
各自のコンピュータにExcelとRをインストールし、積極的にデータ分析を体験してもらいたい。データサイエンスには体験することで理解が深まることがたくさんあります。また、本授業では予習よりも復習を重視することを薦めます。

学生の問い合わせ先
tsuchiyama.gen@ocha.ac.jp