データサイエンス(基礎)[25R3002]

科目名
Course Title
データサイエンス(基礎)[25R3002]
Data Science (Basic)
授業言語
Language
Japanese
科目区分・科目種 文化情報工学科 クラス 文化情報工学科
コンピテンシー ◎問題解決力
カラーコード
単位数 2.0単位 履修年次 1

担当教員 土山 玄
戸次 大介
学期 後期
曜日・時限・教室
火曜 3 4 理学部3号館207−209【仮ITルーム1】

受講条件・その他注意
注意事項:
2023年度以前生はコア情報のデータサイエンス(基礎)(科目コード:25A0452)を履修してください。
2024年度以降に入学した学生は本科目(科目コード:25R3002)を履修登録してください。

その他:
受講生は各自のコンピュータにExcelとRをインストールし、授業で採り上げた手法を復習することが望ましい。
毎回の授業終了後にリアクションペーパーの提出を課す。受講生は質問事項やコメント等をリアクションペーパーに記入し、これをもって授業への参加態度の評価とする。発見力、発想力に関してはアクティブ・ラーニングの課題であるレポートの内容に基づき評価する。

授業の形態
講義,演習

教科書・参考文献
教科書:
授業時に配付する資料

参考文献:
授業中に適宜アナウンスする

ALH区分
ALH(自発的な学習時間枠)※を実施する

アクティブラーニングの技法
問題基盤型学習(PBL:Problem Based Learning)

評価方法・評価割合
小論文(レポート)=90%(中間レポート:30%、期末レポート:50%、アクティブ・ラーニング:10%),授業への参加態度=10%(リアクションペーパー、発言など)

主題と目標
授業の概要:
文化情報工学基礎科目群のデータサイエンス系科目として1年次後期に履修する必修科目である。
データサイエンスは多種多様なデータから新たな知見や新たな視点を得る分野である。それゆえデータサイエンス(基礎)では、文化情報工学の目的に即して人文・社会分野のデータを用いて、統計的なものの見方や考え方を理解し、課題発見力および課題解決のためのデータ分析の実践力を身につけることを目的とする。本科目では、講義と演習を通じてデータサイエンスの基礎的な手法を理解し、統計解析ソフトRの操作に習熟することを目指す。
 
授業の到達目標:
1. 統計的思考を身につける。(専門知)
2. 標本から母集団の特徴を推測する基礎的な手法を理解する。(専門知)
3. 多変量解析の基礎的な手法を理解し、人文・社会分野のデータ分析を実践できるようになる。(発見力、発想力)

授業計画
第1回 データサイエンスとは何か
統計学の歴史を概観することでどのようにデータサイエンスが発展したのか知り、現代社会においてデータサイエンスが必要とされている背景を理解する。また、データには機密情報や個人情報が含まれることが少なからずあるため、データサイエンスに関わる倫理的な問題について理解を深め、EU一般データ保護規則などの諸外国の取り組みを学ぶ。(専門知)

第2回 データの要約
量的変数と質的変数の違いを理解する。データを要約するために用いられる代表値(平均値、中央値、最頻値)、散らばりの尺度(分散や標準偏差など)、2変数の関係を表す統計量(相関係数など)を学ぶ。(専門知)

第3回 統計解析ソフトRの基礎
統計解析ソフトRの基礎的な操作方法を学ぶ。Rを用いた四則演算や第2回で学んだ基本統計量の算出、矩形データの取り扱いについて演習を通じて学習する。(専門知)

第4, 5回 データの可視化
単純集計やクロス集計といった質的変数の集計方法と量的変数の集計方法である度数分布表について学ぶ。棒グラフ、円グラフ、折れ線グラフ、ヒストグラム、箱ひげ図、散布図などのグラフの特徴と作成方法を理解し、Rを使用してこれらのグラフを作図できるようになる。(専門知)

第6回 標本抽出
代表的な確率分布(一様分布、二項分布、正規分布など)を学ぶ。次に、母集団から標本を抽出するための手法(有意選出および無作為抽出)を学び、無作為抽出の重要性を理解する。また、標本平均の分布は正規分布に従うことを理解する。(専門知)

第7回 推定
標本平均から母平均を推定する方法を学ぶ。正規分布を用いる母平均の区間推定の方法とt分布を用いる母平均の区間推定の方法を学習する。また、確率分布の1つであるt分布についても理解を深める。(専門知)

第8, 9, 10回 検定
統計的仮説検定の基礎的な考え方を学ぶ。帰無仮説と対立仮説、有意水準、棄却域、p値について理解する。1標本のt検定、対応のない2標本のt検定、対応のある2標本のt検定、カイ二乗検定、フィッシャーの正確確率検定について学習する。(専門知)

第11回 推定と検定(ALH)
講義で配布されたデータを対象に、各自が課題を設定し、推定と検定を行う。その結果をレポートにまとめ、提出する。(発見力、発想力)

第12, 13回 回帰分析
回帰分析は体重から身長を予測するといったような予測モデルを構築する手法である。このような回帰分析を学習し、単回帰分析と重回帰分析を理解する。(専門知)

第14, 15回 判別分析
フィッシャーの線形判別分析を学び、データの判別を行うための決定境界の求め方を理解する。また、マハラノビス距離を用いた判別分析についても学ぶ。(専門知)

時間外学習
時間外には復習として講義資料を読み返すことを推奨する。また、本授業ではデータサイエンスに関連する書籍を紹介するので、余裕がある受講生にはそれらの書籍を読むことを薦める。

学生へのメッセージ
各自のコンピュータにExcelとRをインストールし、積極的にデータ分析を体験してもらいたい。データサイエンスには体験することで理解が深まることがたくさんあります。また、本授業では予習よりも復習を重視することを薦めます。

学生の問い合わせ先
tsuchiyama.gen@ocha.ac.jp