お茶の水女子大学シラバス

文理融合データサイエンスⅠ［21A0177］

科目名 Course Title	文理融合データサイエンスⅠ［21A0177］ Interdisciplinary program on data science I
授業言語 Language	Japanese
科目区分・科目種	情報	クラス	全学科
コンピテンシー		ｶﾗｰｺｰﾄﾞ
単位数	2.0単位	履修年次	1～2年

担当教員

土山　玄

学期

後期

曜日・時限・教室

金曜

～

限

理学部3号館701室

授業の形態
講義，演習，全面オンライン

教科書・参考文献
教科書については初回の授業でアナウンスします。

評価方法・評価割合
小論文（レポート）= 90%（中間レポート：30％，期末レポート：60%），授業への参加態度= 10%（毎回の授業で質問やコメントを記入してもらいます）

主題と目標
本授業の主題はデータサイエンスの手法を学ぶことに加え、文化現象を対象にデータサイエンスの手法を用いた事例を概観し、文理融合型の研究におけるデータ分析の有効性と重要性を学ぶことです。それゆえ、本授業ではデータサイエンスの手法を理解することだけではなく、文化に関するデータに対してデータサイエンスの分析手法をどのように応用するのか理解することが重要になります。また、本授業では、生活に必要なデータサイエンスの基礎を直感的に理解できる内容をめざしながら、卒業研究の際に必要になってくる統計の基礎も身につけてもらうことを目標とします。

主題と目標

本授業の主題はデータサイエンスの手法を学ぶことに加え、文化現象を対象にデータサイエンスの手法を用いた事例を概観し、文理融合型の研究におけるデータ分析の有効性と重要性を学ぶことです。それゆえ、本授業ではデータサイエンスの手法を理解することだけではなく、文化に関するデータに対してデータサイエンスの分析手法をどのように応用するのか理解することが重要になります。また、本授業では、生活に必要なデータサイエンスの基礎を直感的に理解できる内容をめざしながら、卒業研究の際に必要になってくる統計の基礎も身につけてもらうことを目標とします。

授業計画
第1回	データサイエンスとは何か　なぜデータサイエンスが求められるのか　AIとデータサイエンスデータサイエンスの基礎　データの類型　代表値と散らばり　シンプソンのパラドックス
第2回	データの可視化① 　棒グラフ　折れ線グラフ　散布図
第3回	データの可視化② 　箱ひげ図　ヒストグラム
第4回	標本抽出　母集団と標本　単純無作為抽出　中心極限定理
第5回	推定　正規分布　t分布　母平均の推定　点推定と区間推定　信頼区間分析事例(1)：区間推定による薬師寺の建立年代の推定
第6回	検定① 　1標本のt検定　2標本のt検定（Welchのt検定）　対応のある2標本のt検定
第7回	検定② 　観測度数と期待度数　カイ二乗検定　フィッシャーの正確確率検定
第8回	Rによるデータの加工　ベクトルと行列　数値・文字列・因子　データの抽出　データの置換　データの結合　行列の演算
第9回	回帰分析　単回帰と重回帰　最小二乗法　決定係数　過学習　AICとステップワイズ法　多重共線性分析事例(2)：夏目漱石の小説の出版年を予測するモデルの構築
第10回	判別分析　線形判別分析　ホールドアウト検証　交差検証　マハラノビス距離による判別
第11回	ロジスティック回帰分析　オッズ　ロジット　完全分離と準完全分離
第12回	主成分分析　固有値と固有ベクトル　主成分得点と主成分負荷量　寄与率分析事例(3)：夏目漱石の小説の分類分析事例(4)：平安時代の古典文学の分類
第13回	クラスター分析　階層的クラスター分析　クラスターの結合方法　デンドログラム　非階層的クラスター分析　k-means法　k-medoids法　主成分分析を用いた可視化
第14回	アンサンブル学習　決定木と回帰木　ランダムフォレスト　ブートストラップサンプリング　変数重要度の推定分析事例(5)：ランダムフォレストを用いた『源氏物語』と『うつほ物語』の特徴語の抽出
第15回	データサイエンスの倫理データを分析する前に考えなくてはならないこと

時間外学習
時間外には復習として講義資料を読み返すことを推奨する。また、本授業では文理融合データサイエンスに関連する書籍を紹介する。余裕がある受講生にはそれらの書籍を読むことを薦める。

学生へのメッセージ
各自のコンピュータにRをインストールし、積極的にデータ分析を体験してもらいたい。データサイエンスには体験することで理解が深まることがたくさんあります。また、本授業では予習よりも復習を重視することを薦めます。授業で採り上げた内容に不明なことがあれば積極的に質問してください。時間が許す限り対応します。

学生へのメッセージ

各自のコンピュータにRをインストールし、積極的にデータ分析を体験してもらいたい。データサイエンスには体験することで理解が深まることがたくさんあります。また、本授業では予習よりも復習を重視することを薦めます。授業で採り上げた内容に不明なことがあれば積極的に質問してください。時間が許す限り対応します。

学生の問い合わせ先
tsuchiyama.gen@ocha.ac.jp