文理融合データサイエンスT[21A0177]

科目名
Course Title
文理融合データサイエンスT[21A0177]
Interdisciplinary program on data science I
授業言語
Language
Japanese
科目区分・科目種 情報 クラス 全学科
コンピテンシー
カラーコード
単位数 2.0単位 履修年次 12

担当教員  
学期 後期
曜日・時限・教室
金曜 1 2 理学部3号館701室

授業の形態
講義,演習,全面オンライン

教科書・参考文献
教科書については初回の授業でアナウンスします。

評価方法・評価割合
小論文(レポート)= 90%(中間レポート:30%,期末レポート:60%),授業への参加態度= 10%(毎回の授業で質問やコメントを記入してもらいます)

主題と目標
本授業の主題はデータサイエンスの手法を学ぶことに加え、文化現象を対象にデータサイエンスの手法を用いた事例を概観し、文理融合型の研究におけるデータ分析の有効性と重要性を学ぶことです。それゆえ、本授業ではデータサイエンスの手法を理解することだけではなく、文化に関するデータに対してデータサイエンスの分析手法をどのように応用するのか理解することが重要になります。 また、本授業では、生活に必要なデータサイエンスの基礎を直感的に理解できる内容をめざしながら、卒業研究の際に必要になってくる統計の基礎も身につけてもらうことを目標とします。

授業計画
第1回
データサイエンスとは何か
 なぜデータサイエンスが求められるのか
 AIとデータサイエンス

データサイエンスの基礎
 データの類型
 代表値と散らばり
 シンプソンのパラドックス
第2回
データの可視化@
 棒グラフ
 折れ線グラフ
 散布図
第3回
データの可視化A
 箱ひげ図
 ヒストグラム
第4回
標本抽出
 母集団と標本
 単純無作為抽出
 中心極限定理
第5回
推定
 正規分布
 t分布
 母平均の推定
 点推定と区間推定
 信頼区間

分析事例(1):区間推定による薬師寺の建立年代の推定
第6回
検定@
 1標本のt検定
 2標本のt検定(Welchのt検定)
 対応のある2標本のt検定
第7回
検定A
 観測度数と期待度数
 カイ二乗検定
 フィッシャーの正確確率検定
第8回
Rによるデータの加工
 ベクトルと行列
 数値・文字列・因子
 データの抽出
 データの置換
 データの結合
 行列の演算
第9回
回帰分析
 単回帰と重回帰
 最小二乗法
 決定係数
 過学習
 AICとステップワイズ法
 多重共線性

分析事例(2):夏目漱石の小説の出版年を予測するモデルの構築
第10回
判別分析
 線形判別分析
 ホールドアウト検証
 交差検証
 マハラノビス距離による判別
第11回
ロジスティック回帰分析
 オッズ
 ロジット
 完全分離と準完全分離
第12回
主成分分析
 固有値と固有ベクトル
 主成分得点と主成分負荷量
 寄与率

分析事例(3):夏目漱石の小説の分類
分析事例(4):平安時代の古典文学の分類
第13回
クラスター分析
 階層的クラスター分析
 クラスターの結合方法
 デンドログラム
 非階層的クラスター分析
 k-means法
 k-medoids法
 主成分分析を用いた可視化
第14回
アンサンブル学習
 決定木と回帰木
 ランダムフォレスト
 ブートストラップサンプリング
 変数重要度の推定

分析事例(5):ランダムフォレストを用いた『源氏物語』と『うつほ物語』の特徴語の抽出
第15回
データサイエンスの倫理
データを分析する前に考えなくてはならないこと

時間外学習
時間外には復習として講義資料を読み返すことを推奨する。また、本授業では文理融合データサイエンスに関連する書籍を紹介する。余裕がある受講生にはそれらの書籍を読むことを薦める。

学生へのメッセージ
各自のコンピュータにRをインストールし、積極的にデータ分析を体験してもらいたい。データサイエンスには体験することで理解が深まることがたくさんあります。また、本授業では予習よりも復習を重視することを薦めます。授業で採り上げた内容に不明なことがあれば積極的に質問してください。時間が許す限り対応します。

学生の問い合わせ先
tsuchiyama.gen@ocha.ac.jp