文理融合データサイエンスT[19A0177]

科目名
Course Title
文理融合データサイエンスT[19A0177]
Interdisciplinary program on data science I
授業言語
Language
Japanese
科目区分・科目種 情報 クラス 全学科
CCBM キャリアデザイン  
単位数 2.0単位 履修年次 12

担当教員 土山 玄
学期 後期
曜日・時限・教室
金曜 1 2 理学部3号館601室【ITルーム1】

授業の形態
講義,演習

教科書・参考文献
書名:データサイエンスのための統計学入門 : 予測、分類、統計モデリング、統計的機械学習とRプログラミング
著者:Peter Bruce, Andrew Bruce
訳者:黒川利明
出版社:オライリージャパン
出版年:2018

評価方法・評価割合
小論文(レポート)= 70%(中間レポート:20%,期末レポート:50%),授業への参加態度= 30%(毎回出席確認時に質問やコメントを記入してもらいます)

主題と目標
本授業の主題はデータサイエンスの手法を学ぶことに加え、文化現象を対象にデータサイエンスの手法を用いた事例を概観し、文理融合型の研究におけるデータ分析の有効性と重要性を学ぶことです。それ故、本授業ではデータサイエンスの手法を理解することだけではなく、文化に関するデータに対してデータサイエンスの分析手法をどのように応用するのか理解することが重要になります。
また、本授業では、生活に必要なデータサイエンスの基礎を、シミュレーションを用いて身につけることを目標とします。直感的に理解できる内容をめざしながら、卒業研究の際に必要になってくる統計の基礎も身につけてもらうことを目標とします。

授業計画
第1回
記述統計学
 データサイエンスの概略
 基本統計量
 相関係数
 クロス集計
第2回
データの可視化
 棒グラフ
 折れ線グラフ
 散布図
 箱ひげ図
 ヒストグラム
第3回
確率の考え方
 場合の数
 確率変数と確率分布
 二項分布
 正規分布
第4回
推測統計学
 母集団と標本抽出
 推定と検定
第5回
さまざまな検定
 母平均の検定
 母比率の検定
 独立性の検定
 分散分析
第6回
データサイエンスの基礎の復習
 これまでの復習
 中間レポートの説明
 分析事例(1):区間推定による薬師寺の建立年代の推定
第7回
回帰分析1
 線形回帰分析
 最小二乗法
 変数選択
 分析事例(2):シミュレーションデータを用いた線形回帰分析
第8回
判別分析
 線形判別分析
 交差確認
 分析事例(3):線形判別分析を用いた日本近代文学における自然主義作家の識別
第9回
回帰分析2
 ロジスティック回帰分析
 分析事例(4):シミュレーションデータを用いたロジスティック回帰分析
第10回
主成分分析
 主成分分析
 主成分得点と主成分負荷量
 分析事例(5):主成分分析を用いた夏目漱石の小説の分析
第11回
対応分析
 対応分析と多重対応分析
 分析事例(6):シミュレーションデータを用いたクロス集計と対応分析
第12回
クラスター分析
 階層的クラスター分析
 非階層的クラスター分析
 分析事例(7):小説のクラスタリングによる著者識別
第13回
樹木モデル
 決定木と回帰木
 分析事例(8):決定木を用いたシミュレーションデータに対する分析
 分析事例(9):決定木を用いた短い文章の書き手の判別
第14回
樹木モデルの応用
 ブートストラップサンプリング
 ランダムフォレスト
 分析事例(10):ランダムフォレストを用いた『源氏物語』と『うつほ物語』の特徴語の抽出
第15回
多変量解析の復習
 これまでの多変量解析の復習
 期末レポートの説明

時間外学習
時間外には復習として教科書の授業で採り上げた内容が記載されている箇所を読み返すことを推奨する。これに加えて、各自が授業において解説した分析手法をRを用いて実際に分析できように演習する。
また、本授業ではおおよそ毎回、文理融合データサイエンスに関連する書籍を紹介する。余裕がある受講生にはそれらの書籍を読むことを薦める。

学生へのメッセージ
各自のコンピュータにRをインストールし、積極的にデータ分析を体験してもらいたい。データサイエンスには体験することで理解が深まることがたくさんあります。また、本授業では予習よりも復習を重視することを薦めます。授業で採り上げた内容に不明なことがあれば積極的に質問してください。時間が許す限り対応します。

学生の問い合わせ先
tsuchiyama.gen@ocha.ac.jp