文理融合データサイエンスU[26A0178]

科目名
Course Title
文理融合データサイエンスU[26A0178]
Interdisciplinary program on data science U
授業言語
Language
Japanese
科目区分・科目種 情報 クラス 全学科
コンピテンシー ◎問題解決力
カラーコード
単位数 2.0単位 履修年次 12

担当教員 土山 玄
戸次 大介
学期 前期
曜日・時限・教室
月曜 3 4 理学部3号館601室【ITルーム1】

受講条件・その他注意
注意事項:
共創工学部の学生は文理融合データサイエンスIIを履修できません。
将来的に文化情報工学学際プログラムを選択する予定の学生は本科目ではなく、データサイエンス(基礎)およびデータサイエンス(中級)を履修することを強く推奨します。

受講条件:
事前に文理融合データサイエンスTを履修していることが望ましいが必須ではない。

授業の形態
講義,演習

教科書・参考文献
授業時に配付する資料

ALH区分
ALHを実施しない

評価方法・評価割合
小論文(レポート)=90%(中間レポート:40%, 期末レポート:50%),授業への参加態度=10%

主題と目標
本科目の主題は文理融合データサイエンスTにおいて学んだ基礎的な多変量解析の手法を復習し、新たに機械学習の手法を学ぶことです。また、文化現象を対象とするデータサイエンスの手法を用いた研究事例を概観することで、文理融合型の研究におけるデータサイエンスの有効性と重要性を理解することが目標となります。

授業計画
第1回:文理融合データサイエンスTの復習
本講義の導入として、文理融合データサイエンスTで学んだ内容を振り返ります。これによって、本科目で扱う高度な分析手法を学ぶための土台を整えます。

第2-4回:ネットワーク分析
現代社会を構成する「つながり」を、点(ノード)と線(エッジ)の構造として捉える手法を学びます。「コミュニティの中心人物は誰か?」「コミュニティの中に派閥はいくつあるのか?」という問いを、中心性やコミュニティ抽出の指標を用いて解き明かす方法を解説します。

第5-6回:アソシエーション分析
データに潜む「もしAならばBである」という隠れたルールを探し出す手法です。スーパーの購買データなどを題材に、支持度・信頼度・リフトという3つの指標を学びます。一見無関係に見える事象の間に存在する共起関係を数値化し、マーケティングに応用する技術を習得します。

第7回:ロジスティック回帰分析
「合格か不合格か」といった二値の結果が生じる確率を予測する手法です。通常の回帰分析との違いを整理しながら、シグモイド関数を用いた確率算出の仕組みを学びます。

第8回:機械学習の基礎
機械学習の第一歩として、「似た者同士は近くに集まる」という直感に基づくkNN法(k近傍法)を学びます。単純なアルゴリズムながら強力な分類能力を持つこの手法を通じて、未知のデータを予測するプロセスや、機械学習の根幹となる考え方を学習します。

第9回:決定木
条件分岐を繰り返してデータを分類する「樹木構造」のモデルを学びます。最大の特徴は、分析プロセスが可視化されるため「なぜその予測に至ったのか」という根拠が明確になる点です。不純度や情報利得といった分岐の基準を学び、解釈性の高いモデル作成を体験します。

第10-11回:ランダムフォレスト
多数の決定木を組み合わせて多数決を行う、アンサンブル学習の代表的手法です。1つのモデルでは限界がある予測精度を、多様なモデルが補い合うことで向上させる仕組みを学びます。過学習を防ぎつつ、実務でも通用する高い予測性能を実現するための実践力を身につけます。

第12回:サポートベクターマシン(SVM)
境界線の近くにあるデータ(サポートベクター)に着目し、最もクリアにデータを分ける境界線を引く手法です。直線では分けられない複雑なデータでも、高次元に投影することで鮮やかに分類する「カーネル法」の概念を学び、他の機械学習の手法との違いを学びます。

第13-14回:ニューラルネットワーク
人間の神経細胞(ニューロン)の仕組みを模倣した、現在の生成AIブームの源流となる手法です。大量のユニットが情報を受け渡し、データの特徴を自ら抽出するプロセスを学習します。単純な構造からディープラーニングへと発展した歴史を辿り、最新AIの基礎を理解します。

第15回:総復習
全14回で学んだ各手法の長所と短所、および適切な活用場面を整理します。目的に応じて最適な手法を選択し、データから価値ある洞察を引き出すための「データサイエンティストとしての視点」を総括します。

時間外学習
時間外には復習として講義資料を読み返すことを推奨する。また、本授業では文理融合データサイエンスに関連する書籍を紹介する。余裕がある受講生にはそれらの書籍を読むことを薦める。

学生へのメッセージ
各自のコンピュータにRをインストールし、積極的にデータ分析を体験してもらいたい。データサイエンスには体験することで理解が深まることがたくさんあります。また、本授業では予習よりも復習を重視することを薦めます。授業で採り上げた内容に不明なことがあれば積極的に質問してください。時間が許す限り対応します。

学生の問い合わせ先
tsuchiyama.gen@ocha.ac.jp