データ解析序論[22C5180]

科目名
Course Title
データ解析序論[22C5180]
Introduction to Data Analysis
授業言語
Language
Japanese
科目区分・科目種 情報科学科 クラス 情報科学科
CCBM キャリアデザイン  
単位数 2.0単位 履修年次 2

担当教員 小林 一郎
学期 後期
曜日・時限・教室
金曜 3 4 @共3-409【情報科学講義室1】 A理3-5階 情報科学科計算機室(1)

授業の形態
講義,演習,対面授業のみ

教科書・参考文献
教科書は特に指定しません。参考図書として以下のものを推薦します。
・これならわかる最適化数学ー基礎原理から計算手法まてで,金谷健一,共立出版,2005.
・これならわかる応用数学教室ー最小二乗法からウェーブレットまで,金谷健一,共立出版,2003.

ALH区分
通常授業として実施(11・12限等)

評価方法・評価割合
小論文(レポート)=講義で習った手法に関する課題を出す予定。変更がある場合は授業中に伝えます。,実習成果=データ解析手法をプログラミングし、データを解析した結果を報告してもらう。,授業への参加態度=出席点も成績に加味します。

主題と目標
近年、大量のデータの中から有益な情報を抽出することができるデータサイエンスの需要が高まっている。本講義では、線形代数に基づく手法を中心にデータ解析の基本手法を紹介する。

授業計画
1.オリエンテーション
2.線形代数の基礎(1)
 最適化の計算に必要となる、曲線の法線、ラグランジュの未定乗数法、および、固有値・固有ベクトル
の算出に必要となる2次形式標準系を学ぶため、関数の1次形式、2次形式、双1次形式を学ぶ.
3. 線形代数の基礎(2)
ベクトルの性質を学ぶために線形結合、線形従属、線形独立を学習し、部分空間を学びます.
ベクトルの線形変換において、固有ベクトルと固有値の特徴を学び、対称行列を固有値分解します.
2次形式は対称行列で表現できる性質を利用し、2次形式の標準形を固有値と固有ベクトルを用いて
表します.2次形式の標準形のタイプを確認することによって係数として表現される対称行列による
関数の極値が求めやすくなることを説明します.
3. 線形代数の基礎(3)
主成分分析について説明をする.
4. 線形代数の基礎(4)
特異値分解について説明をする.
5. 線形代数の基礎(5)
観測したデータに基づき構築されるモデルが多項式近似など用いて表現される際、行列式やベクトルの微分して極値を
計算する必要がある.そのために,ベクトル による微分を学習する。
6. クラスタリング・分類
階層的クラスタリング、非階層的クラスタリングなどクラスタリングの基礎を学習し、非階層的クラスタリングの
代表的なクラスタリング手法であるk平均法およびk近傍法について深く学ぶ。
7. 最小二乗法
観測データを表現するモデルをフィッテイングさせる方法としての最小二乗法を学ぶ。
8. モデル選択
機械学習において一番重要なのは,構築したモデルが未知のデータに対して正しい予測ができるという
「汎化性能」である.一方で,観測したデータの特徴に特化してモデルを構築することを「過学習」という.
モデルを構築する際のモデルの次数と精度との関係,および,精度を測る手法であるN分割交差検証について
説明を行う.
9. 確率の重要事項
確率の基礎,ベイズの定理について学習する.

時間外学習
線形代数学、確率論などをしっかりと勉強しておくことを奨めます。また、授業においてpythonというプログラミング言語を用いるため、その勉強もすることを奨めます。

学生へのメッセージ
データサイエンティストという言葉が頻繁に聞かれると思います.我々が日々生産している行動履歴や観測したデータなどからその現象をとらえるモデルを構築したり、予測するモデルを構築したりすることができます.そのためには、データを正しく処理する手法を身につける必要があります.大量データの時代にはデータサイエンティストは欠かせません.ぜひ、データの解析手法を習得していろんな可能性を見出して欲しいと思います.