お茶の水女子大学シラバス

文理融合データサイエンスⅠ［26A0177］

科目名 Course Title	文理融合データサイエンスⅠ［26A0177］ Interdisciplinary program on data science I
授業言語 Language	Japanese
科目区分・科目種	情報	クラス	全学科
コンピテンシー	◎問題解決力	ｶﾗｰｺｰﾄﾞ
単位数	2.0単位	履修年次	1～2年

担当教員

土山　玄

戸次　大介

学期

後期

曜日・時限・教室

金曜

～

限

理学部3号館207-209【仮ITルーム1】

受講条件・その他注意
注意事項：共創工学部の学生は文理融合データサイエンスIを履修できません。将来的に文化情報工学学際プログラムを選択する予定の学生は本科目を履修できません。本科目の代わりにデータサイエンス（基礎）を履修してください。

授業の形態
講義，演習

教科書・参考文献
教科書については初回の授業でアナウンスします。

ＡＬＨ区分
ＡＬＨを実施しない

評価方法・評価割合
小論文（レポート）=90%（中間レポート：40％，期末レポート：50%），授業への参加態度=10%

主題と目標
本授業の主題はデータサイエンスの手法を学ぶことに加え、文化現象を対象にデータサイエンスの手法を用いた事例を概観し、文理融合型の研究におけるデータ分析の有効性と重要性を学ぶことです。それゆえ、本授業ではデータサイエンスの手法を理解することだけではなく、文化に関するデータに対してデータサイエンスの分析手法をどのように応用するのか理解することが重要になります。また、本授業では、生活に必要なデータサイエンスの基礎を直感的に理解できる内容をめざしながら、卒業研究の際に必要になりえるデータ分析の基礎も身につけてもらうことを目標とします。

主題と目標

本授業の主題はデータサイエンスの手法を学ぶことに加え、文化現象を対象にデータサイエンスの手法を用いた事例を概観し、文理融合型の研究におけるデータ分析の有効性と重要性を学ぶことです。それゆえ、本授業ではデータサイエンスの手法を理解することだけではなく、文化に関するデータに対してデータサイエンスの分析手法をどのように応用するのか理解することが重要になります。
また、本授業では、生活に必要なデータサイエンスの基礎を直感的に理解できる内容をめざしながら、卒業研究の際に必要になりえるデータ分析の基礎も身につけてもらうことを目標とします。

授業計画
第1回：データサイエンスを学ぶ前にデータサイエンスが現代社会で必要とされる背景と、その発展の歴史を概観します。データサイエンスの関わる文理共創の具体的な事例を学び、データを読み解く力がこれからの社会でどのような価値を持つのか、その全体像を理解します。第2回：データの要約膨大なデータを「1つの数値」で代表させる方法を学びます。平均値・中央値・最頻値の使い分けや、データのばらつきを示す分散や標準偏差、さらに2つの変数の関係性を表す相関係数など、データを客観的に記述するための基礎知識を養います。第3回：統計解析ソフトRの基礎本講義の演習ツールであるRの基本操作を習得します。プログラミングの基礎となる四則演算から、第2回で学んだ基本統計量の算出、分析の基本単位である矩形データの扱い方まで、実践を通じて学習します。第4回：データの可視化①（質的変数）アンケートの回答結果などの質的なデータを整理する技術を学びます。単純集計やクロス集計の仕組みを理解し、棒グラフや円グラフ、複数の項目の関係を示すモザイクプロットなど、データの背後にある傾向を視覚的に伝える手法を身につけます。第5回：データの可視化②（量的変数）数値として計測される量的なデータの分布を捉える方法を学びます。ヒストグラムでデータの形状を確認し、箱ひげ図で外れ値を見つけるなど、散布図や折れ線グラフを使い分けてデータの構造を正しく描き出すスキルを習得します。第6回：標本抽出と確率分布「一部のデータから全体を推測する」ための理論を学びます。正規分布などの代表的な確率分布の性質を理解し、母集団から偏りなく標本を取り出す無作為抽出の重要性を学習します。第7回：推定手元のデータから未知の全体像（母平均）を予測する手法を学びます。正規分布やt分布を活用し、点ではなく幅をもって推測する区間推定の考え方を学習します。これにより、データの不確実性を考慮した判断ができるようになります。第8回：統計的仮説検定① 「その差は偶然か、それとも意味があるのか」を論理的に判断する仕組みを学びます。2つのグループの平均値を比較し、客観的な証拠に基づいて結論を導き出すプロセスを通じて、直感に頼らない統計的な思考力を身につけます。第9回：統計的仮説検定② 2つの質的変数の関連性を確かめる「独立性の検定」を学びます。クロス集計表をもとに、見た目の数字に惑わされず、データの中に潜む構造的な関係性を統計的に判断する力を養います。第10回：回帰分析変数の関係を数式であらわし、現象を説明・予測する手法を学習します。演習ではRを用い、夏目漱石の文体データから執筆時期を推定する実践的な分析に挑戦します。第11回：線形判別分析「持っているデータから、その対象がどのグループに属するか」を予測する手法を学びます。回帰分析との違いを整理しながら、判別の境界線を引く仕組みや判別モデルの評価方法を学習し、分類問題の基礎的な考え方を身につけます。第12回：主成分分析主成分分析は多くの変数を持つ複雑なデータを、少数の合成変数にまとめる手法です。多次元の情報を2次元の図などで表現することで、データの全体像を直感的に把握する方法を学び、情報の整理と可視化の高度なテクニックを学習します。第13回：階層的クラスター分析「似たもの同士」を段階的にまとめ、樹形図（デンドログラム）を用いて分類する手法を学びます。夏目漱石の作品群を対象に、単語の出現率から作品間の距離を可視化し、データの分類構造を解釈するプロセスを体験します。第14回：非階層的クラスター分析あらかじめ決めたグループ数にデータを分割する、代表的な手法であるk-means法を学びます。階層的な手法との違いを理解し、大量のデータを効率的にグループ化するスキームを学ぶことで、データサイエンスの実践力を養います。第15回：総復習これまで学んだ記述統計、推測統計、多変量解析の流れを総括します。各手法がどのような問いに答えるためのものかを整理し、次学期の文理融合データサイエンスⅡへとつながる知識を整理します。

授業計画

第1回：データサイエンスを学ぶ前に
データサイエンスが現代社会で必要とされる背景と、その発展の歴史を概観します。データサイエンスの関わる文理共創の具体的な事例を学び、データを読み解く力がこれからの社会でどのような価値を持つのか、その全体像を理解します。

第2回：データの要約
膨大なデータを「1つの数値」で代表させる方法を学びます。平均値・中央値・最頻値の使い分けや、データのばらつきを示す分散や標準偏差、さらに2つの変数の関係性を表す相関係数など、データを客観的に記述するための基礎知識を養います。

第3回：統計解析ソフトRの基礎
本講義の演習ツールであるRの基本操作を習得します。プログラミングの基礎となる四則演算から、第2回で学んだ基本統計量の算出、分析の基本単位である矩形データの扱い方まで、実践を通じて学習します。

第4回：データの可視化①（質的変数）
アンケートの回答結果などの質的なデータを整理する技術を学びます。単純集計やクロス集計の仕組みを理解し、棒グラフや円グラフ、複数の項目の関係を示すモザイクプロットなど、データの背後にある傾向を視覚的に伝える手法を身につけます。

第5回：データの可視化②（量的変数）
数値として計測される量的なデータの分布を捉える方法を学びます。ヒストグラムでデータの形状を確認し、箱ひげ図で外れ値を見つけるなど、散布図や折れ線グラフを使い分けてデータの構造を正しく描き出すスキルを習得します。

第6回：標本抽出と確率分布
「一部のデータから全体を推測する」ための理論を学びます。正規分布などの代表的な確率分布の性質を理解し、母集団から偏りなく標本を取り出す無作為抽出の重要性を学習します。

第7回：推定
手元のデータから未知の全体像（母平均）を予測する手法を学びます。正規分布やt分布を活用し、点ではなく幅をもって推測する区間推定の考え方を学習します。これにより、データの不確実性を考慮した判断ができるようになります。

第8回：統計的仮説検定①
「その差は偶然か、それとも意味があるのか」を論理的に判断する仕組みを学びます。2つのグループの平均値を比較し、客観的な証拠に基づいて結論を導き出すプロセスを通じて、直感に頼らない統計的な思考力を身につけます。

第9回：統計的仮説検定②
2つの質的変数の関連性を確かめる「独立性の検定」を学びます。クロス集計表をもとに、見た目の数字に惑わされず、データの中に潜む構造的な関係性を統計的に判断する力を養います。

第10回：回帰分析
変数の関係を数式であらわし、現象を説明・予測する手法を学習します。演習ではRを用い、夏目漱石の文体データから執筆時期を推定する実践的な分析に挑戦します。

第11回：線形判別分析
「持っているデータから、その対象がどのグループに属するか」を予測する手法を学びます。回帰分析との違いを整理しながら、判別の境界線を引く仕組みや判別モデルの評価方法を学習し、分類問題の基礎的な考え方を身につけます。

第12回：主成分分析
主成分分析は多くの変数を持つ複雑なデータを、少数の合成変数にまとめる手法です。多次元の情報を2次元の図などで表現することで、データの全体像を直感的に把握する方法を学び、情報の整理と可視化の高度なテクニックを学習します。

第13回：階層的クラスター分析
「似たもの同士」を段階的にまとめ、樹形図（デンドログラム）を用いて分類する手法を学びます。夏目漱石の作品群を対象に、単語の出現率から作品間の距離を可視化し、データの分類構造を解釈するプロセスを体験します。

第14回：非階層的クラスター分析
あらかじめ決めたグループ数にデータを分割する、代表的な手法であるk-means法を学びます。階層的な手法との違いを理解し、大量のデータを効率的にグループ化するスキームを学ぶことで、データサイエンスの実践力を養います。

第15回：総復習
これまで学んだ記述統計、推測統計、多変量解析の流れを総括します。各手法がどのような問いに答えるためのものかを整理し、次学期の文理融合データサイエンスⅡへとつながる知識を整理します。

時間外学習
時間外には復習として講義資料を読み返すことを推奨する。また、本授業では文理融合データサイエンスに関連する書籍を紹介する。余裕がある受講生にはそれらの書籍を読むことを薦める。

学生へのメッセージ
各自のコンピュータにExcelとRをインストールし、積極的にデータ分析を体験してもらいたい。データサイエンスには体験することで理解が深まることがたくさんあります。また、本授業では予習よりも復習を重視することを薦めます。授業で採り上げた内容に不明なことがあれば積極的に質問してください。

学生へのメッセージ

各自のコンピュータにExcelとRをインストールし、積極的にデータ分析を体験してもらいたい。データサイエンスには体験することで理解が深まることがたくさんあります。また、本授業では予習よりも復習を重視することを薦めます。授業で採り上げた内容に不明なことがあれば積極的に質問してください。

学生の問い合わせ先
tsuchiyama.gen@ocha.ac.jp