情報学演習2[21A0191]

科目名
Course Title
情報学演習2[21A0191]
Exercises in Information Sciences 2
授業言語
Language
Japanese
科目区分・科目種 情報 クラス テキストデータの計量分析
コンピテンシー
カラーコード
単位数 2.0単位 履修年次 14

担当教員  
学期 後期
曜日・時限・教室
火曜 9 10 理学部3号館601室【ITルーム1】

授業の形態
講義,演習,全面オンライン

教科書・参考文献
教科書の指定はありません。 参考書@ 書名:文体論 ことばのスタイル 著者:ピエール・ギロー 訳者:佐藤信夫 出版社:白水社 出版年:1979 参考書A 書名:数字が明かす小説の秘密 著者:ベン・ブラット 訳者:坪野圭介 出版社:DU BOOKS 出版年:2018 参考書B 書名:犯罪捜査のためのテキストマイニング: 文章の指紋を探り, サイバー犯罪に挑む計量的文体分析の手法 監修:金明哲 著者:財津亘 出版社:共立出版 出版年:2019

評価方法・評価割合
小論文(レポート)=90%(中間レポート:40%,期末レポート:50%),授業への参加態度=10%(毎回の授業で質問やコメントを記入してもらいます)

主題と目標
テキスト処理の基礎知識と技法を広く身につけ、各々が興味を持つテキストを対象とし、計量分析を行えるようになることが本授業の到達目標です。 本授業ではテキストデータを用いて名作と称される小説に使用される語彙や表現の特徴を統計的に解明する方法を概観し、テキストデータの計量分析の演習を行います。授業形態は1回の授業の前半が講義形式、後半が演習形式です。演習では教員と学生、学生間のディスカッションを通じて分析課題の設定、テキストデータの収集、正規表現を用いたテキストデータのクリーニング、形態素解析、分析、分析結果の解釈、報告を行うことで文学作品の計量分析に係わる一連の作業を実践的に学修します。 また、本授業におけるデータ分析ではデータサイエンスの手法を用います。直感的に理解できる内容をめざしながら、卒業研究の際に必要になってくるデータサイエンスの基礎も身につけてもらうことを目標とします。演習ではExcelやRを使用します。

授業計画
1. テキストデータとは何か
2. コーパスとは何か
3. 自然言語処理とテキストマイニング
4. 計量文献学
5. テキストデータの取得
6. テキストデータの加工
7. 正規表現
8. 形態素解析
9. 書き手の識別
10. 執筆年代の推定

本授業では毎週1つの項目を採り上げるのではなく、1回の授業で複数の項目を採り上げることもあれば、1つの項目を複数回にわたって採り上げることもあります。特に、書き手の識別と執筆年代の推定について重点的に取り扱い、演習を行います。

時間外学習
授業で解説した分析手法を、Rを用いて実際に分析できるように理解を深めておいてください。また、分析対象として選んだ小説を通読することを薦めます。

学生へのメッセージ
数学や統計学が苦手でも小説が好きであれば楽しめます。小説を対象にデータ分析を行うことで今まで気付かなかったことがたくさん発見できると思います。また、分析ではRを使用することが多いので、各自が所有するコンピュータにRをインストールして、積極的にデータ分析を体験してください。また、本授業では予習よりも復習に重点をおくことを薦めます。授業や時間外学修で生じた疑問点は積極的に質問してください。