ことばの統計

基本情報

科目名
ことばの統計
副題
コーパス日本語学入門
授業タイプ
講義科目
担当教員
市村太郎
曜日
金曜日
時限
4時限
授業シラバス
[シラバスへのリンク]

授業概要

 本講義では、言語研究に関心のある文科系の学生を想定し、コンピュータやコーパスを利用して日本語を言語学的に研究するための基礎的な方法を学ぶ。
 主として国立国語研究所で作成されたコーパスを例に、コーパスとは何かを理解し、コーパスを検索し、集計・分析する基礎的な方法を身に着ける。また実際にコーパスを作成する基礎的な方法を学ぶ。そのうえで、日本語研究(言語研究)に応用する方法を検討する。

授業計画

第1回:コーパスとは何か
オリエンテーションおよび「コーパス」の解説
第2回:『現代日本語書き言葉均衡コーパス』の特徴と使い方
『現代日本語書き言葉均衡コーパス』の特徴と利用方法
第3回:『日本語歴史コーパス』の特徴と使い方
『日本語歴史コーパス』の特徴と利用方法
第4回:コーパスを活用する
「中納言」を利用したコーパス検索の実践
第5回:文字列検索と正規表現(1)
正規表現等を利用したテキストデータの検索
第6回:文字列検索と正規表現(2)
正規表現を利用したテキストデータ検索の実践
第7回:データの集計と整理(1)
表計算ソフトを用いたコーパスデータの集計方法
第8回:データの集計と整理(2)
表計算ソフトを用いたコーパスデータの集計の実践とグラフ作成
第9回:コーパスから得られたデータの分析(1)
頻度の扱い
第10回:コーパスから得られたデータの分析(2)
相関・相関係数他
第11回:コーパスから得られたデータの分析(3)
仮説検定、クラスター分析他
第12回:形態素解析
形態論情報付きデータを作成する
第13回:XMLデータを作成する(1)
XMLとはなにか
第14回:XMLデータを作成する(2)
「ひまわり」を利用した検索用データ作成
第15回:コーパスを利用した日本語研究まとめ
今後のコーパス開発や日本語研究との関わり等