ことばの統計

基本情報

科目名
ことばの統計
副題
日本語研究のためのコーパス利用法
授業タイプ
講義科目
担当教員
庵功雄
曜日
金曜日
時限
5時限
授業シラバス
[シラバスへのリンク]

授業概要

 本講義では、コーパスを利用して日本語を研究するための基礎的な方法を学ぶ。
 主として国立国語研究所で作成されたコーパスを例に、コーパスを検索し、集計・分析する基礎的な方法を身に着ける。また実際に簡単なコーパスの作成を通じ、コーパスを作成する基礎的な方法を学ぶ。そのうえで、実際の日本語研究(言語研究)に応用する方法を検討する。

授業計画

第1回:コーパスとは何か
オリエンテーションおよび「コーパス」の解説

第2回:『現代日本語書き言葉均衡コーパス』の特徴と使い方
『現代日本語書き言葉均衡コーパス』の特徴と利用方法

第3回:『日本語歴史コーパス』の特徴と使い方
『日本語歴史コーパス』の特徴と利用方法

第4回:テキストデータの検索
正規表現等を利用したテキストデータの検索

第5回:コーパスから得られたデータの集計
表計算ソフトを利用したデータ集計

第6回:コーパスから得られたデータの分析
データを分析するための手法

第7回:テキストデータを作る
文字列検索に対応するテキストデータの作成と、その利点や欠点などの検討

第8回:XMLを作成する(1)テキストを仕分けする
XMLデータ作成の基礎

第9回:XMLを作成する(2)XMLタグの設計
XMLデータ作成の基礎

第10回:XMLを作成する(3)文書構造化とHimawariの利用
XMLデータ作成の基礎

第11回:形態素解析
形態素解析とは何か

第12回:コーパス利用に際して留意すべきこと
「研究」レベルでコーパスをどう利用するか

第13回:コーパスを使った研究(1)語彙・文法
語彙・文法に関する研究例紹介

第14回:コーパスを使った研究(2)文体・位相
文体・位相に関する研究例紹介

第15回:コーパスを利用した日本語研究の今後
今後のコーパス開発や日本語研究との関わり等