English-corpora.orgの比較的新しい機能に、Virtual corpusと言って、コーパス内に自分のコーパスを作成する機能がある。
あるのは知っていたが、これまであまり使用していなかった。ふとしたことから、必要に駆られたので試しに使ってみることにした。
こちらの動画を参考にした。
Creating your own, specialised corpus on english-corpora.org
【目的】
イギリス英語・アメリカ英語におけるHave you got~? Do you have ~? Have you~?の使用について調査する。
まず注目すべき点は、英米差、ジャンル、時代といったところか。
現在の用法については、English-Corpora.orgのBNCとCOCAを利用できる。ジャンルもある程度比較可能である。
歴史的なものについては、COHAでアメリカ英語の歴史的変遷は以下のように辿れるが、これに対するイギリス英語の歴史コーパスがなかなか見つからない。できればBalanced corpusで探したい。
<https://www.english-corpora.org/coha/ Access 17.11.2021>
イギリス英語の歴史コーパスとしは、English-Corpora.orgのHansard Corpusがまずあるが、これはイギリス議会の議事録のみを収録しているため、単一ジャンルコーパスである。Have you got~?などの疑問文は口語的なため、フォーマルな言葉遣いが期待される議会ではあまり使われないだろうと想像した。確認したところ、やはり頻度はとても低い。COHAとの比較には使えないようだ。
続いて考えたのは、以下の2つである。
・ARCHER(A Representative Corpus of Historical English Registers)
・PPCMBE(The Penn-Helsinki Parsed Corpus of Modern British English)
Pennの方は有料で手元にないので断念、しかも時代が1700−1914なので、一番見たい20世期が入っていないため、とりあえず除外。
Archerは申し込めば無料で利用できるので使ってみたが、コーパスサイズという点で少なく、特に今回のように疑問文を調査するのには適していないことが分かった。
そこで考えたのが、English-Corpora.orgで利用できるGoogle Booksだが、これもやはりジャンルの点であまり頻度が現れないし、ジャンル指定もできない。
うぬぬと頭を悩ませてつつ、English-Corporaのリストを眺めてみると、、、あるじゃん。The TV CorpusとThe Movie Corpus (6 countries)とあるじゃないか。探していたのは、Spoken registerで、これはもしやと使い始めた。
予想通り、この2つのコーパスでは疑問文の頻度がしっかりと見つかった。
Have you got~?がイギリス英語で高頻度で使われることもバッチリわかる。
<https://www.english-corpora.org/tv/ Access 17.11.2021>
そして一番みたかったのは、イギリス英語での使用の歴史的変遷なのだが、これが一筋縄ではいかなかった。調べてみると、既存のインターフェイスではイギリス英語を指定してコーパス検索をすることができないようだった。それでVirtual Corpusを作成すれば解決することに行き着いた。
イギリス英語に限定して、10年区切りでコーパスを作成した。最後の2010年代に関しては、総語数が多すぎるので1つのサブコーパスとして作成することができなかった。そのため3つのコーパスに分割して作成した。
作成したVirtual Corporaで早速、イギリス英語におけるHave you got~?とDo you have~?の通時的変化を調査してみた。
結果を以下に示す。1950年台のデータはテキストが3つしかないため、データに信頼性がないので除外した。2010年台のデータ(UK 2010S*)は、*をつけているが、コーパスで利用可能な2010−2017年のデータのみを含んでいる。すぐ上の3つのデータを総合した。
データを観察すると、以下のことが言えそうである。
Comments