Google Ngram Viewerの問題点

英語の単語や熟語の実際の使用頻度を比較し、英語学習や研究に役立てることができるツールに、Google Ngram Viewerがある。

ngramの概念については、堀田隆一先生の説明（hellog #2324）を参考にしていただきたい。

先日の記事「older/elder brother?」でも利用したように、オンライン上で、登録の必要なく誰でもすぐに利用できるのがポイントだ。

しかし、厳密な研究データの収集という観点からいうと問題点も多いため、私のスタンスとしては、あくまで補助的に利用するに過ぎない。便利だが。

英文法の問題で、次のようなフレーズがあった。

get the engine ( )

「エンジンをかける」

空所に入るのは started もしくは running だが、どちらがより一般的であるのかをngramで見てみた。

＊普通は素直に start the engineと言うはずだ。

この分布だけ見ると、startedに軍配が上がりそうだが、念のために通常のGoogle Searchでも調べてみた。

すると、

"get the engine started" 約786,000件

"get the engine running" 約2,510,000件

がヒットした。明らかに running の方が多い。。むむ。

これは困った。理由を明らかにしないと怖くて今後Ngramが使えない。

COCAを使ってみる。

GET the engine started 14例

GET the engine running 2例

逆転した。

10億語のコーパスでこの程度か、やっぱりどちらにせよ頻度は低い。

(ちなみに、START the engineは 582例)

頻度が低過ぎてジャンル間の差異は読み取れそうにない。

だが予想はつく。きっとジャンルだ。

Google Ngram Viewerの元になっているデータは、Google Booksである。

出版された書籍なので、書き言葉で比較的フォーマルな文体が多いである。

一方で、Google SearchはGoogle上に存在する全ての文字列が検索対象である。

つまり、インフォーマルで口語的な文体も多く含まれる。

Google Searchで、検索対象を限定して調べてみよう。

New York Times (site:nytimes.com) started 9

running 4

Twitter (site:twitter.com) started 454

running 5180

比較的フォーマルな文体を用いるNew York Timesではget the engine startedが、インフォーマルな文体が多いと考えられるTwitterではget the engine runningの頻度がそれぞれ高い。

厳密な研究では更なる調査が必要だが、勉強の参考にする程度であれば、このくらいで十分だろう。Googleを利用するだけで、この程度までは推測ができる。便利な時代だ。同時に、Ngramにあるからとデータを盲信しないように気をつける必要を再確認した。

矢冨弘 homepage