dataは一般的な語である。
もともとラテン語由来で、英語においてラテン語複数をとる代表的な名詞だ。
他には、stimulus > stimuli, corpus > corpora などがある。
(参照:堀田隆一 hellog「#3586. 外来複数形」)
dataはもともとdatum(単数形)の複数形だが、現在では集合的に単複両扱いされる。
辞書「ウィズダム英和辞典」によると、学術的な書き言葉ではdataを複数扱いすることが多いとある。
実際に自分で論文を書く時に気になったりしてネイティブスピーカーに確認しても、どちらでも良いと言われることがよくある。結果として、私は普段は複数扱いをしている。
でも、実態はどうなのだろう?
COCAで調べると data is は5457例、一方で data are は4749例が確認できた。
つまり、単純に見ると単数扱いの方が多い。。。
ジャンルはどうだろう。
複数扱い(表1)は、うんやっぱり学術で多い。
単数扱い(表2)は、、、口語で、というよりもネットで多いようだ。
学術分野においても、data isが使われないということでもないみたいだ。
複数扱いが2.5倍ほどだが、この程度だとやはりinterchangeableだと思える。
表1:COCAにおける "data are"
表2:COCAにおける "data is"
コメント