出現頻度

下の図は我が家のちょっとした余興のために息子が作ったもので、ひらがなの出現頻度を見たものだ。適当に選んだ13のネットニュースを対象にpython用いてカウントしている。ただし漢字は除き小文字やカナもひらがなとし、濁点、半濁点を除いたているとのこと。
結果、”の”の出現頻度が一番多いという図だ。
これを見て数年前、NHKで言語の定義に関しての番組を思い出した。

そこで語られていたのは再帰性で、いわゆるマトリョーシカのような”入れ子”のことだ。
数学やプルグラミンではいろんなところで出てくるのだが、言語でいえば、たとえば”学校の庭の畑の土の…”のように”の”を使って入れ子を作って表現することのようだ。
この構造が言語の本質だと、ある言語学の大御所が唱え、長年その理論が支配していたらしいのだが、ある若手研究者がコンピュータを駆使し、アマゾンのビダハン族の言語はそうでないことを発見した、というような内容だった。
ちなみにこれを端に始まった大御所とのやりとりをビダハン論争というらしいが、それはさておき、もちろん日本語は従来の説とは矛盾ない再帰性を持つ言語なのだろうから、”の”が多く出てくるのだろうと思った。

ところがネットでひらがなの出現頻度を調べると”い”が一番多いという。
日本語には”美しい”とか”きれい”とか形容詞が多いことが原因だろうか。

そういえば、”いの一番”ともいうしなぁ、と馬鹿馬鹿し”い”結論で、”い”の出現頻度に一役買うのであった。

null