지프의 법칙(Zipf's law)
단어의 빈도는 단어 빈도 랭킹에 반비례한다
law stat
개요
- 수학적 통계를 바탕으로 밝혀진 경험적 법칙.
- 물리 및 사회 과학 분야에서 연구된 많은 종류의 정보들이 지프 분포에 가까운 경향을 보인다.
- 도시의 인구 순위나 기업의 크기, 소득 순위 등과 같은 언어학과 관련이 없는 다른 여러가지 순위에서도 동일하게 발견된다고 한다.
주어진 언어 자료에 있어서 어떤 단어의 빈도는 빈도 테이블에서 전반적인 단어 목록의 랭크에 반비례한다.
쉽게 이해하자면 다음과 같다.
- 빈도 1위인 단어는 빈도 2위인 단어보다 약 2배 높은 빈도를 갖는다.
- 빈도 1위인 단어는 빈도 3위인 단어보다 약 3배 높은 빈도를 갖는다.
- …
다음은 내가 Computer(wikipedia) 문서의 단어 빈도를 계산해 본 결과이다.
순위 | 단어 | 카운트 |
---|---|---|
1 | the | 645 |
2 | of | 386 |
3 | and | 265 |
4 | to | 255 |
5 | a | 242 |
6 | in | 192 |
… | … | … |
백의 자리 숫자만 보면 1순위부터 3순위까지 6
, 3
, 2
로 대략 지프의 법칙과 비슷한 결과가 나오고 있다.