Định luật Zipf

Định luật Zipf , trong xác suất, khẳng định rằng tần số f của các sự kiện nhất định tỷ lệ nghịch với thứ hạng r của chúng . Luật ban đầu do nhà ngôn ngữ học người Mỹ George Kingsley Zipf (1902–50) đề xuất về tần suất sử dụng các từ khác nhau trong tiếng Anh; tần số này được cho xấp xỉ bởi f ( r ) ≅ 0,1 / r . Do đó, từ phổ biến nhất (hạng 1) trong tiếng Anh, là từ , xuất hiện khoảng một phần mười thời gian trong một văn bản điển hình; từ phổ biến tiếp theo (hạng 2), là của , xuất hiện khoảng một phần hai mươi lần; và kể từ đó trở đi. Một cách khác để xem xét điều này là một từ xếp hạng r xảy ra 1 /r thường xuyên gấp lần so với từ thường xuyên nhất, vì vậy từ xếp hạng 2 xuất hiện thường xuyên bằng một nửa so với từ xếp hạng 1, từ xếp hạng 3 một phần ba thường xuyên, từ xếp hạng 4 một phần tư thường xuyên, v.v. Vượt quá thứ hạng 1.000, luật hoàn toàn bị phá vỡ.

Định luật Zipf có chủ đích đã được quan sát cho nhiều thống kê khác tuân theo phân phối hàm mũ. Ví dụ, vào năm 1949, Zipf tuyên bố rằng thành phố lớn nhất trong một quốc gia có diện tích gấp đôi thành phố lớn nhất tiếp theo, gấp ba lần kích thước của thành phố lớn thứ ba, v.v. Mặc dù sự phù hợp không hoàn hảo cho ngôn ngữ, dân số hoặc bất kỳ dữ liệu nào khác, nhưng ý tưởng cơ bản của định luật Zipf rất hữu ích trong các kế hoạch nén dữ liệu và phân bổ tài nguyên của các nhà quy hoạch đô thị.

William L. Hosch