Глави от статии

Интервю със Сандер Лестрейд за неговото решение на вековната мистерия на закона на Zipf

Интервю със Сандер Лестрейд за решението му на вековна лингвистична задача

Интервю със Сандер Лестрейд за решението му на вековна лингвистична задача

Законът на Zipf е известен отдавна. Той устояваше на обяснението почти век и се превърна в най-голямата загадка в компютърната лингвистика. Наскоро медиите съобщиха, че Сандер Лестрейд от университета Радбуд в Неймеген е намерил решение. В кратко интервю той обяснява своето решение на Закона на Zipf.

интервю

1. Бихте ли описали накратко закона на Zipf на нашите читатели?

Sander Lestrade: Законът на Zipf гласи, че честотата на дадена дума в даден текст може да бъде описана по отношение на нейния честотен ранг, така че вторият най-често използван елемент да е наполовина по-чест от първия (честота първи елемент/2), третата дума има една трета от честотата на честотата на първия елемент (честота първа/3) и т.н. До най-малко използваната дума, която се появява само веднъж!

2. Следва ли всеки език закона на Zipf? Ако не, кои езици не спазват закона на Zipf?

Сандер Лестрейд: Въпреки че не съм го проверявал сам, лингвистите казват, че законът наистина важи за всеки език. (Предполагам, че това не важи за пиджин езици, тъй като те нямат подходяща граматика.)

3. Бихте ли могли да ни обясните вашето откритие? Позовавайки се на съобщението "Ако умножите разликите в значението в рамките на класовете думи, с необходимостта от всеки клас думи, ще намерите великолепно разпространение на Zipfian." Бихте ли, моля, обяснете го малко по-отблизо, каква е разликата в значението, как го определяте количествено? Може би един пример ще помогне.

Тази семантична вероятност трябва да се умножи (буквално) с необходимостта от дума от тази категория. Езиците имат правила, които казват как трябва да се комбинират думите. Глаголът изисква една или две съществителни фрази (или местоимения), съществителната фраза обикновено идва със статия и т.н. Това се свежда до редица класове думи (като глаголи, съществителни, местоимения, предлози), които всички имат очакваната честота на използване в даден език. Грубо, класовете се използват еднакво често, но те се различават значително по размер: има само три статии на английски език, но десетки хиляди съществителни. В резултат на това една статия ще се използва средно много по-често от съществително.

Като се има предвид това, което току-що беше казано за значението, обаче думите не се използват еднакво често в класа си. Това зависи от тяхната спецификация на значението.

4. Вашето обяснение-теория ни казва ли някакво разбиране защо езиците се изграждат по този начин? Защо имат Zipfian разпространение, а не някакво друго разпространение?

Sander Lestrade: Като се имат предвид класовете думи, които се различават по размер на класа по порядки или величина, може да се очаква някакво много грубо степенно право като разпределение. Тогава въпросът е защо езиците имат малки граматически и огромни лексикални класове. Лексикалните класове се обясняват лесно: имаме нужда от много думи, за да говорим за нещата, които ни интересуват. Защо се развиват граматическите класове е по-малко ясно. Според мен те са случайни странични продукти от използването на езика, които се развиват само с течение на времето, а не присъща част от езика. Но не всеки би се съгласил с това;)