Nauka dla Społeczeństwa

26.04.2024
PL EN
25.09.2013 aktualizacja 25.09.2013

Statystyka ukryta między słowami/ XVII Festiwal Nauki w Warszawie

Czujemy, że pewne słowa pojawiają się w tekście zbyt często? Statystyka może nam pomóc zrozumieć, jak poprawniej budować dłuższe wypowiedzi. Była o tym mowa podczas wykładu dr Małgorzaty Kornackiej "Czy tekst można policzyć?" na Festiwalu Nauki w Warszawie.

Okazuje się, że językiem rządzą prawa, których nie musimy znać, ale do których nieświadomie się stosujemy. To dlatego nie podobają się nam np. teksty, w których jakieś słowo pojawia się zbyt często. Aby wypowiedź lepiej brzmiała, staramy się więc zastępować zbyt często pojawiające się wyrazy innymi. Np. w tekście o Janie Kochanowskim na Wikipedii nazwisko poety nie jest wymieniane w każdym zdaniu. Zamiast tego używa się zaimków (jego, dla niego, o nim) czy tzw. zera zaimkowego (np. Jan wyjechał do Włoch. Zwiedził tam okolice Padwy). Stosować można też hiperonimy (np. poeta) czy uciekać się do wyrazów bliskoznacznych.

Dr Małgorzata Kornacka z Wydziału Lingwistyki Stosowanej Uniwersytetu Warszawskiego wyjaśniła, że takie zabiegi językowe mają związek z prawem Zipfa. Aby je zrozumieć, ważna jest umiejętność liczenia w tekście tzw. leksemów. Za jeden leksem uważane są różne formy gramatyczne jednego wyrazu np. "czytam", "czytalibyśmy", "niech będzie czytany". Aby sprawdzić, czy prawo Zipfa jest spełnione, należy przygotować ranking najczęściej występujących w tekście leksemów. Miejsca w tym rankingu nazywane jest rangą. Prawo Zipfa zakłada, że iloczyn rangi danego leksemu i częstotliwości jego występowania w tekście (liczby wystąpień) powinien być stały.

Jeśli więc - przy zachowanym prawie Zipfa - najczęściej występujący w tekście leksem pojawia się 24 razy (ranga = 1, a częstotliwość = 24, 1x24=24), to kolejny najczęściej występujący powinien pojawić się ok. 12 razy (jego ranga = 2, częstotliwość = 12, 2x12=24), a trzeci w kolejności - ok. 8 razy. Kiedy proporcje nie są zachowane, odbiorca może mieć wrażenie, że coś z tekstem jest nie tak. "Wyczuwamy, że pewnych słów jest za dużo, że są nadreprezentowane i coś w tekście zgrzyta" - komentowała dr Kornacka.

Jak podała prelegentka, prawo Zipfa nie jest spełnione np. w wierszyku mnemotechnicznym:

"Bolesław Chrobry, Łokietek, Nero/ proszę to pisać wielką literą/ Piszcie tak samo poniższe słowa:/ Europejczyk, Murzyn i Słowak./ Karpaty, Gopło, Atlantyk, Śnieżka -/ w słowach tych wielka litera pierwsza./ Słów: Święto Lasu albo PKO -/ Przenigdy nie pisz literą małą. /Ponadto wielką literę wbuduj/ w „Przegląd Sportowy", w „Trybunę Ludu"./ Pisząc „Na przełaj" lub Wybór wierszy/ wielką literę wstaw w wyraz pierwszy! (...)

Tu leksemy: "litera", "słowo", czy "wielki" pojawiają się nieproporcjonalnie często i czytelnik to zauważa.

Prelegentka opowiadała też o innych wskaźnikach mających znaczenie w analizie statystycznej tekstów. Dzięki nim można np. ustalić, czy dany utwór rzeczywiście wyszedł spod ręki danego autora. Dzięki temu ustalano m.in., czy utwory Homera są dziełem jednej tylko osoby. Statystyka pomogła również w datowaniu tekstu Williama Szekspira.

PAP - Nauka w Polsce

lt/ agt/

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

Copyright © Fundacja PAP 2024