Strona główna Aktualności
Technologie

Powstał polski słownik, który mierzy odległości między polskimi słowami

13.05.2016 Technologie, Społeczeństwo

Spłaszczona okolica słowa "herbata" źródło: Marek Rogalski

Słownik języka polskiego, który pomoże komputerom rozeznać się w znaczeniach słów, przygotowali badacze z Łodzi. Dokument wyznacza odległości między słowami, a przez to - określa relacje między nimi. Dzięki temu programy będą np. sprawniej sugerować poprawki w tekstach.

Na Politechnice Łódzkiej powstał nowy rodzaj słownika, przeznaczony dla badaczy języka oraz naukowców pracujących nad sztuczną inteligencją. Słownik ma szansę wznieść na wyższy poziom możliwość edycji testów - być może dzięki niemu łatwiej będzie pisać teksty na smartfonach, a w edytorach tekstowych wykrywane będą pomyłki, których dotąd programy te nie pokazywały. Słownik jest już udostępniony za darmo.

 

Inteligentny słownik języka polskiego oparty o wektorowe reprezentacje słów opracowali doktorant Marek Rogalski oraz prof. Piotr Szczepaniak z Instytutu Informatyki Politechniki Łódzkiej. Ich rozwiązanie zostało docenione na wystawie wynalazków Geneva Innovations - otrzymało złoty medal z wyróżnieniem.

 

"Dla komputera każde słowo to tylko losowy zbiór liter, który nic nie znaczy" - zwraca uwagę w rozmowie z PAP Marek Rogalski. Dlatego naukowcy zastanawiali się, jak sprawić, żeby komputerom lepiej się pracowało na tekstach tworzonych w języku naturalnym.

 

Wcześniej powstawały już słowniki z założenia przyjazne maszynom, w których np. poszczególne hasła były połączone hiperlinkami z synonimami (np. "helikopter" - "śmigłowiec"), antonimami (np. "młody" - "stary") czy hiponimami ("jamnik" jest hiponimem słowa "pies"). Były to jednak ciągle dokumenty przypominające budową słowniki tradycyjne.

 

Natomiast słownik z Politechniki Łódzkiej skonstruowany jest w zupełnie inny sposób - tam związki między słowami wyznaczać można matematycznie. A przecież operacje na liczbach to coś, w czym komputery czują się jak ryba w wodzie.

 

STO WYMIARÓW KAŻDEGO SŁOWA

 

"Zbudowaliśmy sieć neuronową, która czytała polską Wikipedię. Sieć patrzyła na słowa - które dla niej nic nie znaczą - i w poszczególnych zdaniach próbowała odgadnąć kolejne wyrazy. Dzięki temu system sam uczył się, jak poprzednie słowa wpływają na kolejne, rozpoznawał, które się ze sobą łączą i które wyrazy są ze sobą powiązane tematycznie i znaczeniowo" - mówi Marek Rogalski.

 

Efektem pracy tej sieci jest słownik, w którym każde słowo reprezentowane jest punkt opisany jest setką liczb. Każde słowo w języku staje się więc dla komputera punktem w stuwymiarowej przestrzeni. W ten sposób między różnymi punktami - czyli słowami - można wyliczać odległości. "Cechą słownika jest to, że słowa, która znajdują się blisko siebie, znaczą coś podobnego, np. są synonimami" - opowiada Rogalski.

 

Jak opowiada naukowiec, różne obszary tej przestrzeni odpowiadają różnym klasom słów. Jest więc przestrzeń związana z rzeczownikami, nazwami własnymi, czy czasownikami. Poza tym różne podobszary tych przestrzeni zawierają coraz węższe kategorie słów - na przykład w okolicy słowa herbata, możemy znaleźć słowa takie jak kawa, cytryna czy mleko.

 

Doktorant zdradza jeszcze inną ciekawą właściwość słownika. "Jeśli np. wyprowadzimy ze słowa >>Polska<< odcinek do słowa >>Warszawa<<, a następnie przeniesiemy ten odcinek i wyprowadzimy go ze słowa >>Francja<<, to koniec tego odcinka wypadnie gdzieś niedaleko punktu, w którym leży słowo >>Paryż<<" - podaje przykład badacz. Dzięki temu można wyznaczać zależności między słowami, rozpoznawać między nimi analogie i przenosić te analogie na inne słowa.

 

Pomysł na słownik opracowali kilka lat temu naukowcy zagraniczni. Problemem było jednak dostosowanie algorytmów do języka polskiego. "Było to dość kłopotliwe - wymagało rozwiązania problemów technicznych i zabrało sporo czasu" - zaznacza Rogalski. Przyznaje, że takie słowniki powstają już dla różnych języków, ale specjaliści niechętnie się nimi dzielą. Tymczasem rozwiązanie z PŁ - jak deklaruje badacz z tej uczelni - w ciągu kilku miesięcy zostanie udostępnione za darmo. Będą z niego mogli korzystać wszyscy zainteresowani.

 

APLIKACJA W APLIKACJACH

 

Jak wyjaśnia naukowiec z PŁ, słownik ma postać ważącego ok. 1 GB pliku tekstowego. Można go wykorzystać np. w przygotowaniu aplikacji mobilnych lub edytorów tekstów. Słownik mógłby sprytnie podpowiadać użytkownikowi smartfona następne słowa wpisywanego tekstu. Poza tym, jak dodaje Rogalski - słownik usprawniłby pracę programów do edycji tekstów. Możliwości wykrywania błędów językowych przez te aplikacje są dziś ograniczone. Wprawdzie w tekstach zaznaczane są literówki, ale jeśli przez pomyłkę napiszemy słowo, które już istnieje - program tego nie wychwyci. Jeśli np. w chcemy zwrócić uwagę "na różnice między pokoleniami", a omsknie nam się palec na klawiaturze, i wyjdą z tego "narożnice miedzy pokoleniami", tradycyjny edytor tekstowy nie zauważy pomyłek. Tymczasem komputerowy słownik z PŁ mógłby powiadomić użytkownika, że w tekście coś się nie klei.

 

Rogalski przyznaje, że Wikipedia (z której na razie korzystano przy konstruowaniu słownika) to dość specyficzny zbiór tekstów. Język Wikipedii nie jest przecież językiem, jakim posługujemy się na co dzień w rozmowach. Stąd też na razie w słowniku są pewne braki. "Określeń potocznych się tu raczej nie znajdzie. Ale za to nasz słownik świetnie nadaje się do rozpoznawania nazwisk, krajów, miast, gatunków roślin" - wymienia rozmówca PAP.

 

Jego zdaniem z nowego rozwiązania mogliby korzystać wielbiciele krzyżówek. "Możemy podać kilka słów, w okolicy których szukamy odpowiedzi, i nasz słownik podałby jakieś możliwe hasła" - tłumaczy.

 

Twórcy słownika zastanawiają się jednak nad udoskonaleniem słownika dzięki pracy na bazie Narodowego Korpusu Języka Polskiego, który zawiera teksty bardziej różnorodne i reprezentatywne dla polskiego języka. To sprawiłoby, że słownik lepiej spisywałby się w codziennych sytuacjach.

 

PAP - Nauka w Polsce, Ludwika Tomala

 

lt/ zan/

Spłaszczona okolica słowa "politechnika" źródło: Marek Rogalski

Spłaszczona okolica słowa "Łódź". W efekcie powstała "mapa" Polski zbudowana w pełni na podstawie tekstu - bez żadnych informacji o faktycznych położeniach miast. Źródło: Marek Rogalski

Podziel się
Ocena: 0 głosów

Logowanie



Nie pamiętam hasła

Rejestracja

Komentarze: 0
Skomentuj Zobacz wszystkie   Dyskutuj na forum

Uwaga Redakcje!

Wszelkie materiały PAP (w szczególności depesze, zdjęcia, grafiki, pliki video) zamieszczone w serwisie "Nauka w Polsce" chronione są przepisami ustawy z dnia 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych oraz ustawy z dnia 27 lipca 2001 r. o ochronie baz danych.

 

PAP S.A. zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: www.naukawpolsce.pap.pl a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - www.naukawpolsce.pap.pl. W przypadku portali społecznościowych prosimy o umieszczenie jedynie tytułu i leadu naszej depeszy z linkiem prowadzącym do treści artykułu na naszej stronie, podobnie jak to jest na naszym profilu facebookowym. 

 

Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów video.

 

Informacje tekstowe z kategorii "Świat" można pozyskać odpłatnie abonując Serwis Nauka i Zdrowie PAP. Serwis ten zawiera ponadto wiele innych najnowszych doniesień naukowych z zagranicy oraz materiałów dotyczących szeroko rozumianej problematyki zdrowotnej. 

 

Informacje na temat warunków umowy można uzyskać w Dziale Sprzedaży i Obsługi Klienta PAP, tel.: (+48 22) 509 22 25, e-mail:  pap@pap.pl

 

Informacje o przedruku artykułów z Serwisu Nauka w Polsce, prośby o patronaty medialne, informacje o prowadzonych badaniach, organizowanych konferencjach itd., prosimy przesyłać na adres: naukawpolsce@pap.pl

 

 

Najpopularniejsze materiały

więcej

Książka

Historia o królestwie antynaukowości Historia o królestwie antynaukowości

"W królestwie Monszatana. GMO, gluten i szczepionki" Marcina Rotkiewicza już w samym tytule obiecuje ciekawą opowieść o trzech kontrowersyjnych tematach: żywności modyfikowanej genetycznie, diecie bezglutenowej i ruchach antyszczepionkowych. I tej opowieści dostarcza - ale głównie na jeden z tych tematów.

Więcej

Myśl na dziś

Bądźmy ludźmi, choćby tak długo, póki nauka nie odkryje, że jesteśmy, czym innym.
Stanisław Jerzy Lec

Nasz blog

Planetarne zoo Planetarne zoo

Ciemne jak smoła, lekkie jak styropian czy pokryte szafirowymi chmurami – takie bywają badane w ostatnim czasie pozasłoneczne planety. Niektóre z nich mogą się okazać bardzo przydatne dla nauki.

Więcej

Tagi