11.05.2020 aktualizacja 11.05.2020

OPI PIB udostępnia największy neuronowy model języka polskiego oparty na architekturze BERT

Źródło: Fotolia

W OPI PIB powstały dwa nowe modele statystyczne języka polskiego. Oba zajęły czołowe miejsca w klasyfikacji opracowanej przez Allegro. Jeden z nich wytrenowano na największym w Polsce korpusie tekstów - informują przedstawiciele OPI PIB.

"Polskie modele RoBERTa to statystyczne reprezentacje języka naturalnego stworzone za pomocą uczenia maszynowego. Dzięki wykorzystaniu wielkich zbiorów danych pozwalają na precyzyjne odwzorowanie składni i semantyki polszczyzny. Ich udostępnienie przez Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (https://github.com/sdadas/polish-roberta) umożliwi budowę zaawansowanych narzędzi przetwarzania języka polskiego, które posłużą m.in. do klasyfikacji tekstów czy wykrywania w nich emocji" - informują przedstawiciele OPI PIB w przesłanym PAP komunikacie.

Modele korzystają z architektury BERT zaprezentowanej przez Google w ubiegłym roku. Polish RoBERTa large jest obecnie największym modelem wytrenowanym w Polsce. Wytrenowano go z wykorzystaniem 130 GB danych, co odpowiada ponad 400 tysiącom książek. W OPI PIB powstał też mniejszy model – Polish RoBERTa base. Do jego przygotowania użyto zbioru o wielkości 20 GB.

Z obu można korzystać w zależności od potrzeb i możliwości technicznych: pierwszy jest bardziej precyzyjny, lecz wymaga większych mocy obliczeniowych. Drugi – szybszy – oferuje nieco gorsze wyniki.

Przedstawiciele OPI PIB informują, że modele przetestowano z wykorzystaniem Kompleksowej Listy Ewaluacji Językowych (KLEJ benchmark https://klejbenchmark.com/leaderboard/?fbclid=IwAR27S6rpc-D_x5ibKwTTbgOGrEdLOzqcxutC974kMs5J7CC17Je1OfmNM9U) opracowanej przez Allegro. Umożliwia ona ocenę działania modelu na podstawie dziewięciu zadań, jak np. analiza sentymentu lub badanie semantycznego podobieństwa tekstów. W tej chwili oba modele zajmują pierwsze i drugie miejsce w zestawieniu.

"Jednokierunkowe modele językowe starają się zgadnąć, jakie będzie kolejne słowo w danym tekście – wyjaśnia Sławomir Dadas z Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB. – Natomiast architektura BERT sprawia, że model uczy się języka na trochę innej zasadzie: ze zdania usuwa się losowo kilka słów, a model ma się nauczyć, jak najlepiej wypełnić puste miejsca. Jeśli ma do dyspozycji duży korpus tekstowy, to z czasem coraz lepiej poznaje zależności semantyczne między słowami".

Oba modele powstały w Laboratorium Inteligentnych Systemów Informatycznych OPI PIB.

PAP - Nauka w Polsce

lt/ ekr/