Nauka dla Społeczeństwa

29.03.2024
PL EN
07.08.2014 aktualizacja 07.08.2014

Porozmawiajmy z Sarmatą

Sarmata to system komputerowy, który rozpoznaje polskie słowa. Większość podobnych technologii jest opartych na języku angielskim. Konstruktorzy z AGH „nauczyli” swój system rozpoznawać tysiąc polskich komend. Tym samym otworzyli Polakom możliwość głosowego komunikowania się z urządzeniami cyfrowymi. Pierwsze wdrożenia nastąpią w telekomunikacji.

Dzięki aplikacji do obsługi tzw. interfejsu głosowego użytkownicy systemu będą mogli wydawać swojemu telefonowi, tabletowi czy komputerowi polecenie, zamiast używać myszy czy ekranu dotykowego. Firmy telekomunikacyjne, które zdecydują się na zakup systemu Sarmata, nie będą musiały zatrudniać telefonistów. Wystarczy, że klient poprosi o połączenie z działem obsługi klienta, sekretariatem czy magazynem - system sam automatycznie przełączy go na odpowiednią linię, bez klikania przyciskami w komórce.

Komercjalizacją Sarmaty zajmuje się uczelniany spin-off Techmo – spółka technologiczna, której współwłaścicielem jest spółka celowa AGH, a zarządzają nią badacze i twórcy rozwiązania: dr inż. Bartosz Ziółko i mgr inż. Dawid Skurzok, prof. dr hab. inż. Mariusz Ziółko, dr inż. Jakub Gałka i mgr inż. Tomasz Jadczyk, będący również współwłaścicielami spółki.

Techmo to akronim słów: technologie mowy. Przetwarzanie mowy i języka naturalnego na tekst pisany to jedno z ważnych wyzwań współczesnej nauki. Zastosowań technologii mowy jest wiele. W laboratoriach AGH opracowywane są m.in. systemy rozpoznawania mowy.

„Rozpoznawanie mowy składa się z kilku etapów. Pierwszym jest odpowiednia rejestracja dźwięku, kolejnym jest podział tego dźwięku na fragmenty, czyli segmentacja, następnie przeprowadzamy parametryzację, a więc dobór liczb, które będą reprezentować dany fragment nagrania. Ten zestaw liczb możemy porównać z wcześniejszymi nagraniami, postawić hipotezy, a następnie przejść do modelowania językowego. Wykorzystujemy do tego m. in. statystyki występowania słów, wypowiedzi na różne tematy” – mówi dr Ziółko.

Jak tłumaczy, stworzenie takiego systemu dla języka polskiego to duże wyzwanie. Do tego typu badań potrzebne są gotowe nagrania, teksty. Badania nad systemami anglojęzycznymi rozpoczęły się 60 lat temu, ale w Polsce rozwijane są zaledwie od dekady. System taki musi zostać "wytrenowany" - w tym celu podaje mu się wzorce danych słów. To proces czasochłonny, a żeby go uprościć, tworzy się specjalne programy komputerowe, które dzielą długie nagrania na mniejsze fragmenty - na przykład na zdania albo słowa. Te mniejsze fragmenty zostają rozpoznawane automatycznie. Trudności potęguje fakt, że dla naszego języka nie ma jeszcze oprogramowania działającego niezawodnie na wielkich słownikach.

Choć technologie te są dopiero rozwijane, spółka Techmo już rok temu „wyszła na rynek”, żeby aktywnie szukać klientów w branży IT. Dzięki temu na etapie wdrożenia można jeszcze wszystko dostosować do indywidualnych potrzeb partnera biznesowego.

„Sarmata sprawdzi się m.in. w systemach automatycznego odpowiadania, kiedy dzwonimy na automat i rozmawiamy z maszyną. Podobne wdrożenie to rozmowa z automatyczną sekretarką i system przełączania. Kolejne zastosowanie to dzwonienie na infolinię czy do banku, żeby słownie zrealizować przelew” - tłumaczy jeden ze współzałożycieli spółki Dawid Skurzok.

Dodaje, że spółka udziela przyszłym klientom, już na wczesnym etapie współpracy, wsparcia technicznego. W ten sposób do konkretnych projektów zatrudniani są pracownicy. Uczelnia nie mogłaby oddelegować swoich badaczy do obsługi specjalnego oprogramowania, byłoby to nieracjonalne wykorzystanie kapitału intelektualnego. Naukowcy pracują więc nad innowacyjnymi rozwiązaniami, a spółka, zgodnie z profilem swojej działalności, poszukuje i wspiera klientów. Prawa własności intelektualnej do systemów pozostają w AGH.

„Uczelnia ma swoje sposoby działania, które nie są wystarczająco szybkie dla rynku. AGH udziela licencji, ale jeśli trzeba coś dorobić pod kątem współpracy systemu Sarmata z produktem innej firmy, to usługę świadczy Techmo - wyjaśnia szczegóły prezes spółki dr Ziółko. - Spin-off skojarzony z uczelnią świetnie nadaje się do tego, by zająć się takimi praktycznymi drobiazgami.”

Jego zdaniem ta działalność nie tylko nie koliduje, ale uzupełnia się z pracą naukową. "Projekty badawczo-rozwojowe prowadzimy w tej samej tematyce, w której działa spółka. Zajęcia ze studentami prowadzimy też z przetwarzania mowy i z programowania, a nowe projekty często zgłaszamy jako konsorcjum spółki i uczelni, żeby część zadań realizować tu, a część tam. Obecnie jest to symbioza" – podsumowuje Bartosz Ziółko.

Technologie mowy mogą w przyszłości pozwolić nam na głosowe komunikowanie się z komputerami. Już teraz są dostępne automatyczne tłumaczenia, wyszukiwanie głosowe, systemy automatycznej obsługi klienta. Sarmata jest wciąż rozwijanym projektem. System można dostosować zarówno do konkretnego mówcy, jak i uruchomić w trybie modelu ogólnego. System osiągnął skuteczność 97,7 proc. w testach, podczas których musiał, w warunkach rozmowy telefonicznej, rozpoznawać słowa kluczowe przewidziane do użycia w centralach telefonicznych, takich jak cyfry lub typowe nazwy działów w firmach.

PAP – Nauka w Polsce, Karolina Olszewska

kol/ agt/

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

Copyright © Fundacja PAP 2024