06.05.2023 aktualizacja 06.05.2023

Okulary wyposażone w sztuczną inteligencję mogą czytać cichą mowę

Fot. Adobe Stock

Amerykańscy naukowcy skonstruowali okulary, które są wyposażone w czujniki akustyczne i sztuczną inteligencję, dzieki czemu rozpoznają cichą mowę. Mogą one rozpoznać 31 cicho wymówionych poleceń.

Okulary EchoSpeech wyposażone są w parę mikrofonów i niewielkie głośniki. Współpracują jednocześnie z interfejsem cichej, dzięki czemu mogą być używane do komunikowania się z innymi za pomocą smartfona w miejscach, w których rozmawiać jest trudno lub niezręcznie, np. w hałaśliwej restauracji czy cichej bibliotece.

Okulary te wysyłają i odbierają fale dźwiękowe, a także wykrywają ruchy ust rozmówcy. Algorytm głębokiego uczenia się analizuje te profile w czasie rzeczywistym z dokładnością około 95 procent.

Interfejs można też sparować z rysikiem i używać jednocześnie z oprogramowaniem do projektowania (np. CAD), prawie całkiem eliminując potrzebę używania klawiatury i myszy.

Okulary skonstruowali naukowcy z Smart Computer Interfaces for Future Interactions (SciFi) Lab, znajdującego się na Cornell University (USA). Obecnie sprawdzają możliwości komercyjnego wykorzystania tej technologii.

Większość znanych dziś technologii rozpoznawania cichej mowy jest ograniczona do określonego zestawu poleceń i wymaga od użytkownika stania twarzą w twarz z urządzeniem odczytującym lub noszenia małej kamery wideo - podkreślają autorzy wynalazku w informacji prasowej. I dodają, że technologia wykrywania dźwięku EchoSpeech eliminuje potrzebę noszenia kamer, a ponieważ dane audio są znacznie mniejsze, niż dane obrazu, ich przetwarzanie wymaga mniejszej przepustowości i może być przekazywane do smartfona przez Bluetooth w czasie rzeczywistym.

"Ponieważ dane są przetwarzane lokalnie na smartfonie, a nie przesyłane do chmury, informacje wrażliwe na prywatność nigdy nie wymykają się spod kontroli" – powiedziała profesor informatyki na Cornell University François Guimbretière.

Autorzy wynalazku mówią, że zastosowanie tej technologii sprzyja żywotności baterii, która w przypadku wykrywania akustycznego wystarczy na 10 godzin - w porównaniu z 30 minutami w przypadku użycia kamery.

Technologię można wykorzystać w medycynie, w przypadku osób, które mają problemy z mową. "Dla osób, które nie potrafią wokalizować dźwięków, ta technologia cichej mowy może być doskonałym wejściem dla syntezatora mowy. Może przywrócić pacjentom głos" – powiedział współautor tego projektu, doktorant w dziedzinie informatyki na Cornell University Ruidong Zhang. (PAP)

Tomasz Szczerbicki

szt/ zan/