10.12.2018
PL EN
02.12.2018 aktualizacja 03.12.2018
Kamil Szubański
Kamil Szubański

Naukowiec o przewadze, jaką daje humanistyka cyfrowa

Ten, kto szybciej zbuduje algorytmy wydobywające automatycznie wiedzę z setek milionów artykułów, książek i innych dokumentów, zyska przewagę konkurencyjną w systemie gospodarki opartej na wiedzy - mówi PAP prof. Adam Pawłowski z Uniwersytetu Wrocławskiego.

W wysoko rozwiniętych społeczeństwach humanistyka cyfrowa stała się formą adaptacji człowieka do nowego środowiska informacyjnego, dlatego w najbliższych dziesięcioleciach będzie się ona dynamicznie rozwijać – dodał naukowiec.

W Instytucie Informacji Naukowej i Bibliotekoznawstwa Uniwersytetu Wrocławskiego od niedawna działa, jedna z nielicznych w kraju, Pracowania Humanistyki Cyfrowej.

Humanistyka cyfrowa to dziedzina nauki, która operuje na wielkich zbiorach danych w postaci cyfrowej – tysiącach powieści, setkach tysięcy czasopism albo korpusach tekstów, których objętość liczy się w miliardach wyrazów. Automatycznie przetwarzane są także inne formaty, np. graficzny lub audio. W ostatnich latach stała się ona rodzajem mody w świecie naukowym. Jedną z wyróżniających ją cech jest udział nowoczesnych technologii i urządzeń – komputerów, skanerów, kamer czy okulografów.

"Tym, co szczególnie odróżnia praktyki humanistyki cyfrowej od podejścia tradycyjnego, jest właśnie automatycznie przetwarzanie wielkich ilości danych, określane jako analiza big data. W tym sensie humaniści cyfrowi idą ręka w rękę z przedstawicielami nawet bardzo odległych dyscyplin, na przykład biologii" – zauważa prof. Pawłowski.

W ich przypadku chodzi jednak przede wszystkim o dane w postaci tekstu, a w mniejszym stopniu grafikę. Teksty można automatycznie przetwarzać, poszukując w nich podobieństwa, określonych relacji, wzorców czy tendencji rozwojowych. Ale humanistykę cyfrową charakteryzuje coś jeszcze: możliwość łączenia zbiorów danych w różnych formatach, czyli metody określane jako linked open data.

"Dzięki technikom linked open data można automatycznie łączyć informacje zawarte w tekstach, atlasach, zbiorach grafik czy nagrań. Mówi się wtedy o rzutowaniu zbiorów. Wyobraźmy sobie, że mamy atlas historyczny zawierający nazwy miejscowe, a jednocześnie dysponujemy zbiorem tekstów fikcjonalnych (np. powieści) opisujących ten sam okres. Możemy wtedy rzutować dane geohistoryczne na zbiór powieści, dzięki czemu łatwo rozpoznamy, jakie nazwy użyte przez autorów faktycznie istnieją, a jakie zostały wymyślone" – wyjaśniał prof. Pawłowski. Proces ten można też odwrócić, wydobywając dane geolingwistyczne z tekstów fikcjonalnych, i rzutując je na rzeczywistą mapę.

Ekspert zauważa, że w humanistyce cyfrowej pojawiło się nieznane w podejściu tradycyjnym pojęcie „informacyjnej linii produkcyjnej” (angielski termin to work flow). Jak mówi, rozszerzyło ono system generowania wiedzy, w którym dotychczas badacz interpretował tekst lub teksty, wykorzystując jako jedyne narzędzie analizy swój umysł.

W humanistyce cyfrowej praca ma najczęściej charakter zespołowy, obejmuje wiele etapów, które właśnie składają się na ową "linię produkcyjną". Badacz i jego kompetencje analityczne pojawią się głównie na etapie projektowania i wnioskowania. Istotne w tym procesie jest wytworzenie danych w formacie czytelnym dla komputera oraz dodanie metadanych. "Dopiero w momencie, kiedy tekst lub grafikę wzbogacimy o metadane, możliwe staje się efektywne przetwarzanie"- dodaje ekspert.

W całym tym procesie ważne są narzędzia automatycznego przetwarzania języka. Dzięki nim można formułować konkretne pytania, wydobywać wiedzę ze zbiorów tekstów i generować odpowiedzi.

Prof. Pawłowski podkreśla, że wysiłki pokoleń badaczy - głównie lingwistów i logików, tworzących gramatyki formalne - właśnie teraz wieńczone są tworzeniem programów rozpoznających nie tylko budowę wyrazów czy składnię, lecz również treść tekstów.

Pracowania Humanistyki Cyfrowej współpracuje w tym zakresie z konsorcjum CLARIN-PL, finansowanym przez MNiSW, skupiającym sześć jednostek naukowo-badawczych, wśród których jest Uniwersytet Wrocławski. Konsorcjum buduje cyfrową infrastrukturę badawczą dla humanistyki i nauk społecznych, w tym – zdaniem eksperta – bardzo dobre narzędzia przetwarzania języka polskiego.

CLARIN-PL tworzy m.in. algorytmy rozpoznawania części mowy, struktur składniowych, nazw własnych, wydobywania słów-kluczy, czy też streszczania tekstów. "Są to więc narzędzia, które pozwalają zaspakajać potrzeby użytkowników zasobów, reprezentujących różne dyscypliny humanistyki i nauk społecznych" – wyjaśnia prof. Pawłowski.

Naukowiec podaje przykład bazy danych, zawierającej tysiące powieści. Jego zdaniem badacz chcący przeanalizować kilka tysięcy powieści raczej ich nie przeczyta, ale dzięki narzędziom humanistyki cyfrowej, służącym do analizy języka, może uzyskać odpowiedź na pytania o to, jacy bohaterowie występują, jakie są między nimi relacje, jakie tematy są poruszane, jak profilowane są różne pojęcia, które teksty są do siebie podobne itd.

"Ważna jest także postać odpowiedzi: komputer generuje czytelne infografiki, wykorzystując całą paletę środków komunikacji albo ewentualnie listy wyrazów odpowiadające na takie zapytanie" - dodaje.

Jaka w humanistyce cyfrowej jest rola Pracowni Humanistyki Cyfrowej UWr i innych, podobnych jednostek? Zdaniem naukowca, nie powinny one wyręczać instytucji systemowych zajmujących się digitalizacją, takich jak biblioteki czy repozytoria. Mogą jednak tworzyć i testować nowe, innowacyjne rozwiązania.

Pracowania na niewielką skalę prowadzi już teraz digitalizację, wykorzystując m.in. skanery wielkoformatowe i stół fotograficzny. Dysponuje też okulografem, który pozwala badać skupienie wzroku na elementach oglądanych przez człowieka. Dzięki temu można ocenić czytelność druku, poprawność układu typograficznego lub hierarchię ważności postrzeganej informacji.

"Pracując na tych danych próbujemy tworzyć rozwiązania, które można implementować w instytucjach udostępniających różne zasoby użytkownikom" - zaznaczył naukowiec.

Jednym z takich pomysłów jest wzbogacenie systemu udostępniania tekstów o narzędzia analityczne. Jeżeli na własnym komputerze przeglądamy na przykład powieść, powinniśmy także móc automatycznie wydobyć słowa klucze, zbudować listę frekwencyjną, rozpoznać nazwy własne itd. "Takiej usługi - jak na razie - biblioteki czy repozytoria nie oferują" - dodaje prof. Pawłowski.

Jego zdaniem przyszłość humanistyki cyfrowej rysuje się w jasnych barwach. Będzie się ona rozwijać, ponieważ stanowi w jakimś sensie element adaptacji człowieka do nowego i coraz bardziej opresyjnego środowiska informacyjnego.

"Człowiek nie jest już w stanie przetworzyć wszystkich bodźców informacyjnych, które rejestruje jego umysł. Również społeczeństwa rywalizują ze sobą wykorzystując do tego celu informacje i wiedzę. Ten, kto szybciej zbuduje algorytmy wydobywające automatycznie wiedzę z setek milionów artykułów, książek i innych dokumentów, zyska przewagę konkurencyjną w systemie gospodarki opartej na wiedzy. Rola humanistyki cyfrowej jest tutaj nie do przecenienia. Będzie to jedna z wiodących dyscyplin naukowych najbliższych dziesięcioleci" - uważa kierownik Pracowni Humanistyki Cyfrowej UWr. (PAP)

Kamil Szubański

szu/ zan/

Copyright © Fundacja PAP 2018