Strona główna Aktualności
Technologia

Artykuły na medal w Wikipedii pod lupą naukowców z Poznania

30.06.2017 Technologie, Społeczeństwo, Człowiek, Technologia

Fot. Fotolia

Po czym program komputerowy może poznać artykuły z Wikipedii o wysokiej jakości? Jak pomóc wikipedystom w szybszym wykrywaniu aktów wandalizmu na portalu? Jak firmy mogą zwiększyć wartość posiadanych informacji? Badacze z Uniwersytetu Ekonomicznego w Poznaniu tworzą modele, które pomogą w ocenie jakości informacji pozyskanych dzięki crowdsourcingowi.

Naukowcy z Uniwersytetu Ekonomicznego w Poznaniu we współpracy ze studentami opracują metody pomagające w ocenie jakości artykułów w tworzonej przez internautów encyklopedii online - Wikipedii.

 

"Zamierzamy ściągnąć wiele wersji językowych Wikipedii, przeanalizować poszczególne parametry artykułów i zbadać, jaki mają one związek z jakością artykułów" - opowiada kierownik grantu dr Krzysztof Węcel z Katedry Informatyki Ekonomicznej UEP. Przyznaje, że to spore wyzwanie. Angielska Wikipedia zawiera obecnie ponad 5 milionów artykułów, a sam tekst tych artykułów po spakowaniu zajmuje 13 GB. Do tego dochodzą strony z dyskusją o artykułach – w sumie 25 GB. Gdyby chcieć uwzględnić informacje o tym, kto i kiedy zmienił jaką stronę (bez samej treści zmian), to potrzebne jest kolejne 50 GB. A to tylko jeden język (obecnie działa ponad 270 wersji językowych Wikipedii). Badacze z UEP na swoje analizy potrzebować będą 15-20 TB. Obliczenia wykonywane będą w chmurze Azure i pomoże w tym grant z Microsoft Research.

 

"Na podstawie artykułu - jego treści i powiązań - będziemy w stanie automatycznie ocenić, czy jest on dobrej jakości" - opowiada dr Węcel. Do przygotowania modelu wykorzystywane będą algorytmy uczenia maszynowego (machine learning). Badacz wyjaśnia, że jeśli porówna się wystarczająco wiele artykułów - w tym docenionych przez wikipedystów "Artykułów na medal", można znaleźć pewne powtarzające się zależności - parametry cechujące takie najlepsze artykuły. Istotą modeli jest możliwość przewidywania, czy artykuły jeszcze nieocenione są dobrej jakości. Trzeba tylko dostarczyć algorytmowi odpowiednio wiele danych, by ten wypracował sobie metodę oceny jakości.

 

"W przypadku informacji - składowymi jakości są: aktualność, wiarygodność i kompletność" - wymienia naukowiec. Jeśli chodzi o aktualność artykułu w Wikipedii - algorytm może ją przeanalizować śledząc historię zmian w artykule. Wiarygodność może trochę trudniej maszynie ocenić, ale nie jest to niemożliwe. Dr Węcel wyjaśnia, że można np. przeanalizować referencje zawarte w artykule - odniesienia do literatury fachowej lub innych stron. W ocenie wiarygodności liczy się też autor - czy ten sam wikipedysta pisał inne artykuły dobrej jakości i czy pokazał do tej pory swoje kompetencje.

 

Trzecią cechą jest kompletność informacji. "My będziemy analizować infoboksy" - powiedział badacz z UEP. Chodzi o tabelki przy niektórych artykułach, w przejrzysty sposób podsumowujące najważniejsze informacje. Np. w przypadku osoby to miejsce i data jej urodzenia/śmierci, jej stanowisko, czy narodowość. Badacze z UEP chcą sprawdzać poprawność, aktualność i kompletność atrybutów, porównując je z infoboksami z innych wersji językowych. "Być może dzięki temu kiedyś braki w infoboksach moglibyśmy uzupełniać wartościami zaczerpniętymi z innych wersji językowych" - opisuje dr Węcel.

 

Rozmówca PAP dodaje, że jego zespół wykorzystuje obecnie ponad sto atrybutów, które mogą pomóc algorytmowi oceniać jakość artykułów. To nie tylko historia aktualizacji, autor, referencje czy dane z infoboksów. To również m.in. liczba znaków w artykule, liczba obrazków, liczba nagłówków, nacechowanie języka, czy gęstość faktów (a więc liczba informacji na liczbę słów). Algorytm musi się nauczyć, które z tych wskaźników mają jak najściślejszy związek z jakością.

 

Model oceny jakości informacji przyda się w przyszłości wikipedystom np. po to, by szybciej wykrywali oni akty wandalizmu w Wikipedii i reagowali na niekorzystne dla jakości "poprawki" w artykułach.

 

Efektami badań jego zespołu mogą zainteresować się również firmy, które korzystają w swoich działaniach z danych pozyskanych dzięki "sile tłumu", czyli crowdsourcingowi - np. przetwarzają takie dane i przygotowują na ich podstawie komercyjne produkty. Takie przedsiębiorstwa mogłyby dzięki nowym narzędziom lepiej oceniać jakość danych, z których korzystają. Istotnym wynikiem projektu będą zatem nie tylko same oceny jakości artykułów Wikipedii, ale także wypracowanie metod do oceny jakości.

 

Projekt „Data Science for improving the quality of crowdsourced information. The case of Wikipedia” wspierany jest w ramach programu Microsoft Azure for Research Award.

 

PAP - Nauka w Polsce, Ludwika Tomala

 

lt/ ekr/

Podziel się
Ocena: 0 głosów

Logowanie



Nie pamiętam hasła

Rejestracja

Komentarze: 2
Skomentuj Zobacz wszystkie  

Uwaga Redakcje!

Wszelkie materiały PAP (w szczególności depesze, zdjęcia, grafiki, pliki video) zamieszczone w serwisie "Nauka w Polsce" chronione są przepisami ustawy z dnia 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych oraz ustawy z dnia 27 lipca 2001 r. o ochronie baz danych.

 

PAP S.A. zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: www.naukawpolsce.pap.pl a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - www.naukawpolsce.pap.pl. W przypadku portali społecznościowych prosimy o umieszczenie jedynie tytułu i leadu naszej depeszy z linkiem prowadzącym do treści artykułu na naszej stronie, podobnie jak to jest na naszym profilu facebookowym. 

 

Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów video.

 

Informacje tekstowe z kategorii "Świat" można pozyskać odpłatnie abonując Serwis Nauka i Zdrowie PAP. Serwis ten zawiera ponadto wiele innych najnowszych doniesień naukowych z zagranicy oraz materiałów dotyczących szeroko rozumianej problematyki zdrowotnej. 

 

Informacje na temat warunków umowy można uzyskać w Dziale Sprzedaży i Obsługi Klienta PAP, tel.: (+48 22) 509 22 25, e-mail:  pap@pap.pl

 

Informacje o przedruku artykułów z Serwisu Nauka w Polsce, prośby o patronaty medialne, informacje o prowadzonych badaniach, organizowanych konferencjach itd., prosimy przesyłać na adres: naukawpolsce@pap.pl

 

 

Najpopularniejsze materiały

więcej

Książka

Czy Ziemia to komputer? „Głęboka myśl” ponownie w księgarniach Czy Ziemia to komputer? „Głęboka myśl” ponownie w księgarniach

Wznowienia doczekały się kultowe książki Douglasa Adamsa, w których opisuje on m.in. „Głęboką myśl” - maszynę, której nazwę koncern IBM nadał swemu komputerowi szachowemu - Deep Thought.

Więcej

Myśl na dziś

Wiedzę możemy zdobywać od innych, ale mądrości musimy nauczyć się sami.
Adam Mickiewicz

Nasz blog

Intrygująca wycieczka po kapitalizmie Intrygująca wycieczka po kapitalizmie

Rzadko kiedy biorę do ręki książkę naukową zaintrygowany - skutecznemu zaczytaniu przeszkadza często ich sztywny układ, nieczytelne i skomplikowane tabelki. Inaczej jest w przypadku "Kapitalizmu. Historii krótkiego trwania" autorstwa dr. Kacpra Pobłockiego.

Więcej

Tagi