23.03.2017 aktualizacja 23.03.2017

Model plotki: badacze z UW opisali, jak w Tweetach rozchodzą się plotki

Zaledwie jedna na dziesięć tysięcy plotek na Twitterze dociera do ponad 2500 osób. Zespół algorytmików z Uniwersytetu Warszawskiego opracował model rozchodzenia się plotek na tym portalu społecznościowym. Badania przydadzą się m.in. w testowaniu wydajności systemów informatycznych.

W jakim tempie plotka będzie się rozchodzić? Jakie cechy musi mieć sieć społecznościowa, żeby plotka rozchodziła się w taki sam sposób, jak na Twitterze? Na takie pytania spróbowali odpowiedzieć matematycy z zespołu prof. Piotra Sankowskiego z Wydziału Matematyki, Informatyki i Mechaniki UW. O ich badaniach poinformowano na stronie UW.

Szansa na to, że plotka dotrze do wielu osób, jest w rzeczywistości bardzo niewielka. Z danych empirycznych, na które powołują się badacze z UW, wynika, że jedynie jedna na dziesięć tysięcy plotek na Twitterze dociera do ponad 2500 osób.

Dotychczasowe modele, którymi naukowcy zajmują się od ponad dekady, nie opisywały dobrze stanu faktycznego. Wyniki eksperymentów znacznie odbiegały od rzeczywistych danych.

W pracy "Why Do Cascade Sizes Follow a Power-Law?" ((https://arxiv.org/abs/1702.05913) badacze z UW zaproponowali nowy model, w którym rozkład plotek jest linią prostą (zbliżoną do prawdziwych danych). Szansę na to, że plotka dotrze do określonej liczby osób, opisuje tzw. "rozkład potęgowy".

Poza nowym modelem, który w porównaniu z innymi bardzo dobrze opisuje rzeczywistość, przedstawiono również metodę na generowanie sieci (grafów) o cechach zbliżonych do Twittera. Trasa plotki (nazywana "kaskadą informacji") to ścieżka, pokazująca do jakich użytkowników dotarła - i jaką drogą.

W pracy zaproponowano nowy sposób generowania kaskad - taki, że rozchodzenie się w nich plotek ma takie same cechy (rozkład prawdopodobieństwa), co rozchodzenie się plotek na Twitterze. Jest to zupełnie nowy sposób weryfikowania tego typu modeli. Do tej pory należało przeprowadzić ogromną liczbę symulacji, a ich wyniki - porównać z prawdziwymi danymi. Kiedy korzysta się z nowej metody, poprawność modelu może być sprawdzana szybciej przy użyciu mniejszej ilości danych.

Jednym z zastosowań wyników badań zespołu z UW jest testowanie wydajności. Do tej pory, aby sprawdzić, czy duży system informatyczny przetrwa wysokie obciążenie użytkowników - trzeba było przeprowadzić symulacje przy użyciu ogromnej ilości danych. Teraz można wykonać taki test mniejszym kosztem (energii, czasu, danych). "Nasz model pozwoli tanio sprawdzić, czy narzędzia wytrzymają obciążenie" – komentują autorzy pracy.

Na stronie UW poinformowano, że praca "Why Do Cascade Sizes Follow a Power-Law?" zespołu prof. Sankowskiego została przyjęta na konferencję International World Wide Web Conference (odbędzie się ona między 3 a 7 kwietnia br. w Perth w Australii). Organizowana od 1994 roku konferencja uznawana jest za jedno z najbardziej prestiżowych wydarzeń dotyczących przyszłości internetu. W tym roku z ponad 1000 zgłoszonych prac przyjęto jedynie 164.

PAP - Nauka w Polsce

lt/ zan/