Prosty w zastosowaniu, ale zaawansowany w działaniu – tak można opisać pakiet do wykrywania źródeł m.in. fałszywych informacji w sieciach. To efekt prac mjr. dr. inż. Damiana Frąszczaka z Wydziału Cybernetyki i doktorantki Edyty Frąszczak ze Szkoły Doktorskiej Wojskowej Akademii Technicznej. Młodzi naukowcy zaprojektowali i wdrożyli Network Source Detection Library (NSDLib) – kompleksową bibliotekę Pythona do wykrywania źródeł sieciowych.
Informacja to potężne narzędzie, a jej siła oddziaływania jest szczególnie widoczna w erze Internetu. Współczesne technologie, w tym media społecznościowe oraz ogromna liczba witryn internetowych, sprawiają, że wiadomości rozprzestrzeniają się z niespotykaną wcześniej prędkością. Powstaje w ten sposób złożona sieć powiązań, która nie tylko łączy miliony użytkowników, ale również utrudnia zidentyfikowanie pierwotnego źródła informacji w zalewie danych.
Problem ten postanowili rozwiązać naukowcy z Wojskowej Akademii Technicznej, którzy wykorzystali wiedzę m.in. z zakresu teorii grafów, swoje doświadczenie w programowaniu i cyberbezpieczeństwie oraz własną kreatywność. Opracowali program NSDLib, który precyzyjnie analizuje sieć i celnie określa źródło np. informacji, aby jeszcze skuteczniej zwalczać m.in. wojnę dezinformacyjną.
Rozwiązanie to może być wykorzystywane również w identyfikacji źródeł różnych procesów, np. ustaleniu pacjenta zero w społeczeństwie, czy badaniu sieci powiązań stron internetowych w celu ustalenia pierwotnego źródła publikacji danej informacji.
Pomost między teorią a praktyką
O tym, jak powszechne są działania dezinformujące i w jaki sposób mogą wpływać na rzeczywistość, wiedzą cybereksperci, dziennikarze, politycy i miliony ludzi na całym świecie, którzy choć raz podjęli decyzję na podstawie newsa z internetu. Media społecznościowe ułatwiają rozprzestrzenianie się fake newsów, bo dowolną informację może tam umieścić praktycznie każdy i od razu udostępniają ją kolejne konta.
Od lat powstają analizy i rozwiązania, które mogą wspierać ekspertów w tej walce, natomiast często ta nowa wartościowa wiedza jest wyizolowana, bo dostęp do niej nie jest powszechny albo jest rozproszony w wielu źródłach, które najczęściej nie są publicznie dostępne. Znacznie utrudnia to lub uniemożliwia korzystanie z niej.
Dzięki rozwiązaniu opracowanemu przez badaczy z WAT powstało łatwo dostępne repozytorium, w którym zgromadzono najnowocześniejsze algorytmy służące do identyfikacji źródeł informacji. Takie podejście pozwala na proste stosowanie i porównywanie najnowszych technik.
Publiczna dostępność rozwiązania zachęca badaczy z całego świata do udziału w projekcie poprzez udostępnianie swoich rozwiązań szerokiej społeczności. Stwarza to pomost między badaniami teoretycznymi a zastosowaniem wiedzy naukowej w praktyce.
Jak zbudowane jest rozwiązanie z WAT?
NSDLib to projekt dedykowany opracowaniu i upublicznieniu implementacji metod identyfikacji źródeł w strukturach sieciowych. Składają się na niego trzy główne elementy:
- repozytorium GitHub, które zawiera m.in. kod źródłowy algorytmów identyfikacji źródeł czy szereg instrukcji m.in. do dodawania implementacji nowych rozwiązań czy jego utrzymania,
- biblioteka programistyczna – biblioteka Python dostępna na platfomie PyPI, dzięki czemu dostęp do rozwiązania jest prosty,
- dokumentacje rozwiązania zawierające przykłady jej użycia m.in. przy pomocy Jupyter Notebook.
NSDLib zawiera różnorodne algorytmy służące do wykrywania źródeł. Dostarcza implementację takich technik jak np. różne miary centralności określające znaczenie i ważność węzłów, wybrane metody identyfikacji wielu źródeł czy techniki rekonstrukcji grafów propagacji. Te ostatnie umożliwiają odtwarzanie sieci powiązań użytkowników biorących udział w rozpowszechnianiu wiadomości, nawet jeśli nie zostali oni uwzględnieni w początkowej analizie.
Do czego służy NSDLib?
Rozwiązanie sprawdzi się m.in. w obszarach takich jak: epidemiologia, cyberbezpieczeństwo czy analiza sieci społecznościowych.
„NSDLib to kompleksowa biblioteka Pythona, która zapewnia dostęp do różnych algorytmów wykorzystywanych do identyfikacji źródeł propagacji. Można jej użyć do wskazania pacjenta zero, zidentyfikowania źródła fałszywej plotki w mediach społecznościowych lub wykrycia źródła awarii sieci energetycznej” – mówi mjr dr inż. Damian Frąszczak, twórca rozwiązania.
NSDLib sprawia, że najnowocześniejsze badania mogą być łatwo zastosowane do rzeczywistych problemów. Badacze zaprojektowali rozwiązanie z myślą o łatwej integracji z istniejącymi narzędziami i osiągnięciami nauki – zbudowali obszerne repozytorium metod wykrywania źródeł. Ułatwi to współpracę i dzielenie się rezultatami badaczom z całego świata. Tym samym przyczyni się do ulepszania obecnych rozwiązań i skuteczniejszego identyfikowania źródeł.
Szczegółowa dokumentacja i dostępność na PyPI sprawiają, że NSDLib jest łatwy w użyciu, dzięki czemu zaawansowane algorytmy wykrywania źródeł są prosto dostępne.
„Nasze rozwiązanie jest dostępne na platformie PyPI, co pozwala na jego łatwą instalację. Dodatkowo jego kod źródłowy można znaleźć na GitHub. W ramach repozytorium kodu udostępniliśmy wskazówki, jak rozwijać to oprogramowanie – na przykład dodając implementacje nowych technik identyfikacji źródeł. Pozwoli to na jego efektywniejszy rozwój. Rozbudowana oficjalna dokumentacja i przykłady zastosowań w Jupyter Notebook ułatwiają zapoznanie się z funkcjonalnościami oraz bezproblemowe rozpoczęcie korzystania. W efekcie mogą z niego korzystać zarówno początkujący, jak i doświadczeni użytkownicy” – podkreśla mjr dr inż. Frąszczak.
Dzięki udostępnieniu rozwiązania na platformie PyPI badacze mają łatwy dostęp do narzędzia w jego najnowszej wersji. To istotne, bo zapewnia pracę z biblioteką wolną od wcześniejszych błędów oraz zawierającą najnowsze implementacje algorytmów, a to z kolei umożliwia szybsze wprowadzanie ulepszeń i rozwijanie nowych metod. Prezentowane rozwiązanie zapewnia wygodny sposób wykorzystania szerokiej gamy metod związanych z wykrywaniem źródeł.
„Nasz projekt możemy określić jako przełomowy, bo repozytorium zawiera tak wiele rozwiązań dostępnych niemal natychmiastowo dla badaczy, że znacząco przyspiesza pracę naukową. Biblioteka została opracowana zgodnie z najlepszymi praktykami Pythona, co umożliwia prostą integrację z istniejącymi projektami. Szczególnie interesująca jest możliwość rozwinięcia współpracy nad badaniami dotyczącymi identyfikacji źródeł w strukturach opartych na sieciach, co widzę jako potencjalny kierunek do wykorzystania w mojej pracy doktorskiej, która dotyczyć będzie identyfikacji phishingowych stron internetowych” – mówi Edyta Frąszczak, twórczyni rozwiązania.
„Na co dzień pracuję jako programistka, a studia doktoranckie pozwalają mi zdobywać ukierunkowaną wiedzę oraz rozwijać umiejętności kluczowe w pracy badawczej, takie jak np. prowadzenie eksperymentów czy analiza wyników. Dodatkowo fakt, że byłam kiedyś ofiarą cyberprzestępców zainspirował mnie do opracowywania rozwiązań, które w przyszłości mogą chronić innych przed tego typu zagrożeniami” – dodaje.
„Dostępność tak wielu metod w jednym, publicznie dostępnym miejscu oraz prostota ich wykorzystania i weryfikacji różnych podejść to najbardziej innowacyjne elementy naszego projektu. Dzięki temu badacze nie muszą „wynajdować koła na nowo”, ponieważ wiele referencyjnych metod jest już gotowych do użycia, co znacząco przyspiesza prowadzenie badań. Rozwiązanie to jest na bieżąco wykorzystywane w badaniach nad identyfikacją dezinformacji i ma potencjał, aby znaleźć zastosowanie także w identyfikacji phishingowych stron WWW. Zachęcamy naukowców z całego świata do współpracy i korzystania z tej biblioteki, aby wspólnie opracowywać skuteczne metody zwalczania dezinformacji i lepiej analizować rozprzestrzenianie się informacji” – podsumowują twórcy.
Efektem pracy mjr. dr. inż. Damiana Frąszczaka oraz mgr inż. Edyty Frąszczak poza gotowym do użycia rozwiązaniem jest również wspólnie przygotowana publikacja „NetCenLib: A comprehensive python library for network centrality analysis and evaluation”, która ukazała się w czasopiśmie „SoftwareX” i otrzymała aż 200 punktów.
Mjr dr. inż. Damian Frąszczak pełni służbę w Dowództwie Komponentu Wojsk Obrony Cyberprzestrzeni, natomiast mgr inż. Edyta Frąszczak jest doktorantką Szkoły Doktorskiej WAT, a jej promotorem – dr hab. inż. Ryszard Antkiewicz, prof. WAT.
Dominika Naruszko
fot. Katarzyna Puciłowska