Frågor och svar - botar
Studien ”Botar och det svenska valet. Automatiserade konton, deras budskap och omfattning.” har rönt stor uppmärksamhet i såväl etermedier, som tryckta och sociala medier. Olika frågor har inkommit till FOI om studien och här samlar vi svar på dem samt hänvisar vidare till olika källor.
Sid- och kapitelnummer i dessa svar hänvisar till memot, som kan laddas ner här: Botar och det svenska valet – Automatiserade konton, deras budskap och omfattning (FOI Memo 6458)
1) Varför gör ni denna studie?
Materialet i studien utgör en del av ett bredare FOI-uppdrag inom data science kring innehåll om svensk politik inför valet på olika digitala plattformar. Detta uppdrag kommer senare under hösten redovisas, dels som en eller flera FOI-rapporter och dels generera ett antal vetenskapliga artiklar.
2) Varför finns det inga vetenskapliga referenser i bot-studien?
Bot-studien är publicerad i kategorin Memo. Enligt FOI:s instruktion för dokumentation ska kategorin användas för kortare avrapporteringar, enklare manualer eller andra typer av kortfattad resultatöverföring som adresseras till en bredare krets. Innehåll och språk ska vara målgruppsanpassat och begripligt. Granskningen följer fastställd procedur.
Kategorin Rapport granskas enligt mer omfattande fastställd procedur och kan innehålla såväl intern som extern granskning, med eller utan granskningsseminarier, beroende på studiens omfattning och upplägg. Kategorin Rapport innehåller beskrivningar av syften, metoder, ansatser, avgränsningar, resultat, diskussion, notapparat och fullständiga referenser.
När FOI:s dokumentation är riktad till det vetenskapliga samfundet, exempelvis i så kallade peer-review granskade artiklar eller konferensbidrag, ska praxis för respektive vetenskaplig disciplin nyttjas.
3) Hur tillförlitlig är metoden ni använder?
Metoden som nyttjas för studiet av botar på Twitter beskrivs i detalj i en vetenskaplig artikel som är inskickad för publicering till IEEE Intelligence and Security Informatics (ISI) 2018. Referens: J. Fernquist, L. Kaati, R. Schroeder (2018). Political Bots and the Swedish General Election. Submitted for publication.
Maskininlärning av den typ som används i denna studie är idag en vedertagen metod för datadriven forskning. För den som önskar fördjupa sig i den typ av metoder och modeller som FOI:s bot-forskning bygger vidare på, rekommenderas här ett kort urval av vetenskapliga artiklar:
Stefano Cresci, Roberto Di Pietro, Marinella Petrocchi, Angelo Spognardi, and Maurizio Tesconi. 2017. The Paradigm-Shift of Social Spambots: Evidence, Theories, and Tools for the Arms Race. In Proceedings of the 26th International Conference on World Wide Web Companion (WWW '17 Companion). International World Wide Web Conferences Steering Committee, Republic and Canton of Geneva, Switzerland, 963-972. DOI: https://doi.org/10.1145/3041021.3055135 Länk till annan webbplats, öppnas i nytt fönster.
Zafar Gilani, Reza Farahbakhsh, Gareth Tyson, Liang Wang, and Jon Crowcroft. 2017. Of Bots and Humans (on Twitter). In Proceedings of the 2017 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining 2017 (ASONAM '17), Jana Diesner, Elena Ferrari, and Guandong Xu (Eds.). ACM, New York, NY, USA, 349-354. DOI: https://doi.org/10.1145/3110025.3110090 Länk till annan webbplats, öppnas i nytt fönster.
F. Morstatter, L. Wu, T. H. Nazer, K. M. Carley and H. Liu, "A new approach to bot detection: Striking the balance between precision and recall," 2016 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM), San Francisco, CA, 2016, pp. 533-540.
DOI: 10.1109/ASONAM.2016.7752287
URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7752287&isnumber=7752180 Länk till annan webbplats, öppnas i nytt fönster.
Stefano Cresci, Roberto Di Pietro, Marinella Petrocchi, Angelo Spognardi, Maurizio Tesconi, Fame for sale: Efficient detection of fake Twitter followers,
Decision Support Systems,Volume 80, 2015, Pages 56-71, ISSN 0167-9236,
https://doi.org/10.1016/j.dss.2015.09.003 Länk till annan webbplats, öppnas i nytt fönster.
(http://www.sciencedirect.com/science/article/pii/S0167923615001803 Länk till annan webbplats, öppnas i nytt fönster.)
Varol, O., Ferrara, E., Davis, C. A., Menczer, F., & Flammini, A. (2017). Online human-bot interactions: Detection, estimation, and characterization. arXiv preprint arXiv:1703.03107.
4) Varför likställer ni botar med människor?
Det som studeras är effekterna av ett automatiserat beteende, oavsett om det är en människa eller en maskin/robot som står bakom beteendet. Effekterna är desamma. Detta beskrivs i detalj i studien på sidan 2, punkt 2.1. Politiska botar:
"Politiska botar används på olika sätt i syfte att påverka den allmänna opinionen. Botar kan användas för att sprida desinformation i syfte att vilseleda om sakförhållanden. De kan också användas för att sprida falska nyheter i syfte att skapa osäkerhet kring tillförlitligheten hos mer etablerade informationskällor. Ytterligare ett syfte med att använda botar är att påverka synligheten hos ett budskap. När innehåll får stor spridning via botar kan användare ledas att tro att detta innehåll är mer delat, mer allmänt accepterat eller mer mainstream än vad det faktiskt är.
Vi kommer här att utbytbart använda termerna bot och automatiserat konto. Vi definierar inte automatiserade konton utifrån huruvida det är en människa eller en mjukvara som producerar innehållet, utan utifrån kontots beteendemönster.
Ett konto med ett automatiserat beteende kan vara ett konto som styrs automatiskt av en mjukvara (social bot), hanterat av en person som är anställd för att sprida propaganda (sockpuppet) eller hanterat av en privatperson som använder kontot för att kontinuerligt och i hög omfattning kopiera eller retweeta innehåll. Effekten av sådant beteende är densamma, oavsett om det är en människa eller mjukvara som ligger bakom kontot. ".
En vetenskaplig artikel som ger stöd för beskrivningen i den första satsen finns i fotnot 6, också på sidan 2:
P. N. Howard, S. Woolley, & R. Calo. (2018). Algorithms, bots, and political communication in the us 2016 election: The challenge of automated political communication for election law and administration. Journal of Information Technology & Politics, 15(2):81–93.
5) Hur skiljer ni på botar och genuina konton?
Svaret finns på sid 10 i 6.2 Klassificering av botar:
"För att upptäcka automatiserade konton har vi med hjälp av maskininlärning tränat upp en modell som kan känna igen mönster som tyder på automation. Detta har vi gjort genom att använda data från konton som vi vet är automatiserade. Modellen kan sedan skilja på genuina och automatiserade konton. Totalt används 140 olika egenskaper hos kontona för att skilja ut de automatiserade från de genuina. Klassificeringen görs med algoritmen Random forest.8 ".
6) Varför redovisar ni inte de 140 egenskaperna?
Det finns flera anledningar till detta. Dels for att bot-studien är publicerad i kategorin Memo – det vill säga kortare avrapporteringar av en studie, dels för att det detta utgör teknisk information i form av programkod som är lättillgänglig på nätet och andra källor. En tabell med egenskaperna som används för att träna upp vår maskininlärningsmodell finns nedan.
7) Varför redovisar ni inte listorna med botkonton?
All forskning vi gör har genomgått etikprövning, vilket förpliktigar oss att skydda personuppgifter. Vår tolkning är att användarnamn (automatiserad eller genuin konton) utgör personuppgifter, och det är därför vi är extra försiktiga med att redovisa den typen av information. Det vi redovisar är aggregerad data på gruppnivå.
8) Urval av data
När vi har hämtat in data har vi gjort valet att bara hämta in data som antingen nämner valet 2018 i texten eller som innehåller någon av hashtaggarna #valet2018 #svpol #valet18 Detta innebär att vi enbart studerar de Twitteranvändare som använder någon av dessa hashtaggar. Detta är givetvis en begränsning hos vår studie – vi kommer på detta sätt inte att inkludera användare eller tweets som använder sig av andra hashtaggar men som ändå diskuterar svensk politik.
9) Avstängda konton på Twitter
Vi har delat in kontona i tre olika grupper: De genuina är sådan som vår modell inte klassificerat som ett automatiserat konto. De automatiserade som vår modell klassificerat som automatiserade. De avstängda/borttagna kontona som Twitter stängt av och vi därför inte kunnat klassificera.
Om vi enbart undersöker mängden aktiva automatiserade konton juli och augusti så ser vi en hundraprocentig ökning.
10) Hur stor är egentligen ökningen?
Vi har fått frågor om hur Figur 1, som visar att antalet aktiva konton med automatiserat beteende (så kallade botar) ökar, går ihop med Figur 2, som visar antalet avstängda/borttagna konton, samt hur stor ökningen egentligen är.
Så här har vi räknat
I figur 1 ser man att ökningen mellan juli och augusti för de aktiva konton som vår modell klassificerar som konton med automatiserat beteende, innebär en fördubbling.
Men det automatiserade beteendet som vi studerar under perioden påverkas ju också av konton som hunnit bli avstängda av Twitter. Och som vi anger i texten på sidan 3, "När ett konto blivit avstängt av Twitter kan vi inte avgöra om det är automatiserat med vår klassificeringsmodell". Vi konstaterar också att det inte är osannolikt att konton blir avstängda just för att de uppvisat automatiserat beteende.
När vi adderar de borttagna kontona i Figur 2 till de aktiva kontona i Figur 1, så blir siffrorna för såväl juli som augusti högre. Eftersom fler konton hunnit bli borttagna i juli än i augusti så blir ökningen däremot mindre, mellan juli och augusti blir den 40 procent om vi antar att samtliga borttagna konton skulle vara automatiserade.
Det vi alltså kan säga om totalen är att om vi antar att alla borttagna konton är automatiserade så blir ökningen 40 procent. I andra änden av skalan gäller, vilket syns i Figur 1, att om vi antar att inget av de borttagna kontona skulle vara automatiserat, så är det en fördubbling.
Oavsett vilket antagande man gör, så är redan en ökning om 40 procent anmärkningsvärd. En fördubbling är förstås ännu större.