Af Claus Mørkbak Højrup
Medlem af Hjørring Byråd (V)
Forfatter
Jeg ser mange udenlandske indlæg omkring flytningen af Rubjerg Fyr. I den sammenhæng, og fordi jeg beskæftiger mig en del med algoritmer for tiden, synes jeg, at det ville være interessant at søge de globale nyhedsnetværk igennem og se hvordan dækningen har ændret sig fra sidste måned og til de sidste 3 dage.
Jeg har adgang til at ”scrape” en stor andel af alle de globale digitale medier, og i den forbindelse lavede jeg en søgning på ”Rubjerg” i digitale artikler fra 20. til 30/9-2019. Resultatet ses i billede 1. Formålet med min algoritme er at sætte navne på søgetermet ”Rubjerg” og se hvordan disse navne er connected.
Der er ikke rigtigt et netværk af mennesker, som er connected på denne søgning, og det tætteste, som vi kommer noget meningsfuldt er, at Tom Hanks er connected to Forest Gump. Men det er vel også, hvad man kan forvente, når man søger på Rubjerg i alle de store globale medier (for en måned siden).
Billede 2 viser en tilsvarende søgning på ”Rubjerg” i verdensomspændende digitale artikler fra den 21. til de 23/9-2019. Her ser vi, at Kjeld Pedersen er connected til Rugbjerg Knude, og at Arne Boelt på en eller anden vis bliver connected til Lea Wermelin (som miljøminister er hun sikkert citeret i en række artikler sammen med Arne).
Det er ikke fordi, at vi ser et voldsomt kompakt netværk, men tænk lige over, at en søgning på Rubjerg i disse dage på globale digitale medier sætter Kjeld, Fyret og vores kommunes borgmester i samme ”omtaleniveau”, som Erdogan, Trump og Putin.
Det siger noget om, hvor ekstremt langt ud, at eventet er kommet i verden.
Der er reklameværdi for millioner og atter millioner i gårsdagens flytning.
Er jeg den eneste, der ikke forstår det her? Jeg ser streger og navne, men ingen kvantitative mål. Kære Claus, vil du ikke bruge et par minutter på at udfolde det lidt mere pædagogisk. Please.
Det er en lang teknisk forklaring, Paw. Artiklerne bliver scrapet (læst af en robot) og alle engelske artikler på verdensplan, som indeholder ordet rubjerg, bliver undersøgt og bliver holdt op mod de øvrige topics ude i verden. Artiklerne bliver derefter omdannet til en wordmatrice, en såkaldt bag-of-words, derefter bliver der lavet en såkaldt TF-IDF analyse, som viser hvor ofte et ord er nævnt, men også i forhold til de enkelte artikler. Stopord fjernes dvs. ligegyldige ord, såsom ”jeg”, ”hun”, ”han” (de skaber ingen analytisk værdi). Det var den tekniske del. Resten bliver lidt nemmere.
Derefter kigges der på co-occurence af ord, hvilket betyder, at hvis en entity (f.eks. Kjeld) nævnes i samme sætning som en anden entity (f.eks Rubjerg Knude) skabes en ”edge” (et tilhørsforhold) mellem de to.
Af stregerne kan læses, at Erdogan og Putin er blevet nævnt i samme sætning lige så ofte som Kjeld og Rubjerg Knude i dagene fra 21-23/9. Altså at omtalen af Putin/Erdogan er på samme niveau som omtalen af Kjeld/Rubjerg eller Trump/Biden. Det vil side, at for hver gang, der er en sætning i en engelsksproget artikel, hvor Trump og Biden nævnes i samme sætning, findes der kvantitativt en tilsvarende sætning omkring fyret/Kjeld.
Jeg har ikke præcise tal på denne minianalyse, som jeg har lavet. Det kræver lidt mere kodning, som jeg ikke har tid til lige nu, og lidt mere computerkraft.
Hvis du vil længere ned i det, er der er rimelig god tutorial her: https://www.datacamp.com/community/tutorials/social-network-analysis-python
Tak for den tutoriale henvisning. Men når man bruger lidt mere kodning på din minianalyse af co-occurence af ordet Keld og så anvender Betweenness Centrality som mellemkommen variabel med en ATP entity uden overliggende knastaksel, så kommer man frem til at der dannes en edge af wordmatrice uden Søren og Mette i det globale netværk. Bruger man derimod TF-IDF anal-alysen optræder Søren Smalbro med et bredsporet voldsomt kompakt netværk, der er kommet langt ud i det idiopatiske univers uden adgang til reverens. Altså din scraping af det globale netværk holder ikke vand. Om du derimod anvender den overliggende knastaksel i din algoritme og laver en parabel med den bortkomne fermat i anden potens med inddragelse af Lea Wermelin, kommer du frem til nye connetationer, der belyser hvorledes demokratierne fungerer i såvel Hjørring byråd som i sangforeningen Morgenrøden. Set i den context kunne dine alkoholaritmer være meget mere frugtbare for ananlyse af spredning af det gode budskab om Kjeld, fyret å Arne i det globale netværk. Vi er “en kreds af borgere” ser frem til dybere, præcisere analyser.