Inhoudsanalyses
Extractie van netwerken Bottom-Up: Latente Dirichlet Allocatie (LDA)
Recent hebben we een nieuwe techniek ontwikkeld om in plaats van top-down naar onderwerpen te zoeken, dit bottom-up te doen. Deze techniek komt uit de Verenigde Staten en wordt daar pas op kleine schaal toegepast. Wat er gebeurt is het volgende. Alle teksten (kranten, televisie, social media) worden in de computer geladen. De computer bekijkt vervolgens per artikel/item hoe vaak een woord voorkomt en maakt een woordenlijst per artikel. Deze woordenlijst wordt gereduceerd tot een lijst van lemma’s (woordstammen). Per lemma wordt bekeken hoe vaak het voorkomt in het artikel. De computer berekent vervolgens welke woorden vaak samen voorkomen in de artikelen. Deze zogenaamde clustering is te vergelijken met factoranalyse. De gevonden woorden vormen samen een cluster, oftewel een onderwerp, in het nieuws. Deze onderwerpen kunnen vervolgens bekeken worden in combinatie met andere onderwerpen, met verschillende actoren etc. zodat we een globaal netwerk kunnen extraheren per artikel.
Extractie van netwerken Top-Down
Een uitgebreide, gespecialiseerde computerinfrastructuur – AmCAT – vormt de basis voor de inhoudsanalyses van nieuwsmedia. De database waarmee de Nieuwsmonitor werkt, bevat een thematische lijst (ontologie) met duizenden onderwerpen, organisaties en personen die vaak in politiek nieuws voorkomen. Deze lijst is op basis van jaren wetenschappelijk mediaonderzoek gegroeid en bijgesteld. Met die ontologie worden globaal bezien twee soorten inhoudsanalyses uitgevoerd: 1) automatische inhoudsanalyses waarvoor een computer duizenden teksten doorzoekt om zaken als aandacht voor thema’s en personen te meten en 2) relationele inhoudsanalyse waarvoor een team van media-analisten via een computerprogramma invoert welke personen en onderwerpen positief of negatief met elkaar worden geassocieerd in berichten. In de volgende twee alinea’s worden beide vormen uitvoeriger toegelicht.
Automatische inhoudsanalyse
Via de zogenaamde automatische inhoudsanalyse kunnen dankzij de computer in feite ongelimiteerde hoeveelheden artikelen in hun geheel in hooguit een paar minuten worden doorzocht. Dit is mogelijk doordat alle thema’s, personen en organisaties in de ontologie een lijst met zoektermen c.q. synoniemen bevatten. Deze gecomputeriseerde methode helpt bij het beantwoorden van vragen als “hoeveel aandacht krijgt onderwerp of politicus x” of “waarmee wordt een bedrijf of politieke partij vaak geassocieerd in het nieuws”. De Digitale Nieuwsmonitor wordt voor een aanzienlijk deel via deze vorm van inhoudsanalyse gevoed. Meer informatie over de technische infrastructuur achter de onderzoeksmethode is te vinden via deze website of deze link.
NET-methode
De tweede, relationele vorm van inhoudsanalyse richt zich op de details van de teksten of items. Via deze zogenoemde NET-methode leggen menselijke codeurs met het computerprogramma iNet per zin vast of bijvoorbeeld partij x positief of negatief wordt geassocieerd met partij of onderwerp y. Wanneer vervolgens per medium alle zinnen bij elkaar worden genomen, kan wat worden gezegd over de teneur van het nieuws (Balkenende wordt in de ene krant negatiever geevalueerd dan in de ander of neemt vaak een positieve houding aan tegenover economische groei). Omdat ook het soort positieve of negatieve relatie wordt vastgelegd, kan uiteindelijk worden bekeken wat voor soort nieuws domineert. Is er bijvoorbeeld veel conflictnieuws of gaat de berichtgeving vooral over standpunten die politici innemen. Bovendien laat deze methodiek het toe om de inhoud van het nieuws als netwerk te visualiseren. Via een dergelijk netwerkplaatje is iedere politicus of onderwerp als een ovaal label positief dan wel negatief gekoppeld aan een ander persoon of thema. Hiermee is in een oogopslag de overheersende argumentatie in de actualiteit te volgen (zie de afbeelding hieronder als voorbeeld).