Hoe we gepruts in Wikipediaposts in de kiem kunnen smoren

PHOTO_NEWS
Het gebruik van Wikipedia als informatiebron neemt almaar toe. Tegelijk staat de betrouwbaarheid van de online encyclopedie steeds meer ter discussie. Zo raakte gisteren nog bekend dat Pol Van Den Driessche zijn eigen Wikipediapagina heeft opgesmukt om een beter beeld van zichzelf te schetsen. Volgens Science Daily hebben twee Chinese computerwetenschappers nu een oplossing gevonden om de hoge norm van Wikipedia te handhaven.

De meer dan 1,7 miljoen artikels op Wikipedia werden bijeengeschreven door verschillende vrijwillige auteurs. Iedereen heeft
toegang tot het online platform en dat leidt, ondanks de inspanningen van een team van vrijwillige redacteurs om de kwaliteit hoog te houden, occasioneel tot onjuiste en onvolledige posts en opzettelijk 'vandalisme' aan teksten. Verkeerde informatie kan soms lang op Wikipedia blijven staan. De site maakt zelf melding van posts over niet-bestaande personen die maandenlang online stonden.

In een artikel over de Slag om Stalingrad stond drie jaar lang verkeerdelijk dat de slag op 28 juni begon, alvorens iemand de fout opmerkte. Omwille van zulke incidenten staat de kwaliteit van Wikipedia al vele jaren ter discussie. Volgens critici zal het nooit een volwaardige informatiebron kunnen zijn zoals een 'echte' encyclopedie; voorstanders vinden de sociale controle en de open toegang net een van de sterktes van de online encyclopedie.

Om de kwaliteit en de betrouwbaarheid van Wikipedia op te vijzelen, ontwikkelden computerwetenschappers Jingyu Han and Kejia Chen van de universiteit van Nanking in China nu een algoritme dat de posts automatisch checkt en een beoordeling geeft. Hun werk verscheen in het vakblad Journal of Information Quality.

Filteren zoals e-mails
De wetenschappers maakten gebruik van het theorema van Bayes om hun computerprogramma te creëren. De achttiende eeuwse wiskundige Thomas Bayes was de eerste die het idee lanceerde om bewijzen te vinden op basis van een analyse van waarschijnlijkheden. Zijn theorema wordt vandaag algemeen toegepast om bijvoorbeeld de inhoud van e-mails te beoordelen en filteren.

Op een gelijkaardige wijze werkten Han en Chen een systeem uit om de inhoud van Wikipediaposts te beoordelen. Voor elk artikel levert hun software een kwaliteitsbeoordeling op, waarmee ze de artikels kunnen rangschikken. Dat geeft de mogelijkheid posts met een lage score te markeren zodat redacteurs de inhoud kunnen verbeteren. Posts die hoog scoren, zouden dan weer aangeduid kunnen worden als een definitief artikel, waardoor het vervolgens niet meer overschreven kan worden met informatie van een lagere kwaliteit.

Het team testte het algoritme op honderden artikels en vergeleek de automatische kwaliteitsbeoordeling met een beoordeling door een menselijke gebruiker. Het algoritme scoorde tot 23 procent beter in het correct classificeren van de kwaliteit. Het systeem zou de nood aan subjectieve beoordelingen door gebruikers overbodig maken, stellen de wetenschappers, wat de standaard en de reputatie van de online encyclopedie zou verhogen.