Perdiep Ramesar in het Internet Archive
Eerder deze week verwijderde dagblad Trouw 126 artikelen van haar website die geschreven waren door ontslagen journalist Perdiep Ramesar. Aanleiding hiervoor was het onderzoek naar door Ramesar opgevoerde “niet traceerbare” bronnen. De beslissing van Trouw om de onbetrouwbare artikelen van de site af te halen stuitte op nogal wat kritiek. Sommigen noemden het geschiedvervalsing. Historicus Jan Dirk Snel merkte terecht op dat nu de stukken zijn verwijderd, niemand meer kan controleren wat er eventueel wel of niet aan deugt.
Vindbaarheid in Internet Archive
Uit nieuwsgierigheid heb ik van een aantal van de verwijderde artikelen gekeken of ze nog te vinden waren in het Internet Archive. Voor sommige stukken bleek dit inderdaad het geval. Vervolgens werd ik benieuwd hoeveel van de 126 verwijderde artikelen nog vindbaar zouden zijn. Het probleem hierbij is alleen dat het Internet Archive niet echt makkelijk doorzoekbaar is. Om een artikel op het spoor te komen, heb je eigenlijk de originele URL (dus op de Trouw website) nodig. Trouw heeft wel een lijst met de verwijderde artikelen gepubliceerd, maar hierin wordt van elk artikel alleen de titel vermeld, en niet de volledige link.
Omdat de artikelen nog maar recent zijn verwijderd, zitten de URLs nog wel in de cache van de meeste zoekmachines. Door de titels uit de lijst met verwijderde artikelen in te voeren in Google en DuckDuckGo, lukte het me om van alle 126 artikelen de originele URLs te achterhalen1. Met behulp van een zelfgeschreven scriptje heb ik vervolgens elke URL opgezocht in het Internet Archive. Dit leverde me een lijst op met -voor elk artikel- de status in Internet Archive (is het gearchiveerd of niet), en, indien aanwezig, de meest recent gearchiveerde versie.
Resultaat
Het resultaat van de hierboven beschreven analyse heb ik samengevat in deze tabel. Van de 126 verwijderde artikelen zijn er 53 nog opvraagbaar in het Internet Archive. Het gaat hierbij vooral om artikelen uit 2010 en later; uit de periode 2007-2009 is nog maar weinig te vinden.
Nog meer te vinden?
Overigens verwacht ik dat met goed zoeken nog wel meer te vinden valt: voor zover ik het het goed begrijp, wordt een artikel op de Trouw website eerst onder een nieuwslink gepubliceerd; vervolgens verhuist het naar het archief, waarna het onder een archieflink beschikbaar is. Een voorbeeld is het artikel Ik kan mezelf niet veranderen in een witte man. Een zoekactie met DuckDuckGo leverde me hiervan de volgende link op:
Deze archieflink is niet te vinden in Internet Archive. Op de site van Jan Dirk Snel kwam ik van hetzelfde artikel de nieuwslink tegen:
En die zit wel in Internet Archive:
Er zullen dus nog wel meer artikelen op vergelijkbare wijze door het net zijn geglipt. Als lezers nog aanvullingen of correcties hebben dan hoor ik dat natuurlijk graag!
AD
Het AD is nog veel verder gegaan dan Trouw, en heeft gelijk alle artikelen waarvan Ramesar auteur is verwijderd. Van veel van deze stukken zijn de originele URLs nog te achterhalen via de Google cache. Maar niet lang meer! Omdat het hier om honderden artikelen gaat, is het geen doen om de URLs allemaal handmatig op te vragen. Google biedt een Search API aan, en daarmee zou het mogelijk moeten zijn om dit grotendeels te automatiseren. Die URLs kun je vervolgens weer proberen terug te zoeken in Internet Archive, net zoals ik dat voor de Trouw artikelen heb gedaan. Ik ga daar zelf nu geen tijd in steken, maar misschien heeft iemand anders zin om hiermee aan de slag te gaan. Enige haast is hierbij wel geboden, want binnen een paar weken zullen de links uit Google’s cache verdwenen zijn, en het is maar de vraag of je het dan nog ooit terug kunt vinden.
Links
- Data als kommagescheiden tekstbestand (UTF-8)
- Github repository met gebruikte scripts en databestanden
- ZIP bestand met alle scripts en databestanden
-
Google heeft hierbij de vervelende gewoonte om niet de directe links naar de zoekresultaten te geven. Om dit te omzeilen heb ik de volgende FireFox add-on gebruikt: https://palant.de/2011/11/28/google-yandex-search-link-fix ↩
-
web-archiving
- How to preserve your personal Twitter archive
- Mapping the Dutch web domain
- Restoring Liesbet's Virtual Home, a digital treasure from the early Dutch web
- Web domain geolocation and spatial analysis with QGIS
- Crawling offline web content: the NL-menu case
- Resurrecting the first Dutch web index: NL-menu revisited
- Dutch newspaper wipes out articles citing fabricated sources - Internet Archive to the rescue!
- Perdiep Ramesar in het Internet Archive
- Demise of the Dutch Blogosphere
- How to save a web page to the Internet Archive
Comments