Kliksafe filtert het internet voor jou. Hoe een koffiefilter werkt, dat weet iedereen wel. Maar hoe werkt een internetfilter? Zonder heel technisch te worden, zal ik dat in deze blog uitleggen.
Het begint er mee dat het filter tussen jouw verbinding moet zitten. Iets wat niet door het filter gaat kan natuurlijk ook niet gefilterd worden. Als je een Kliksafe verbinding hebt, gaat alles vanzelf door het filter.
Het grootste knooppunt in Nederland
Het Kliksafe internetfilter is niet zo maar een enkele machine, maar bestaat uit een heel aantal machines die onderling samenwerken. Samen staan ze in een datacentrum dicht bij het grootste knooppunt in Nederland; in Amsterdam. Dit knooppunt heet Datatower. Omdat er onderhoud mogelijk moet zijn en omdat er onderdelen uit moeten kunnen vallen zonder dat je daarvan als klant last mag hebben, zijn er systemen dubbel uitgevoerd. Een soort van poortwachter maakt jouw verbinding vast aan een filterserver.
De filterserver
De filterserver is een erg snelle computer met een speciaal besturingssysteem er op. Deze software is geschreven door Smoothwall, een bedrijf uit Engeland met veel ervaring in internetfiltering voor vooral het onderwijs. Kliksafe heeft daar zoveel kennis en ervaring mee dat we de enige zijn die dit systeem in de Benelux mogen verkopen en daar ook support op kunnen geven.
Deze filterserver kijkt of er dingen langs komen waar hij naar moet kijken. Naar veel zaken hoeft het filter niet te kijken. We hebben het zo ingesteld dat niet alles door het filter hoeft. Daarbij kan je denken aan Office 365, bepaalde apps, je slimme thermostaat, of de plaatjes en filmpjes op een website. Een deel van het verkeer wordt vóór het filtersysteem al ergens anders heen gestuurd, bijvoorbeeld het telefoonverkeer. En een ander deel wordt direct bij binnenkomst al om het filter heen direct internet opgestuurd.
Squid en Guardian
Alles wat naar een van de filtermachines gaat wordt bekeken. Het systeem maakt eerst een grove scheiding: kan ik er wat mee of niet? De basis van het filter is een zogenaamde Squid proxy. Squid is het Engelse woord voor octopus en hij zit met zijn acht armen dus lekker in het internetverkeer te grabbelen. Hij pakt al het webverkeer er uit. Dit geeft hij vervolgens aan zijn tweelingbroer: het eigenlijke filter. Deze tweelingbroer, die we Guardian noemen, gaat nu goed kijken wat het is en wat er moet gebeuren. Voor dat laatste gebruikt Guardian de instellingen wie, wat en wanneer je wel of niet wilt hebben. Omdat wij veel verschillende keuzemogelijkheden hebben voor jullie is dit een hele lijst geworden. MijnKliksafe gebruik je om jouw filterkeuzes in te stellen.
Veilig zoeken
Hoe dit allemaal werkt, zal ik met een voorbeeld duidelijk maken. Je zit achter je laptop en typt op een zoekmachine een zoekopdracht in. Je gaat naar http://www.eenzoekmachine.nl/, typt een woord in het zoekvak en klikt op zoeken. Nu gebeurt er ineens van alles. Het adres van de website verandert in: https://www.eenzoekmachine.nl/search?safe=strict&q=een+woord
Het is niet alleen een veilige verbinding geworden door van http naar https te gaan, maar er is safe=strict tussen gekomen. Dat heeft het filter gedaan. In die paar millisecondes heeft het filter gekeken wat voor pagina je bezoekt, aanpassingen gedaan en de inhoud van de pagina naar je computer gestuurd.
Categorieën
Iedere pagina die je bezoekt, wordt gecategoriseerd, er wordt dus gekeken waar die pagina bij past. Een pagina kan natuurlijk in meerdere categorieën vallen. Eerst kijkt Guardian of de pagina op een lijst staat. Vervolgens wordt de pagina opgehaald en kijkt het systeem welke woorden er op de pagina staan. Bepaalde woordcombinaties zorgen ervoor dat pagina in een categorie wordt geplaatst. Bij een zoekpagina wordt gekeken welke zoekwoorden gebruikt zijn, die wellicht ook bij een bepaalde categorie horen. Als laatste element kijkt het filter naar het patroon van het webadres. Al deze lijsten en aanpassingen worden tijdens het starten van de filtermachine verzameld en in een bestand in het werkgeheugen gezet. De lijsten houden we bij op een ander systeem, waar ons filterteam zijn werk in doet. Het gaat om miljoenen webadressen en duizenden woorden en instellingen.
Jouw filterkeuzes
Het grappige is dat het filter ook het patroon van het webadres kan aanpassen om het filter te verbeteren. We hebben nu op eenzoekmachine.nl een tweetal zoekwoorden ingetypt. Dit waren onschuldige woorden die geen effect hebben op de categorisering. Het filter heeft wel het patroon aangepast. Er is door het filter safe=strict tussen geplaatst, waardoor de zoekmachine overschakelt op veilig zoeken. Dit kan je er niet tussen uit halen. Het filter heeft de pagina opgehaald en deze valt niet in categorieën die jij dicht wilt hebben. Stel dat je een andere zoekterm zou gebruiken, bijvoorbeeld voetballen. Wanneer jij sport dicht gezet hebt in je filterkeuzes, dan krijg je nu een blokkade pagina. De zoekterm voetballen zal in sport zitten en ook de antwoorden van de zoekmachine lijken veel op sport. Het filter ziet dat en ziet dat jij dat niet wilt. Daarom geeft het filter je als antwoord niet de zoekpagina met de antwoorden terug, maar de bijpassende blokkadepagina. Dit zou ook gebeuren als je een zoekwoord gebruikt wat een onverwachte dubbele betekenis heeft (waarvan één van die betekenissen bijvoorbeeld in het basisfilter zit). Op onze blokkade pagina staat een knop om blokkades te melden die volgens jou onterecht zijn. Jouw melding komt bij ons filter-team terecht die er naar gaat kijken. Wij kunnen dan de dingen aanpassen, waardoor het filter een stapje beter wordt.
Filteren in cijfers
Misschien vraag je je af hoe druk ons filter met dit alles nu bezig is. Werkt dat niet heel erg vertragend allemaal? Er gaat inderdaad heel veel door heen. In de laatste 24 uur is er ruim 8 miljoen keer een pagina van Windowsupdate opgevraagd, is er bijna 3 miljoen keer iets op www.google.nl gezocht en bijna 2 miljoen keer iets op www.google.com. Naast al het andere internetverkeer dat er doorheen gaat. Eén proxy filtert op dit moment 7439 pagina’s per minuut. Gemiddeld duurt het 0,09 seconde voor je antwoord krijgt. Op rustige momenten gaat er ongeveer 120 megabit per seconde door één proxy heen, maar als het druk is loopt dat wel op tot ruim over de 1700 megabit per seconde. Over het algemeen merk je hier niets van. Ieder jaar wordt dit meer en daarom houden we dit scherp in de gaten.
Vind je dit soort dingen interessant of heb je onderwerpen voor een nieuwe blog, laat het ons weten. Dat vinden we leuk!
Reageren?