Wat is nou precies het verschil tussen een URL-filter en een contentfilter? Technisch directeur Herman legt het uit.
In het verleden (en nu nog) had je firewalls en webfilters. Een firewall is een apparaat dat – simpel gezegd – kijkt of bepaald dataverkeer mag passeren of niet. Een webfilter doet dat ook.
Toch is de benadering heel anders: in een firewall wordt gekeken naar waar komt het verkeer vandaan (met name: vanaf welk IP-adres), waar wil het naar toe, en welke “poort” gebruikt het. In het verleden waren bepaalde poorten voorbehouden aan bepaald verkeer – en nog steeds zie je dat men zich daar in het algemeen aan houdt: poort 465 of 587 voor e-mail, poort 80 of 443 voor webpagina’s enzovoort.
Een webfilter kijkt óók naar bron en bestemming, maar beperkt zich tot het webverkeer: de gegevens die je in je browser ziet. Daarbij kijkt het verder dan de gebruikte poort, het kijkt echt naar de bron van de gegevens (de URL). Of nog beter: naar de inhoud. Maar dat laatste lang niet altijd en daar gaat dit verhaal over.
Tegenwoordig zie je firewalls en webfilters naar elkaar toe groeien: veel firewalls bieden de mogelijkheid om de optie “webfilter” in te schakelen. En sommige webfilters hebben een (optionele) firewall aan boord.
De URL
Filters die meegeleverd worden als optie in een firewall zijn meestal van het type URL-filter.
Een URL (letterlijk betekent dit "Uniform Resource Locator") is de omschrijving van een plek waar informatie te vinden is. Zo is dat voor de website van Kliksafe: kliksafe.nl of www.kliksafe.nl
De firewall-bouwers kopen lijsten met URL’s, onderverdeeld in categorieën zoals “porno” of “gokken”, van leveranciers die als dagtaak hebben deze lijsten op te stellen en actueel te houden.
Een URL kan meer bevatten dan alleen de domeinnaam ("kliksafe.nl"). Zo kan je bijvoorbeeld ook heel specifiek verwijzen naar een pagina zoals https://www.kliksafe.nl/welk-filter-past-bij-mij/
Hier zie je achter de domeinnaam extra informatie die verwijst naar specifieke inhoud van de website.
Klassieke URL-lijsten in filters maken hier gebruik van. Zo kan je bijvoorbeeld eenvoudig toegang blokkeren tot erotische inhoud van een site die verder niet-erotische inhoudt biedt. Bijvoorbeeld: www.voorbeeld.xyz/erotiek
De URL met variabelen
Tot zover allemaal duidelijk en rechttoe rechtaan. Dit werkte allemaal prima totdat websites complexer van opbouw werden en niet meer bestonden uit losse pagina’s maar de inhoud uit databases gingen halen. De klassieke URL wordt bij die techniek vervangen door iets als:
https://www.google.nl/search?safe=strict&source=hp&ei=oaJ5WvGgFsLawQKX9oK4AQ&q=test&oq=test&gs_l
en dan is dit nog maar een kort voorbeeld...
Je ziet in de URL allemaal variabelen verschijnen en vaak zijn die ook nog uniek per sessie en per gebruiker. Je kunt dus niet goed meer filteren op URL omdat deze continu verandert. Wanneer een URL bij elke sessie anders is, moet een filterserver ook de inhoud van de pagina kunnen lezen. Goede filterservers kunnen dat “real-time”. Maar er is nóg een complicatie…
Versleutelde URL’s en https
Een tweede complicatie is de opkomst van het gebruik van https - het secure http protocol. Wanneer een site https gebruikt, kan een filterserver alleen nog maar de domeinnaam zien en niet meer wat er ná de slash (/) komt (omdat dit deel ook versleuteld is). Ook de inhoud van de pagina wordt onleesbaar.
In het voorbeeld van www.voorbeeld.xyz/erotiek ziet een URL-filter nog wel dat je naar www.voorbeeld.xyz gaat, maar niet het /erotiek erachter. Met als gevolg dat een klassiek URL filter dit gewoon door zal laten.
Moderne filtersystemen zijn daarom veel complexer geworden. In de eerste plaats zal een goed filter in staat moeten zijn om naast het gebruik van URL-lijsten óók de versleutelde URL’s te kunnen "lezen". Op grond van de complete URL kan zo'n filter dan besluiten om alsnog in te grijpen.
Ten tweede hebben moderne webfilters ook de mogelijkheid in zich om https websites op inhoud te filteren: de onleesbare inhoud wordt in het filter tijdelijk leesbaar gemaakt om de inhoud van de pagina te kunnen analyseren.
Kan een firewall/filtercombinatie deze twee technieken niet toepassen, dan is het feitelijk zo lek als een mandje! Onze tip: controleer dus altijd vóór je tot aanschaf overgaat welke techniek er gebruikt wordt. Want een firewall/filtercombinatie zonder https-filter en zonder real-time pagina check, is eigenlijk zo goed als geen filter.
Reageren?