donderdag 29 mei 2008

KDD

KDD

Knowledge discovery in databases (KDD) is een probleem. Niet als je het gewoon in je bedrijfssituatie toepast, maar wel als het op jou wordt toegepast. En dat kan al bij toepassing van ongerichte zoekslagen in grote databases het geval zijn. Dit soort zoekslagen zijn bedoeld om onvermoede verbanden tussen gegevens zichtbaar te maken en zijn - uiteraard - populair bij opsporingsinstanties en veiligheidsdiensten. Vanuit forensisch oogpunt bezien valt er dan ook veel voor deze techniek te zeggen.

Een overheidsorganisatie (of willekeurig welke grote organisatie) zal een stuk minder welwillend staan tegen een verzoek tot ongerichte zoekopdrachten binnen de bedrijfsomgeving. Naast de bedrijfseconomische risico's (het openbaar worden van bedrijfsgeheimen) loopt het bedrijf ook privacy risico's.

Om toch deze weg in te kunnen slaan moeten er op voorhand wel bepaalde eisen worden gesteld en veiligheden zijn ingebouwd. Dit kan van wetgeverzijde, maar bedrijven en organisaties kunnen daar ook een rol in spelen. Eén daarvan is het beperken van registratie. Door slechts data vast te leggen van processen die er toe doen en daarbinnen alleen de relevante gegevens op te slaan, is een beperkte hoeveelheid informatie beschikbaar.

Daarnaast is een onvoorwaardelijke beperking van de toegang tot deze gegevens noodzakelijk. Overigens is dit al geregeld via de Wpolr, waarbij een datawarehouse als tijdelijk politieregister kan worden ingezet. Hier gelden dan restricties, zoals het handelen onder leiding van de OvJ door de politie bij de gerichte doorzoeking van het datawarehouse. Ongericht doorzoekingen, dat wil zeggen, zonder dat er een duidelijk afgebakende onderzoeksvraag aan ten grondslag ligt zijn een stuk moeilijker uit te voeren.

Met de toestemming van de Tweede Kamer om telecommunicatie verkeersgegevens 1 jaar op te slaan (in plaats van de voorgestelde anderhalf jaar) hebben veiligheidsdiensten volop bestanden beschikbaar voor ongerichte zoekslagen. Zij mogen namelijk wel met datamining technieken zoeken naar onvermoede dwarsverbanden in informatie. Vervelende bijkomstigheid is dat bij grote databases de kans op fouten ook groter wordt. Hierdoor neemt eveneens de kans toe dat op basis van foutieve gegevens de verkeerde conclusies getrokken worden.

Dat noemen we collateral damage.

Geen opmerkingen: