donderdag 29 mei 2008

KDD

KDD

Knowledge discovery in databases (KDD) is een probleem. Niet als je het gewoon in je bedrijfssituatie toepast, maar wel als het op jou wordt toegepast. En dat kan al bij toepassing van ongerichte zoekslagen in grote databases het geval zijn. Dit soort zoekslagen zijn bedoeld om onvermoede verbanden tussen gegevens zichtbaar te maken en zijn - uiteraard - populair bij opsporingsinstanties en veiligheidsdiensten. Vanuit forensisch oogpunt bezien valt er dan ook veel voor deze techniek te zeggen.

Een overheidsorganisatie (of willekeurig welke grote organisatie) zal een stuk minder welwillend staan tegen een verzoek tot ongerichte zoekopdrachten binnen de bedrijfsomgeving. Naast de bedrijfseconomische risico's (het openbaar worden van bedrijfsgeheimen) loopt het bedrijf ook privacy risico's.

Om toch deze weg in te kunnen slaan moeten er op voorhand wel bepaalde eisen worden gesteld en veiligheden zijn ingebouwd. Dit kan van wetgeverzijde, maar bedrijven en organisaties kunnen daar ook een rol in spelen. Eén daarvan is het beperken van registratie. Door slechts data vast te leggen van processen die er toe doen en daarbinnen alleen de relevante gegevens op te slaan, is een beperkte hoeveelheid informatie beschikbaar.

Daarnaast is een onvoorwaardelijke beperking van de toegang tot deze gegevens noodzakelijk. Overigens is dit al geregeld via de Wpolr, waarbij een datawarehouse als tijdelijk politieregister kan worden ingezet. Hier gelden dan restricties, zoals het handelen onder leiding van de OvJ door de politie bij de gerichte doorzoeking van het datawarehouse. Ongericht doorzoekingen, dat wil zeggen, zonder dat er een duidelijk afgebakende onderzoeksvraag aan ten grondslag ligt zijn een stuk moeilijker uit te voeren.

Met de toestemming van de Tweede Kamer om telecommunicatie verkeersgegevens 1 jaar op te slaan (in plaats van de voorgestelde anderhalf jaar) hebben veiligheidsdiensten volop bestanden beschikbaar voor ongerichte zoekslagen. Zij mogen namelijk wel met datamining technieken zoeken naar onvermoede dwarsverbanden in informatie. Vervelende bijkomstigheid is dat bij grote databases de kans op fouten ook groter wordt. Hierdoor neemt eveneens de kans toe dat op basis van foutieve gegevens de verkeerde conclusies getrokken worden.

Dat noemen we collateral damage.

maandag 19 mei 2008

Writers tools

Vandaag hadden wij de eerste bijeenkomst van de Haagsche Studiekring. Het is heel motiverend om je studiegenoten in dezelfde situatie aan te treffen, en met elkaar studietips uit te wisselen. Tijdens de terugkomdag in Eindhoven hebben we al een paar handige tips gekregen voor het verzamelen en catalogiseren van websites en pdf bestanden (Zotero), maar vandaag kwamen er meer handige tips voorbij.

Zoals het gebruik van Dark Room voor het dóórschrijven van je scriptie nadat je al je literatuur klaar hebt liggen. Dit is een rtf-tekstverwerker met geen andere functionaliteit dan een zelf gedefinieerde achtergrondkleur en kleur van het lettertype (Amber of groen op zwart, doet dat je niet ergens aan denken?). Ideaal om door te werken zonder dat je wordt afgeleid door allerlei handige iconen en pratende paperclips. Of door je mailboxindicator. Het vraagt wel de installatie van .NET, maar dat had je al omdat je Paint.NET hebt geïnstalleerd (de veel betere opvolger van Paint).

Ook kwam de problematiek van de bookmarks ter sprake. Want leuke en interessante sites kom je overal tegen, maar hoe houd je enkele tientallen van die dingen nu uit elkaar? Firefox biedt met zijn bladwijzerbeheerder voldoende mogelijkheden een en ander te sorteren. Maar dat is vaak alleen voor de blijverdjes. Eenmalige of gelijksoortige links kun je snel en handig op onderwerp sorteren door per onderwerp een Firefox venster te openen. Iedere site open je dan op een eigen tabblad. En door alles in één keer te markeren als bookmark (in een eigen map) kun je een index opbouwen. Die bookmarkgroup maak je door met de rechtermuisknop op een tabblad te klikken en de optie "Bladwijzer voor alle tabbladen maken" te selecteren. Je kunt vervolgens nog een passende naam opgeven.

Op speciaal verzoek heb ik dit weblog nog voorzien van een RSS-feed (Atom). Kijk maar onderaan.

Succes met de studie!