Wat is het risico als je bedrijfsdata in ChatGPT stopt? Groter dan je denkt.

Maak je keuze bewust en weloverwogen

Moet je bang zijn om met AI te werken? Absoluut niet. Maar het is wel belangrijk om bewust te zijn van de risico’s, zodat je hier zelf een goede afweging in kunt maken. Maar wat is het risico als je vertrouwelijke informatie in bijvoorbeeld ChatGPT stopt? Kort gezegd: als je gevoelige data in zo’n systeem zet, loop je het risico dat je er de controle over verliest.

Behandel een publieke LLM alsof je in een drukbezochte kroeg staat: Alles wat je zegt kan mogelijk door anderen gehoord, onthouden of doorverteld worden.

Bart Heesink

Training van een Large language model (LLM)

Een Large Language Model (LLM) zoals ChatGPT of Mistral werkt op basis van patronen die het heeft geleerd uit enorme hoeveelheden tekst. Het model zelf “onthoudt” individuele gesprekken niet zoals een database dat doet, maar het kan tijdelijk gegevens opslaan in het geheugen van een sessie om jouw huidige gesprek logisch te laten verlopen.

Er zijn grofweg twee belangrijke fasen in de training van AI modellen:

  1. De initiële training: het model wordt vooraf getraind op gigantische datasets (internet, boeken, artikelen, code, etc.)
  2. Instructie- of fine-tuning: extra training van het model met menselijke input / feedback of specifieke datasets.

Tijdens de training wordt tekst niet letterlijk bewaard zoals in een Word-document. Het model zet de patronen in die tekst om in wiskundige waarden (gewichten) die de kans berekenen dat bepaalde woorden of zinnen bij elkaar horen.

Als je “Leukeleu BV ontwikkelt applicatie voor Bedrijf X” invoert wordt dit niet één op één opgeslagen als tekst. Het wordt omgezet naar getallen/tokens die samen “leren” door te kijken hoe groot de kans is dat als ze deze woorden tegenkomen, welke andere woorden dan volgen.

Zo kan het model straks vergelijkbare zinnen maken, zonder jouw exacte invoer te onthouden. Maar als je iets unieks en opvallends invoert, kan het patroon daarvan wel terugkomen in output.

Waar wordt de ingevoerde data opgeslagen?

Waar de ingevoerde data wordt opgeslagen hangt af van de aanbieder en de instellingen. Bij publieke AI-diensten kan jouw input tijdelijk worden opgeslagen op servers van de aanbieder (vaak in de VS of wereldwijd verspreide datacenters). Deze data kan soms worden gebruikt voor modelverbetering (mits toegestaan door hun privacybeleid). Bedrijfs- of enterprise versies (zoals ChatGPT Enterprise, Azure OpenAI, Mistral Private) beloven dat deze input niet wordt gebruikt voor training, en dat de data alleen in die sessie of binnen een afgesproken retentieperiode wordt bewaard.

Let op: Dit is de theorie… Maar zoals vaak bij deze beweringen en beloftes worden deze ook vaak geschonden in de praktijk.

Wordt mijn data gebruikt om het model te trainen?

Bij de meeste gratis of standaard AI diensten wordt jouw data gebruikt om het model te trainen tenzij je het uitschakelt of het beleid anders zegt. Bij enterprise- of API-producten wordt de input meestal niet gebruikt voor training, tenzij je daar expliciet toestemming voor geeft.

Als data wordt gebruikt voor training, kan het in theorie terugkomen in andere outputs. Niet letterlijk als "copy-paste", maar in samengevatte of anders geformuleerde vormen. Dit risico is nog groter bij unieke of opvallende gegevens, zoals geheime productnamen, juridische documenten of interne strategieën.

Wat zijn de praktische risico’s?

Voor bedrijven

  • Verlies van IP: unieke ideeën of code kunnen “uitlekken” naar een LLM
  • Datadiefstal of lek: gevoelige bedrijfsinformatie kan op servers buiten je controle komen te staan
  • Compliance-issues: mogelijk overtreding van AVG, contracten of NDA’s

Voor individuen

  • Privacy-schending: persoonlijke gegevens kunnen in datasets belanden
  • Identiteitsfraude: gevoelige PII kan misbruikt worden
  • Onbedoeld delen: privégesprekken of vertrouwelijke documenten kunnen extern toegankelijk worden.

Basisregels voor verantwoord gebruik van AI

  • Voer geen vertrouwelijke of identificeerbare data in, in publieke LLM’s
  • Anonimiseer gegevens voordat je ze deelt
  • Controleer het privacybeleid van de aanbieder
  • Gebruik enterprise-versies met duidelijke contracten over data-opslag en verwerking
  • Zet “modelverbetering” uit als dat kan

Meer inzichten

Veelgestelde vragen

Wat is SureGPT?

SureGPT is het private AI-platform van Leukeleu. Het is een volledig eigen AI-omgeving die draait op jouw eigen infrastructuur of op een Europese private cloud. Je medewerkers kunnen AI gebruiken voor het doorzoeken van documenten, het genereren van tekst, het beantwoorden van vragen en meer, zonder dat data naar externe partijen gaat.

Wat is het verschil tussen SureGPT en ChatGPT?

ChatGPT is een publieke dienst van OpenAI. Alles wat je invoert gaat naar hun servers en kan worden gebruikt voor modeltraining. SureGPT draait volledig privé: je data blijft binnen je eigen omgeving, wordt niet gedeeld met derden, en wordt niet gebruikt om modellen te trainen. Bovendien kun je SureGPT koppelen aan je eigen documenten en systemen.

Waar wordt mijn data opgeslagen bij SureGPT?

Binnen jouw eigen infrastructuur of op een Europese private cloud, altijd binnen Nederland of de EER. Er gaat geen data naar servers van Big Tech-partijen. Jij houdt volledige controle over waar je data staat en wie er toegang toe heeft.

Is SureGPT AVG-compliant?

Ja. SureGPT is ontworpen met privacy by design en voldoet aan de AVG (GDPR) en NIS2-regelgeving. Data blijft binnen de EER, er is geen datatransfer naar derde partijen, en je hebt volledige controle over dataretentie en -verwerking.

Kan ik SureGPT koppelen aan onze eigen documenten en kennisbank?

Ja. SureGPT kan worden aangesloten op je interne documenten, kennisbanken, handleidingen en andere bronnen. Zo kan de AI antwoorden geven op basis van jouw specifieke organisatiekennis, in plaats van alleen algemene informatie.

Hoe voorkom ik shadow-IT als medewerkers al ChatGPT gebruiken?

Door ze een beter en veiliger alternatief te bieden. SureGPT geeft medewerkers dezelfde AI-mogelijkheden die ze van ChatGPT kennen, maar dan binnen een veilige, gecontroleerde omgeving. Geen verbod, maar een betere oplossing. Zo breng je AI-gebruik in beeld en houd je grip op security en compliance.

Welke AI-modellen kan ik gebruiken binnen SureGPT?

SureGPT is modelonafhankelijk. Je kunt werken met verschillende grote taalmodellen, afhankelijk van je behoeften op het gebied van snelheid, kwaliteit en kosten. Doordat het platform is gebouwd op open standaarden, kun je eenvoudig wisselen of nieuwe modellen toevoegen.

Hoe snel kan SureGPT worden ingericht voor mijn organisatie?

Een basisopstelling kan binnen twee weken live staan. De exacte doorlooptijd hangt af van je infrastructuur, het aantal gewenste integraties en de complexiteit van je documenten-basis. We starten altijd met een korte inventarisatie om de snelste route naar waardecreatie te bepalen.

Kan SureGPT worden geïntegreerd in onze bestaande tooling?

Ja. SureGPT kan via API's worden gekoppeld aan bestaande systemen zoals je intranet, CRM, documentmanagementsysteem of andere interne tools. Zo wordt AI een natuurlijk onderdeel van de dagelijkse werkstroom in plaats van een los hulpmiddel.

Is Leukeleu ISO 27001 gecertificeerd?

Ja, Leukeleu is ISO 27001 gecertificeerd sinds 2018. Dit betekent dat onze informatiebeveiliging jaarlijks wordt geaudit door een onafhankelijke partij. Het certificaat dekt ons hele werkproces: van ontwikkeling en hosting tot beheer en communicatie.

Waar wordt mijn applicatie gehost en mijn data opgeslagen?

Uitsluitend binnen Nederland of de Europese Economische Ruimte (EER). We gebruiken dedicated cloud VPS'en met managed hosting, back-ups, MFA en DDoS-bescherming. Er gaat geen data naar servers buiten Europa.

Hoe gaan jullie om met de AVG / GDPR?

We werken volgens privacy by design en privacy by default. Dat betekent dat privacybescherming vanaf het begin is ingebouwd in de software, niet achteraf toegevoegd. We zorgen voor dataminimalisatie, versleuteling, role-based access control, logging van datatoegang en volledige naleving van de rechten van betrokkenen.

Wat betekent "privacy by design" in de praktijk?

Het betekent dat we bij elke ontwerpbeslissing nadenken over de impact op privacy. Welke data is echt nodig? Wie heeft er toegang toe? Hoe lang bewaren we het? Hoe is het beveiligd? Deze vragen beantwoorden we vóórdat we beginnen met bouwen, niet erna.

Kan Leukeleu software bouwen die geschikt is voor gevoelige persoonsgegevens?

Ja. We hebben ervaring met het bouwen van software voor organisaties in de zorg, financiële sector en overheid, waar de eisen aan databeveiliging en privacy hoog zijn. Onze ISO 27001-certificering en werkwijze zijn specifiek ingericht op het veilig verwerken van gevoelige data.

Hoe worden security-kwetsbaarheden in de software gemonitord?

We gebruiken continue monitoring via Sentry en Elastic APM voor foutdetectie en performance. Daarnaast draaien we periodieke dependency-checks en security scans via OSV.dev, met automatische update-voorstellen via GitHub Actions. Zo worden kwetsbaarheden gesignaleerd en opgelost voordat ze een probleem worden.

Voldoet de software aan WCAG 2.2 toegankelijkheidseisen?

Ja. We bouwen onze frontend volgens de WCAG 2.2-richtlijnen voor digitale toegankelijkheid. Dat betekent dat de software bruikbaar is voor mensen met een visuele, auditieve of motorische beperking. Voor veel overheids- en publieke organisaties is dit een wettelijke vereiste.