OpenAI-twist: GPT-4 niet trainen op API-clientgegevens

In een grote afwijking van de praktijk in het verleden, heeft OpenAI aangekondigd dat het niet langer klantgegevens zal gebruiken die via zijn API zijn verzonden om zijn brede taalmodellen zoals GPT-4 te trainen. De wijziging werd bevestigd door Sam Altman, CEO van OpenAI, in een recent interview met CNBC.

OpenAI’s nieuwe benadering van gebruikersgegevens

De wijziging van het OpenAI-beleid is in 2023 doorgevoerd. op 1 maart, toen het bedrijf stilletjes zijn servicevoorwaarden bijwerkte om deze nieuwe toewijding aan de privacy van gebruikers weer te geven. Altman legt uit: “Klanten willen duidelijk dat we niets te weten komen over hun gegevens, dus hebben we onze plannen gewijzigd: dat doen we niet. API’s, of Application Programming Interfaces, zijn technologische raamwerken waarmee klanten rechtstreeks verbinding kunnen maken met OpenAI-software. Altman verklaarde dat OpenAI al enige tijd geen API heeft gebruikt voor het trainen van datamodellen, wat suggereert dat deze officiële aankondiging bestaande praktijken legitimeert.

Gevolgen voor zakelijke klanten

De verhuizing van OpenAI heeft grote gevolgen, vooral voor zijn zakelijke klanten, waaronder reuzen als Microsoft, Salesforce en Snapchat. Deze bedrijven maken vaker gebruik van de mogelijkheden van de OpenAI API in hun activiteiten, dus de verandering in privacy en gegevensbescherming is vooral voor hen relevant. De nieuwe maatregelen voor gegevensbescherming zijn echter alleen van toepassing op klanten die de API-services van het bedrijf gebruiken. In de bijgewerkte servicevoorwaarden van OpenAI: “We kunnen inhoud gebruiken van andere services dan onze API.” Daarom kan OpenAI nog steeds andere vormen van gegevensinvoer gebruiken, zoals tekst die wordt ingevoerd in de populaire chatbot ChatGPT, tenzij de gegevens worden gedeeld via een API.

Bredere impact op de industrie

De beleidsverandering van OpenAI komt doordat industrieën worstelen met de potentiële impact van grote taalmodellen zoals OpenAI’s ChatGPT die traditioneel door mensen gemaakt materiaal vervangen. Zo ging de Writers Guild of America onlangs in staking nadat onderhandelingen tussen de guild en filmstudio’s waren mislukt. De gilde pleitte voor beperkingen op het gebruik van OpenAI om ChatGPT-scripts te genereren of te herschrijven. De beslissing van OpenAI om geen klantgegevens te gebruiken voor training is een cruciaal moment in het lopende gesprek over gegevensprivacy en kunstmatige intelligentie. Terwijl bedrijven de grenzen van AI-technologie blijven verkennen en verleggen, zullen het waarborgen van de privacy van de consument en het behouden van vertrouwen waarschijnlijk centraal blijven staan ​​in deze discussies.

ChatGPT-evolutie: GPT-3 naar GPT-4

Het is belangrijk op te merken dat de toezegging van OpenAI om geen klantgegevens te gebruiken voor training van toepassing is op het nieuwste taalmodel, GPT-4, uitgebracht in 2023. 14 maart GPT-4 introduceerde verschillende verbeteringen ten opzichte van zijn voorganger, GPT-3, waaronder een aanzienlijke toename van de woordlimiet (25.000 in vergelijking met ChatGPT’s limiet van 3.000 woorden), een grotere contextvenstergrootte en verbeterde mogelijkheden voor redeneren en begrijpen. Een ander opvallend kenmerk van GPT-4 is de multimodaliteit, ofwel het vermogen om informatie te begrijpen en conclusies te trekken uit afbeeldingen naast tekst. Dit nieuwste model maakt teksten menselijker, met behulp van functies zoals emoji’s voor een persoonlijker gevoel. De exacte grootte en architectuur van GPT-4 blijven echter geheim, wat leidt tot speculatie over de details van het model. Ondanks deze geruchten ontkende de CEO van OpenAI specifieke beweringen over de grootte van het model. Wat de prestaties betreft, heeft GPT-4 sterke eigenschappen laten zien voor het genereren van tekst, maar het heeft ook enkele beperkingen. Hij scoorde bijvoorbeeld in het 54e percentiel bij het schrijven van het Graduate Record Examination (GRE) en presteerde in het 43-59e percentiel bij het AP Calculus BC-examen. Bovendien presteerde het goed op eenvoudige Leetcode-coderingstaken, maar de prestaties daalden op taken met een hogere moeilijkheidsgraad. Hoewel de details van het GPT-4-trainingsproces niet formeel zijn gedocumenteerd, is het bekend dat bij GPT-modellen doorgaans grootschalige machine learning met diverse webteksten wordt gebruikt.

Vooruit kijken

Als gevolg van wijzigingen in het gegevensgebruiksbeleid van OpenAI, sluiten gegevens die worden gebruikt om taalmodellen te trainen informatie uit die via de API wordt gedeeld, tenzij gebruikers er expliciet mee instemmen deze voor dit doel te verstrekken. Naarmate deze technologie vordert en een belangrijkere rol speelt in ons leven, is het interessant hoe bedrijven veranderen en reageren op zorgen over gegevensprivacy en het winnen van het vertrouwen van mensen.

Themaafbeelding gemaakt door de auteur met behulp van Midjourney.

Relevante berichten