De zorg is dat er geen gemakkelijke manier is om u af te melden voor inhoud die wordt gebruikt om grote taalmodellen (LLM) zoals ChatGPT te onderwijzen. Er is een manier om dit te doen, maar het is niet gemakkelijk en ook niet gegarandeerd.
Hoe AI leert van uw inhoud
Grote taalmodellen (LLM’s) worden getraind met behulp van gegevens uit meerdere bronnen. Veel van deze datasets zijn open source en worden vrij gebruikt voor het trainen van kunstmatige intelligentie.
Enkele gebruikte bronnen:
- Wikipedia
- Archiefstukken van het gerechtshof van de regering
- Boeken
- Brieven
- Sites gedetecteerd
Er zijn eigenlijk portals, sites die datasets aanbieden die veel informatie verschaffen. Een van de portals wordt gehost door Amazon, dat duizenden datasets aanbiedt in het AWS Open Data Registry.
Het portaal van Amazon met duizenden datasets is slechts een van de vele portalen met meer datasets. Wikipedia biedt 28 portals voor het downloaden van datasets, waaronder de Google-dataset en de Hugging Face-portalen, waar duizenden datasets te vinden zijn.
Gegevenssets voor webinhoud
OpenWebText
Een populaire dataset voor webcontent heet OpenWebText. OpenWebText bestaat uit URL’s gevonden in Reddit-berichten die ten minste drie upvotes hebben ontvangen. Het idee is dat deze URL’s betrouwbaar zijn en inhoud van hoge kwaliteit zullen bevatten. Ik kon geen informatie vinden over hun verifier user-agent, misschien is het gewoon geïdentificeerd als Python, niet zeker. We weten echter dat als uw site is gelinkt vanuit Reddit met ten minste drie upvotes, de kans groot is dat uw site zich in de OpenWebText-dataset bevindt. Meer informatie over OpenWebText hier.
Normale scan
Een van de meest gebruikte datasets van webinhoud wordt aangeboden door een non-profitorganisatie genaamd Common Crawl. Typische crawlgegevens zijn afkomstig van een bot die het hele web doorzoekt. De gegevens worden gedownload door organisaties die de gegevens willen gebruiken en ruimen vervolgens sites op die spam bevatten en meer. De naam van de algemene inspectiebot is CCBot. CCBot volgt het robots.txt-protocol, dus het is mogelijk om algemeen crawlen met Robots.txt te blokkeren en te voorkomen dat de gegevens van uw site een andere dataset binnendringen. Als uw website echter al is gecontroleerd, is deze waarschijnlijk al opgenomen in verschillende datasets. Als u Common Crawl blokkeert, kan dit echter voorkomen dat de inhoud van uw site wordt opgenomen in nieuwe datasets die zijn afgeleid van nieuwere Common Crawl-gegevens.
De tekenreeks van de CCBot-gebruikersagent is:
CCBot/2.0
Voeg het volgende toe aan uw robots.txt-bestand om de algemene crawler te blokkeren:
User Agent: CCBot Disallow: / Een extra manier om te verifiëren dat de CCBot user-agent legitiem is, is door deze te vergelijken met Amazon AWS IP-adressen. CCBot houdt zich ook aan de nofollow robots metatag-richtlijn.
Gebruik dit in uw bots-metatag:
AI blokkeren voor het gebruik van uw inhoud
Zoekmachines staan websites toe om zich af te melden voor crawlen. Met Common Crawl kunt u zich ook afmelden. Er is momenteel echter geen manier om website-inhoud uit bestaande datasets te verwijderen. Ook lijken de onderzoekers uitgevers van websites geen manier te bieden om zich af te melden voor verificatie. Artikel Is ChatGPT-webcontent eerlijk? onderzoekt of het zelfs ethisch is om websitegegevens te gebruiken zonder toestemming of een manier om u af te melden. Veel uitgevers zouden in de nabije toekomst graag meer controle krijgen over hoe hun inhoud wordt gebruikt, vooral met AI-producten zoals ChatGPT. Het is nog niet bekend of dit gaat gebeuren.
Afbeelding met dank aan Shutterstock/ViDI Studio