Robots.txt is niet het antwoord: we bieden een nieuwe metatag aan voor LLM/AI

Terwijl Google een discussie opent over auteursrecht en naleving van auteursrechten voor grote taalmodellen (LLM’s) voor generatieve AI-producten, ligt de focus op het robots.txt-bestand. Naar mijn mening is het echter de verkeerde tool. Mijn voormalige collega Pierre Far schreef een geweldig artikel over crawlers, zoekmachines en de lelijkheid van AI-genererende bedrijven, waarin enkele van de enorme uitdagingen werden belicht waarmee de online uitgeverij tegenwoordig wordt geconfronteerd. Net als in zijn artikel zal ik deze suggestie op hoog niveau houden, omdat de veranderingen op dit gebied extreem snel gaan.

Waarom geen robots.txt gebruiken?

Er zijn verschillende redenen waarom het gebruik van robots.txt geen goed startpunt is voor discussies over het respecteren van de auteursrechten van uitgevers.

Niet alle LLM’s gebruiken screeningprogramma’s en identificeren zichzelf

Het is de verantwoordelijkheid van de website-exploitant om individuele crawlers te identificeren en te blokkeren die hun gegevens kunnen gebruiken en/of verkopen aan AI-producten. Dit zorgt met name voor kleinere uitgeverijen voor veel extra (en onnodig) werk. Er wordt ook van uitgegaan dat de uitgever bewerkingsrechten heeft voor zijn robots.txt-bestand, wat niet altijd het geval is bij gehoste oplossingen.

Dit is geen duurzame oplossing aangezien het aantal verificateurs blijft groeien

Volgens de nieuw voorgestelde robots.txt-standaard is de grootte van het robots.txt-bestand beperkt tot 500 kb. Dit betekent dat een grote uitgever problemen kan hebben met robots.txt als hij naast andere robots veel LLM-crawlers en/of verbeterde URL-patronen moet blokkeren.

Een alles-of-nietsbenadering is niet acceptabel

Grotere crawlers zoals Googlebot en Bingbot kunnen geen onderscheid maken tussen gegevens die worden gebruikt op pagina’s met zoekresultaten van zoekmachines (traditioneel waar er een “overeenkomst” is tussen uitgever en zoekmachine als “citaat” naar de oorspronkelijke bron) en generatieve AI-producten. Door Googlebot of Bingbot te blokkeren voor de AI-producten die ze genereren, wordt ook elke mogelijke zichtbaarheid in de relevante zoekresultaten geblokkeerd. Dit is een onaanvaardbare situatie waarin de uitgever wordt gedwongen te kiezen voor “alles of niets”.

Robots.txt gaat over het beheer van crawlen en het auteursrechtdebat gaat over datagebruik

Dit laatste gaat over de indexerings/verwerkingsfase. Kortom, robots.txt is niet echt relevant voor deze discussie, slechts een laatste redmiddel als niets anders werkt en zou niet het startpunt moeten zijn voor deze specifieke discussie. Robots.txt-bestanden zijn geweldig voor crawlers en hoeven niet te worden aangepast voor LLM-doeleinden. Ja, LLM-beoordelaars moeten zich identificeren, maar we moeten het echt hebben over de indexering/verwerking van de gegevens die worden beoordeeld.

Het wiel opnieuw uitvinden

Gelukkig zijn er al enkele gevestigde oplossingen op internet die kunnen worden gebruikt om het datagebruik op een auteursrechtvriendelijke manier te beheren. Het heet Creative Commons. De meeste Creative Commons-licenties zijn prima voor LLM-doeleinden. Illustreren:

  • Met CC0 kan LLM zonder voorwaarden materiaal distribueren, remixen, aanpassen en creëren in elk medium of formaat.
  • Met CC BY kan LLM materiaal in elk medium of formaat verspreiden, remixen, aanpassen en creëren, zolang de maker maar wordt vermeld. De licentie staat commercieel gebruik toe, maar de maker moet worden vermeld.
  • CC BY-SA stelt LLM in staat om materiaal in elk medium of formaat te verspreiden, remixen, aanpassen en creëren, zolang de maker maar wordt vermeld. De licentie staat commercieel gebruik toe. Als LLM materiaal remixt, aanpast of maakt, moet het het gewijzigde materiaal onder identieke voorwaarden in licentie geven.
  • CC BY-NC stelt LLM in staat om het materiaal in elk medium of formaat te verspreiden, remixen, aanpassen en creëren voor niet-commerciële doeleinden, zolang de maker wordt vermeld.
  • CC BY-NC-SA stelt LLM in staat om het materiaal te verspreiden, remixen, aanpassen en creëren in elk medium of formaat voor niet-commerciële doeleinden, zolang de maker wordt vermeld. Als LLM materiaal remixt, aanpast of maakt, moeten ze het gewijzigde materiaal onder identieke voorwaarden in licentie geven.
  • CC BY-ND staat LLM toe om het materiaal te kopiëren en te verspreiden in elk medium of formaat in een niet-adaptieve vorm, zolang de maker wordt vermeld. De licentie staat commercieel gebruik toe en de maker moet de eer krijgen, maar afgeleiden of aanpassingen van het werk zijn niet toegestaan.
  • CC BY-NC-ND staat LLM toe om het materiaal te kopiëren en te verspreiden in elk medium of formaat in een niet-aangepaste vorm, uitsluitend voor niet-commerciële doeleinden en zolang de maker wordt vermeld en er geen afgeleide of aanpassingen van het werk zijn toegestaan.

Het is onwaarschijnlijk dat de laatste twee licenties worden gebruikt voor de LLM. De eerste vijf licenties betekenen echter dat LLM’s moeten overwegen hoe ze geverifieerde/verworven gegevens gebruiken en ervoor moeten zorgen dat ze voldoen aan de vereisten voor gegevensgebruik van uitgevers, zoals attributie en op gegevens gebaseerd delen van producten. Dit zou de “weinigen” in de LLM-wereld belasten, niet de “vele” uitgevers. De eerste drie licenties ondersteunen ook “traditioneel” gebruik van de gegevens, zoals in resultaten van zoekmachines, waar toeschrijving/vermelding wordt verstrekt via een link naar de oorspronkelijke site. Terwijl de vierde en vijfde licentie ook open source LLM-onderzoek en -ontwikkeling ondersteunen.

Kanttekening: Houd er rekening mee dat al deze softwarebedrijven gebouw LLM’s gebruiken vaak open source-software wanneer ze dezelfde auteursrechtlicentie-uitdagingen hebben die verband houden met de softwarebibliotheken en besturingssystemen die ze gebruiken om inbreuk op het auteursrecht op codeniveau te voorkomen. Dus waarom het wiel opnieuw uitvinden als we een soortgelijk systeem kunnen gebruiken voor de gegevens die deze code verwerkt?

Een metatag is een manier

Zodra de uitgever de juiste licentie heeft geïdentificeerd, moet deze licentie alsnog worden aangemeld. Nogmaals, robots.txt lijkt de verkeerde aanpak. Alleen omdat een pagina moet worden geblokkeerd voor zoekmachines, wil nog niet zeggen dat deze niet kan worden gebruikt of niet nuttig is voor LLM. Dit zijn twee verschillende use-cases. Om deze use-cases te scheiden en een meer geavanceerde maar ook eenvoudigere aanpak voor uitgevers mogelijk te maken, raad ik daarom aan om de metatag te gebruiken. Metatags zijn stukjes code die kunnen worden ingevoegd op paginaniveau, thema of inhoud (ik weet dat het technisch niet correct is, maar HTML is vergevingsgezind genoeg en kan als laatste redmiddel worden gebruikt wanneer een uitgever beperkte toegang heeft tot de codebasis ). Ze vereisen niet dat de uitgever aanvullende toegangsrechten heeft naast de mogelijkheid om de HTML van de gepubliceerde inhoud te bewerken. Het gebruik van metatags stopt niet met crawlen, net als metanoindex. Het stelt u echter wel in staat om ons op de hoogte te stellen van de rechten om de gepubliceerde gegevens te gebruiken. En hoewel er bestaande copyright-tags zijn die kunnen worden gebruikt – met name uit Dublin Core, de Rights Standard (voorstel verlaten), copyright-meta (gebaseerd op de naam van de eigenaar, niet de licentie) en andere pogingen – kunnen de huidige hiermee in strijd zijn op sommige sites aan wat we hier proberen te bereiken. Er kan dus een nieuwe metatag nodig zijn, hoewel ik graag een bestaande of oude tag zoals “rechtenstandaard” gebruik. Ik stel deze nieuwe metatag voor deze discussie voor: Bovendien raad ik aan om deze metatag te ondersteunen bij gebruik in HTTP-headers, aangezien noindex wordt ondersteund door de X-Robots-Tag, om LLM-crawlers te helpen hun crawlbronnen beter te beheren (ze hoeven alleen de HTTP-headers te inspecteren om gebruiksrechten te valideren ). X-Robots-Tag: Gebruiksrechten: CC-BY-SA Deze kan gebruikt worden in combinatie met andere metatags. In het onderstaande voorbeeld mag de pagina niet worden gebruikt voor zoekresultaten, maar kan deze worden gebruikt voor commerciële LLM’s zolang de bron wordt vermeld: X-Robots-Tag: gebruiksrechten: CC-BY, noindex

Opmerking: de metatagnaam “gebruiksrechten” is een suggestie en kan worden gewijzigd.

Onverstandige beslissing

Het is waar dat er slechte testers en slechte acteurs zijn die hun LLM’s bouwen en AI-producten genereren. De voorgestelde metatag-oplossing voorkomt niet dat inhoud op deze manier wordt gebruikt, maar het voorkomt ook niet robots.txt. Het is belangrijk om te erkennen dat beide benaderingen afhangen van de acceptatie en naleving door de bedrijven die de gegevens gebruiken voor hun AI-producten.

Conclusie

Hopelijk illustreert dit artikel hoe het gebruik van robots.txt om datagebruik in LLM te beheren naar mijn mening de verkeerde benadering/uitgangspunt is voor het omgaan met gebruik en copyright in dit nieuwe tijdperk van LLM en generatieve AI-producten. Deze implementatie van metatags zou uitgevers in staat stellen copyrightinformatie op paginaniveau te specificeren met behulp van Creative Commons zonder het crawlen van pagina’s of indexering voor andere doeleinden (zoals resultaten van zoekmachines) te verstoren. Het staat ook copyrightverklaringen toe voor verschillende doeleinden, waaronder LLM’s, generatieve AI-producten en potentiële toekomstige AI-producten. De post Robots.txt is niet het antwoord: een voorstel voor een nieuwe metatag LLM/AI verscheen eerst op Search Engine Land.

Relevante berichten