Een open source taalmodel genaamd Dolly 2.0 is op een vergelijkbare manier getraind als ChatGPT

Databricks heeft de release aangekondigd van het eerste open source, op instructies afgestemde taalmodel, genaamd Dolly 2.0. Het is getraind met een vergelijkbare methodologie als InstructGPT, maar met een dataset van hogere kwaliteit die 100% open source is. Dit model is gratis, ook voor commerciële doeleinden, aangezien elk onderdeel van het model 100% open source is.

Open source instructietraining

Wat ervoor zorgt dat ChatGPT instructies volgt, is de training die het ontvangt met behulp van de methoden die worden beschreven in het InstructGPT-onderzoeksdocument. Een doorbraak ontdekt met InstructGPT is dat taalmodellen geen steeds grotere trainingssets nodig hebben. Met behulp van door mensen beoordeelde vraag-en-antwoordtraining kon OpenAI een beter taalmodel trainen met honderd keer minder parameters dan het vorige model, GPT-3. Databricks gebruikte een vergelijkbare aanpak om een ​​Quick and Answer-dataset te maken die ze aanroepen databricks-dolly-15k. Hun prompt/response-dataset is gemaakt zonder webforums of Reddit te doorzoeken. databricks-dolly-15k is een dataset gemaakt door Databricks-medewerkers, 100% origineel, door mensen gegenereerde 15.000 prompt-response-paren om het Dolly 2.0-taalmodel op dezelfde manier te trainen als het ChatGPT-model is gebouwd met InstructGPT. De GitHub-pagina van de dataset legt uit hoe ze het deden: “databricks-dolly-15k is een open source dataset die walkthroughs biedt voor het trainen van databricks/dolly-v2-12b, gegenereerd door duizenden Databricks-medewerkers in meerdere gedragscategorieën, beschreven in het InstructGPT-document , inclusief brainstormen, classificatie, gesloten kwaliteitsborging, generatie, informatie-extractie, open kwaliteitsborging en samenvatting. …Databricks-personeel werd uitgenodigd om prompt/response-paren te maken in elk van de acht verschillende instructiecategorieën, waaronder de zeven gespecificeerd in het InstructGPT-document en een onbeperkte categorie met vrije vorm. Deelnemers kregen de instructie om geen informatie te gebruiken van een andere bron op het web dan Wikipedia (voor bepaalde subsets van instructiecategorieën) en kregen specifiek de instructie om het gebruik van generatieve AI te vermijden om instructies of antwoorden te formuleren. Van elk gedrag werden voorbeelden gegeven om de soorten vragen en prompts te motiveren die geschikt zijn voor elke categorie. Halverwege het datageneratieproces kregen medewerkers de gelegenheid om te reageren op vragen van andere coauteurs. Hen werd gevraagd de oorspronkelijke vraag opnieuw te formuleren en alleen die vragen te selecteren die ze redelijkerwijs correct konden beantwoorden. Databricks zegt dat het mogelijk de eerste door mensen gemaakte instructiedataset is die is ontworpen om een ​​taalmodel te trainen om instructies te volgen, zoals ChatGPT doet. De uitdaging was om een ​​100% originele dataset te maken die geen banden had met ChatGPT of een andere bron met een beperkende licentie. Werknemers werden door de wedstrijd aangemoedigd om 15.000 prompts/antwoorden bij te dragen in zeven taakcategorieën, zoals brainstormen, classificeren en creatief schrijven. Databricks beweert dat de databricks-dolly-15k trainingsset mogelijk superieur is aan de dataset die wordt gebruikt om ChatGPT te trainen. Ze merken op dat hoewel hun dataset kleiner is dan die gebruikt om het Stanford Alpaca-model te trainen, hun model beter presteerde omdat hun data van hogere kwaliteit zijn.

Zij schrijven:
“Dolly 2.0-model gebaseerd op EleutherAI pythia-12b toonde instructies van hoge kwaliteit. Achteraf gezien is dit niet verwonderlijk. Veel datasets voor het debuggen van instructies die de afgelopen maanden zijn vrijgegeven, bevatten gesynthetiseerde gegevens die vaak hallucinaties en feitelijke fouten bevatten. Databricks-dolly-15k daarentegen is gebouwd door professionals, is van hoge kwaliteit en bevat lange antwoorden voor de meeste taken. …we verwachten niet dat Dolly toonaangevend zal zijn op het gebied van efficiëntie. We hopen echter dat Dolly en de open source dataset het begin zullen zijn van veel verder werk dat kan dienen om nog krachtigere taalmodellen te gebruiken.

Beperkingen van de dataset

De GitHub-pagina van de dataset erkent dat de dataset enkele fouten kan bevatten. Wikipedia-gegevens werden gebruikt voor een deel van de training om prompts en antwoorden te creëren. Het is dus mogelijk dat eventuele vooringenomenheid in Wikipedia wordt weerspiegeld in de resulterende dataset. Een deel van het personeel dat aan de dataset werkte, was geen moedertaalspreker van het Engels, dus er kunnen enkele afwijkingen in de dataset voorkomen. De demografische samenstelling van de werknemers die de dataset hebben gemaakt, kan ertoe leiden dat de dataset vooroordelen bevat die inherent zijn aan deze werknemers. Ondanks deze mogelijke tekortkomingen van de dataset heeft Databricks aangegeven dat de kwaliteit hoger is. Daarnaast is Dolly 2.0 bedoeld om als uitgangspunt te dienen voor anderen om nog betere versies te bouwen en te implementeren.

Databricks beweert dat open source AI beter is

Een van de motivaties achter Dolly 2.0 is dat datagebruikers hun eigen modellen kunnen bezitten en hun data beter kunnen beschermen zonder deze met een derde partij te delen. Ze zijn ook van mening dat de beveiliging van kunstmatige intelligentie niet in de handen van drie grote bedrijven moet worden geconcentreerd, maar moet worden verspreid onder alle belanghebbenden. Open source wint aan kracht en het zal interessant zijn om te zien waar de industrie de komende twee jaar naartoe gaat. Meer informatie over waar Dolly 2.0 te downloaden en te gebruiken is te vinden in hun aankondiging. Gratis Dolly: Introductie van ’s werelds eerste echt open educatieve uitgelijnde LLM
Uitgelichte afbeelding van Shutterstock/Kamil Macniak

Relevante berichten