Hugging Face, een machine learning-community en platform voor AI-tools, heeft de release aangekondigd van HuggingChat, een open source ChatGPT-kloon die iedereen zelf kan gebruiken of downloaden.
Knuffelend gezicht
Hugging Face is een bedrijf en een AI-gemeenschap. Het biedt toegang tot gratis, open source tools voor het ontwikkelen van machine learning en AI-toepassingen. Een van de onlangs voltooide projecten van Hugging Face is een model met 176 miljard parameters in grote talen, Bloom genaamd, dat beschikbaar is voor iedereen die ermee instemt zich te houden aan de Responsible AI-licentie. Er is toegang tot verschillende categorieën open source-modellen, zoals multimodaal, visie, audio, natuurlijke taalverwerking en versterkend leren. Hugging Face host ook open source datasets en bibliotheken en biedt teams een manier om samen te werken, inclusief een GitHub-achtige repository. Veel diensten zijn gratis, professioneel en op bedrijfsniveau.
KnuffelChat
De HuggingChat ChatGPT-kloon is gebaseerd op het Open Assistant Conversational AI-model. Open Assistant zelf is een non-profitproject van het Large Scale Artificial Intelligence Open Network (LAION). LAION is een wereldwijde non-profitorganisatie die zich toelegt op het bieden van toegang tot geavanceerde technologie als open source.
Zij schrijven:
“ONS GELOOF
Wij zijn van mening dat onderzoek en toepassingen op het gebied van machine learning een enorme positieve impact op onze wereld kunnen hebben en gedemocratiseerd moeten worden. ONZE BELANGRIJKSTE DOELEN
Vrijgeven van open datasets, code en machine learning-modellen. We willen de basis van grootschalig ML-onderzoek en gegevensbeheer aanleren. Door modellen, datasets en code herbruikbaar te maken zonder de noodzaak om voortdurend vanaf nul te trainen, willen we een efficiënt gebruik van energie en computerbronnen bevorderen om de uitdagingen van klimaatverandering aan te pakken.
De GitHub-pagina voor het Open Assistant-chatmodel zegt:
“Open Assistant is een project om iedereen toegang te geven tot een geweldig gespreksmodel van grote taal.” Door dit te doen, geloven we dat we een revolutie teweeg zullen brengen in taalinnovatie. Net zoals stabiele verspreiding de wereld heeft geholpen om op nieuwe manieren kunst en afbeeldingen te creëren, hopen we dat Open Assistant de wereld kan helpen verbeteren door de taal zelf te verbeteren.
HuggingChat-trainingsdataset
HuggingChat is getraind met behulp van de OpenAssistant-chatdataset (OASST1), die zeer recent is en gegevens bevat die zijn verzameld tot 2023. 12 april Het dataset research paper dateert uit 2023. in aprilOpenAssistant Conversations – De democratisering van het debuggen van grote taalmodellen – Pdf). Dit model maakt gebruik van dezelfde trainingsmethodiek die is ontwikkeld door OpenAI, die leren van menselijke feedback (RLHF) wordt genoemd. RLHF is een manier om een hoogwaardige geannoteerde en op kwaliteit beoordeelde Q&A-dataset te creëren die kan worden gebruikt om kunstmatige intelligentie te trainen om instructies op te volgen. Met deze release hebben ze hun doel bereikt om de RLHF-techniek toegankelijk te maken voor iedereen die AI wil onderwijzen.
In het onderzoeksdocument stond:
“Om grootschalig afstemmingsonderzoek te democratiseren, brengen we OpenAssistant Conversations uit, een door mensen gegenereerd, door mensen geannoteerd corpus van conversaties in assistent-stijl, bestaande uit 161.443 berichten verdeeld over 66.497 conversatiebomen, in 35 verschillende talen, geannoteerd met 461.292 kwaliteiten.” waarderingen”. De dataset is het resultaat van een wereldwijde zoektocht door meer dan 13.000 vrijwilligers. Crowdsourcing was een goede manier om meertalige trainingsgegevens te genereren die bijdroegen aan een hoogwaardige dataset. De crowdsourcing-benadering beperkte echter ook de kwaliteit van de dataset vanwege culturele en subjectieve vooroordelen bij degenen die de trainingsgegevens hebben gemaakt en geëvalueerd, aldus de onderzoekers. Ze waarschuwden ook dat meer betrokken deelnemers geneigd waren meer bij te dragen, waardoor een ongelijke verdeling van hun waarden en vooroordelen ontstond. De onderzoekers concluderen dat de dataset mogelijk niet de diversiteit aan opvattingen van alle deelnemers weergeeft. Ze stuurden bijvoorbeeld een enquête naar hun Discord-kanaal (alleen Engels) waarin ze open source-bijdragers vragen stelden met betrekking tot hun demografie (maar niet etniciteit). Na uitsluiting van taalvooroordelen bleek uit de enquêteresultaten dat van de 226 respondenten er 201 man waren, 10 vrouw, vijf niet-binair/anders en 10 weigerden te antwoorden. Dat gezegd hebbende, hoewel ze niet 100% garanderen dat de dataset vrij is van schadelijke inhoud, blijven ze erbij omdat deze is gemaakt onder strikte kwaliteitsrichtlijnen.
De onderzoekers schrijven:
“Om de kwaliteit van de dataset te waarborgen, hebben we strikte richtlijnen opgesteld voor bijdragers die alle gebruikers moeten volgen. Deze richtlijnen zijn opgesteld om te voorkomen dat er schadelijke inhoud aan onze dataset wordt toegevoegd en om bijdragers aan te moedigen antwoorden van hoge kwaliteit te genereren.
KnuffelChat wel
HuggingChat is momenteel open voor gebruikers. Om het te gebruiken, hoeft u zich niet te registreren om een inlogaccount aan te maken. Verwacht niet het outputniveau van ChatGPT, de service is nog niet op dat niveau. De app-pagina vermeldt het als versie 0.0, wat u een idee zou moeten geven van hoe volwassen het op dit moment is. Desalniettemin is het een geweldige prestatie en de eerste stappen voor de open source-gemeenschap, en er zijn geen kosten verbonden aan het gebruik ervan.
Bezoek de HuggingChat-website hier:
HuggingChat-website en gebruikersinterface