Er zijn zeven gratis, open source GPT-modellen uitgebracht

Cerebras, een bedrijf voor kunstmatige intelligentie in Silicon Valley, heeft zeven open-source GPT-modellen uitgebracht als alternatief voor de streng gecontroleerde en propriëtaire systemen die vandaag beschikbaar zijn. Gratis, open-source GPT-modellen, inclusief gewichten en trainingsvoorschriften, zijn uitgebracht door Cerebras, een in Silicon Valley gevestigde AI-infrastructuur voor AI-applicaties. Tot op zekere hoogte zijn de zeven GPT-modellen een proof of concept voor de Cerebras Andromeda AI-supercomputer. De infrastructuur van Cerebras stelt haar klanten, zoals Jasper AI Copywriter, in staat om snel hun aangepaste taalmodellen te trainen.
Een blogpost over de hardwaretechnologie door Cerebras merkte op:
“We hebben alle Cerebras-GPT-modellen getraind op een 16x CS-2 Cerebras Wafer-Scale Cluster genaamd Andromeda. Het cluster maakte een snelle afronding van alle experimenten mogelijk zonder de traditionele gedistribueerde systeemengineering en parallelle afstemming van modellen die vereist zijn op GPU-clusters. Het belangrijkste was dat onze onderzoekers zich hierdoor konden concentreren op ML in plaats van op gedistribueerd systeemontwerp. Wij zijn van mening dat de mogelijkheid om gemakkelijk grote modellen te trainen een belangrijke factor is voor de bredere gemeenschap. Daarom hebben we de Cerebras Wafer-Scale Cluster in de cloud gebouwd via Cerebras AI Model Studio.

Cerebros GPT-modellen en transparantie

Cerebras noemt de concentratie van eigendom van AI-technologie in slechts een paar bedrijven als reden voor het creëren van zeven open-source GPT-modellen. OpenAI, Meta en Deepmind houden veel informatie over hun systemen privé en worden streng gecontroleerd, waardoor de innovatie wordt beperkt in alles wat de drie bedrijven besluiten dat anderen met hun gegevens kunnen doen. Is een closed source-framework het beste voor AI-innovatie? Of is open source de toekomst?
Cerebra schrijft:
“Om LLM een open en toegankelijke technologie te laten zijn, vinden wij het belangrijk om toegang te hebben tot de nieuwste modellen die open, reproduceerbaar en gratis zijn voor zowel onderzoek als commerciële toepassingen.” Daartoe hebben we een familie van transformatormodellen getraind met behulp van de modernste technieken en open datasets die we Cerebras-GPT noemen. Deze modellen zijn de eerste familie van GPT-modellen die zijn getraind met behulp van de Chinchilla-formule en zijn vrijgegeven onder de Apache 2.0-licentie. Dus deze zeven modellen zijn vrijgegeven op Hugging Face en GitHub om meer onderzoek aan te moedigen met behulp van open access AI-technologie. Deze modellen werden getraind op de Cerebras Andromeda AI-supercomputer, wat slechts enkele weken duurde. Cerebras-GPT is volledig open en transparant, in tegenstelling tot de nieuwste OpenAI (GPT-4), Deepmind en Meta OPT GPT-modellen. OpenAI en Deepmind Chinchilla bieden geen licenties om de modellen te gebruiken. Meta OPT biedt alleen een niet-commerciële licentie aan. OpenAI’s GPT-4 heeft absoluut geen transparantie over hun trainingsgegevens. Hebben ze Common Crawl-gegevens gebruikt? Hebben ze het internet afgestruind en hun eigen dataset gemaakt? OpenAI houdt deze informatie (en meer) geheim, in tegenstelling tot de volledig transparante aanpak van Cerebras-GPT.

Hieronder is alles open en transparant:

  • Modelarchitectuur
  • Trainingsdata
  • Model gewichten
  • Controle punten
  • Bereken optimale trainingstoestand (ja)
  • Licentie voor gebruik: Apache 2.0-licentie

De zeven versies zijn de modellen 111M, 256M, 590M, 1.3B, 2.7B, 6.7B en 13B.
Er werd aangekondigd:
“In een primeur onder kunstmatige intelligentie-hardwarebedrijven, trainden Cerebras-onderzoekers de Andromeda AI-supercomputer op een reeks van zeven GPT-modellen met 111M, 256M, 590M, 1.3B, 2.7B, 6.7B en 13B parameters. Dit werk, dat normaal enkele maanden zou duren, werd binnen enkele weken volbracht dankzij de ongelooflijke snelheid van de Cerebras CS-2-systemen die deel uitmaken van Andromeda en het vermogen van Cerebras’ weight streaming-architectuur om de pijn uit gedistribueerd computergebruik te halen . Deze resultaten tonen aan dat Cerebras-systemen tegenwoordig de grootste en meest complexe AI-workloads kunnen trainen. Dit is de eerste keer dat een reeks GPT-modellen die zijn ontwikkeld met behulp van de nieuwste technieken voor trainingseffectiviteit, openbaar is gemaakt. Deze modellen worden getraind met de hoogste nauwkeurigheid binnen een bepaald rekenbudget (d.w.z. efficiënt getraind met behulp van het Chinchilla-recept), wat resulteert in kortere trainingstijden, lagere trainingskosten en een lager energieverbruik dan alle bestaande openbare modellen.

Opensource-AI

De Mozilla Foundation, makers van de open-source Firefox-software, heeft Mozilla.ai opgericht om open-source GPT- en aanbevelingssystemen te ontwikkelen die betrouwbaar zijn en de privacy respecteren. Databricks heeft onlangs ook een open source GPT-kloon uitgebracht, Dolly, die tot doel heeft de magie van ChatGPT te democratiseren. Naast die zeven Cerebras GPT-modellen heeft een ander bedrijf genaamd Nomic AI GPT4All uitgebracht, een open source GPT die op een laptop kan draaien. Vandaag brengen we GPT4All uit, een assistent-achtige chatbot gedestilleerd uit de 430.000 output van GPT-3.5-Turbo die je op je laptop kunt gebruiken. pic.twitter.com/VzvRYPLfoY — Nomic AI (@nomic_ai) maart 2023 28 maart De open source AI-beweging is in opkomst, maar wint aan kracht. GPT-technologie veroorzaakt enorme veranderingen in verschillende industrieën en het is mogelijk dat open source-bijdragen het gezicht van de industrieën die deze veranderingen aandrijven, kunnen veranderen. Als de open source-beweging zich in dit tempo blijft ontwikkelen, zouden we een verschuiving in AI-innovatie kunnen zien die voorkomt dat deze geconcentreerd wordt in de handen van een paar bedrijven.
Lees de officiële aankondiging:
Cerebras Systems heeft zeven nieuwe GPT-modellen uitgebracht die zijn getraind op CS-2 waferschaalsystemen. Afbeelding met dank aan Shutterstock/Merkushev Vasiliy

Relevante berichten