Google Research: wordt deze dataset gebruikt voor Google AI Search?

Google Research: wordt deze dataset gebruikt voor Google AI Search? post thumbnail image
Google heeft een onderzoekspaper gepubliceerd over een nieuw type dataset om een ​​taalmodel te trainen om zinnen te produceren die een vraag nauwkeurig beantwoorden in een open dialoog. We weten niet of Google deze dataset gebruikt. Maar de onderzoekers zeggen dat het beter presteert dan modellen die zijn ontwikkeld met behulp van andere datasets. Veel onderzoeksdocumenten, zoals die gepubliceerd door LaMDA, vermelden niet de specifieke context waarin het zou kunnen worden gebruikt. Het LaMDA-onderzoeksdocument (pdf) concludeert bijvoorbeeld vaag: “LaMDA is een stap dichter bij praktische en veilige open dialoogsystemen, die op hun beurt vele nuttige toepassingen kunnen openen.” Dit onderzoekspaper stelt dat het probleem dat ze oplossen is hoe een dataset kan worden gemaakt om een ​​machine voor te bereiden op een dialoog met een open einde door een zin van een webpagina te selecteren.

Waarom deze dataset belangrijk is

Dit onderzoekspaper is interessant omdat de onderzoekers concluderen dat het kan worden gebruikt om de door AI gegenereerde output daadwerkelijk te aarden, zoals te zien is in de nieuwe zoekervaring van Google. Gezien het feit dat het onderzoeksartikel werd gepresenteerd op de Information Retrieval Conference (Proceedings of the 45th International ACM SIGIR Research and Development Conference), is het redelijk veilig om te raden dat dit algoritme verband houdt met het ophalen van informatie, wat betekent zoeken. Een laatste ding om op te merken is dat onderzoek naar dit nieuwe type dataset vorig jaar in 2022 is geïntroduceerd, maar blijkbaar onopgemerkt is gebleven… Tot nu toe.

Wat Google wil bereiken met de nieuwe dataset

De onderzoekers leggen uit waar ze zich op richten: “In dit werk richten we ons op open dialogen: twee partijen praten om de beurt over een willekeurig aantal onderwerpen, zonder beperking van onderwerpverschuivingen en discussies over elk onderwerp. Ook is de dialoog niet gebaseerd op een specifiek document, in tegenstelling tot sommige eerdere werken… Onze taak is om zinnen uit een bepaald documentcorpus te extraheren die informatie bevatten die nuttig is voor het genereren (automatisch of menselijk) van een ander document. dialoog inschakelen. Houd er rekening mee dat dialoogwendingen vragen, verzoeken, argumenten, uitspraken, enz. kunnen zijn.

Een nieuwe dataset voor het trainen van taalmodellen

Het probleem dat de onderzoekers oplossen, is hoe je een zin van een webpagina kunt krijgen als antwoord op een open vraag – het soort vraag dat meer vereist dan een ja of nee antwoord. Het onderzoekspaper legt uit dat wat ontbreekt om dit vermogen in een machine te laten verschijnen, een geschikte set gespreksgegevens is. Ze leggen uit dat bestaande datasets om twee redenen worden gebruikt:
  1. Evalueer generatieve AI-dialoogreacties, maar gebruik deze niet in training om daadwerkelijk relevante informatie te krijgen.
  2. Datasets voor gebruik met een zoekmachine of voor het beantwoorden van vragen zijn gericht op één vraag-en-antwoordpassage.
Ze verklaren de tekortkomingen van bestaande datasets: “…in de meeste van deze datasets worden zoekresultaten niet beschouwd als onderdeel van het dialoogvenster. …in zowel conversatie-opname als conversatie-QA-datasets stelt de gebruiker vragen of query’s die duidelijke intenties weerspiegelen met betrekking tot informatiebehoeften, in tegenstelling tot natuurlijke dialogen waarin intenties alleen impliciet kunnen worden uitgedrukt, zoals bevestigende verklaringen. Concluderend, bestaande conversatiedatasets combineren geen natuurlijke conversaties van mens tot mens met annotaties voor zinsrelevantie die zijn afgeleid van een groot documentcorpus. Daarom hebben we de volgende dataset gemaakt…

Hoe de nieuwe dataset is gemaakt

De onderzoekers creëerden een dataset die kan worden gebruikt om een ​​algoritme te trainen dat in een open dialoog een zin kan ophalen die het juiste antwoord is. De dataset bestaat uit Reddit-gesprekken die zijn gekoppeld aan antwoorden van Wikipedia, evenals menselijke opmerkingen (relevantiebeoordelingen) op die vraag-antwoordparen. Reddit-gegevens zijn gedownload van Pushshift.io, het chatarchief van Reddit (Pushshift FAQ). Het onderzoekspapier legt uit: “Om de bredere reikwijdte van deze taak aan te pakken, waarbij elk type dialoog kan worden gebruikt, hebben we een dataset gemaakt met open dialogen van Reddit, kandidaat-zinnen van Wikipedia voor elke dialoog en menselijke annotatiezinnen. De dataset bevat 846 dialogen die zijn gegenereerd op basis van Reddit-threads. Voor elke dialoog werden 50 zinnen van Wikipedia gehaald met behulp van een zaadzoekmethode zonder toezicht. Deze zinnen werden door crowdwerkers beoordeeld op hun relevantie, dat wil zeggen of ze informatie bevatten die nuttig was om de volgende wending in de dialoog te creëren. De dataset die ze hebben gemaakt, is beschikbaar op GitHub. Voorbeeld van een dialoogvraag: “Wat was er eerst, de kip of het ei?” Een voorbeeld van een irrelevante reactie: “Gedomesticeerde kippen worden ongeveer 10.000 jaar oud. Eieren leven honderden miljoenen jaren. Een voorbeeld van een juiste webpagina-zin om als reactie te gebruiken: “Simpel gezegd, Neil deGrasse Tyson:
“Wat was er eerst: de kip of het ei?” Het ei is gelegd door een vogel die geen kip was.”

Zoek methodologie

In het retrievalgedeelte citeren ze eerder onderzoek naar taalmodellen en andere methoden en komen ze tot een zwakke supervisiebenadering. Ze leggen uit: “Het verfijnen van zoekpatronen vereist passende labels voor trainingsvoorbeelden in de doeltaak. Soms zijn er weinig of geen. Een manier om dit te omzeilen is door automatisch labels te genereren en een zwak gecontroleerd model van deze annotaties te trainen. …Bij het leren van modellen volgen we een zwak supervisieparadigma met behulp van een nieuwe zwakke Reddit-annotator voor ophalen in dialoogcontext.

Is de dataset succesvol?

Google en andere organisaties publiceren veel research papers met wisselend succes. Sommige onderzoeken leiden tot beperkt succes, waardoor de stand van de techniek niet of nauwelijks verandert. Ik ben geïnteresseerd in die wetenschappelijke werken die aantoonbaar succesvol zijn en de huidige stand van de techniek overtreffen. Dat is na het maken van deze dataset om een ​​taalmodel te trainen om zinnen te produceren die nauwkeurig dienen als wending in een open dialoog. Ze geven aan hoe het BERT-model, getraind op deze dataset, nog krachtiger wordt. Zij schrijven: “Inderdaad, terwijl RANKBERTMS beter presteert dan alle ongeschikte modellen, verbetert het RANKBERTMS→R-model, dat verder is verfijnd met behulp van onze zwak gecontroleerde trainingsset, de prestaties. Deze methode behaalt de hoogste prestaties wanneer alle prestatieverbeteringen ten opzichte van andere methoden statistisch significant zijn. Deze bevinding toont ook de effectiviteit aan van onze zwakke annotator en zwak begeleide trainingsset, wat aantoont dat de prestaties kunnen worden verbeterd zonder handmatige trainingsannotatie. Elders rapporteren onderzoekers: “We laten zien dat een neurale rangschikking die is afgestemd op onze zwak gecontroleerde trainingsset beter presteert dan alle andere geteste modellen, inclusief een neurale rangschikking die is afgestemd op de dataset voor het ophalen van MS Marc-extract.” Ze schrijven ook dat hoe succesvol deze aanpak ook is, ze geïnteresseerd zijn om de voortgang nog verder te verbeteren dan ze al hebben gedaan. De onderzoekspaper concludeert: “In de toekomst willen we op BERT gebaseerde zoekmodellen ontwikkelen die alleen worden getraind op basis van zwakke supervisie, met behulp van vooraf getrainde BERT, zonder de noodzaak van grote geannoteerde trainingssets zoals MS Marco. We willen ook generatieve taalmodellen onderbouwen met zoekmodellen en de conversaties verkennen die uit zo’n fundament voortkomen.

Kan deze methode worden gebruikt?

Google keurt zelden goed wanneer specifiek onderzoek wordt gebruikt. In sommige gevallen, zoals bij BERT, erkent Google het gebruik ervan. Maar over het algemeen is dit het standaardantwoord alleen omdat Google een onderzoekspaper of patent publiceert, wil nog niet zeggen dat ze het in hun zoekalgoritme gebruiken. Bovendien in 2022 Een onderzoekspaper die medio 2016 werd gepubliceerd, gaf aan dat een toekomstige richting is om te onderzoeken hoe het generatieve taalmodellen kan ondersteunen (die vergelijkbaar zijn met de generatieve ervaring van Bard en Google zoeken). Door AI gegenereerde gesprekken kunnen AI-uitvoer veroorzaken, wat technisch gezien hallucinaties wordt genoemd. Aarding verwijst naar het aarden van de chatoutput van de AI met feiten, meestal van online bronnen, om hallucinaties te voorkomen. Bing gebruikt een systeem genaamd Bing Orchestrator dat webpagina’s controleert zodat de GPT-uitvoer feitelijk is. Door de uitvoer van de AI te aarden, blijft deze gebaseerd op feiten, en dat is wat deze dataset kan doen behalve het uitkiezen van zinnen van webpagina’s zonder antwoord. Er werd een vraag gesteld over de experimentele zoekmachine-ervaring van Google Een screenshot van het antwoord van Google Search Generative Experience, met het antwoord met drie webpagina-citaten met feiten om het AI-antwoord te ondersteunen.

Lees het onderzoeksartikel:

Abstracte webpagina: dataset voor zinzoeken voor dialogen met een open einde Huidig ​​onderzoekspaper: dataset voor het zoeken naar zinnen voor dialogen met een open einde Uitgelichte afbeelding door Shutterstock/Camilo Concha

Relevante berichten