Doorzoek 15,7 miljoen websites in de Google C4-dataset

Doorzoek 15,7 miljoen websites in de Google C4-dataset post thumbnail image
Is uw website of inhoud gebruikt om AI-systemen te trainen als onderdeel van de C4-dataset van Google? Met de nieuwe zoekfunctie van The Washington Post kom je erachter. Waarom kan het ons schelen? De dataset omvat de soorten websites en makers van inhoud die negatief kunnen worden beïnvloed of zelfs kunnen worden geëlimineerd door het genereren van AI, zoals nieuws- en media-uitgevers, blogs en marketeers. Zoekopdracht. De nieuwe zoekfunctie is te vinden in het Inside the Secret-artikel van de Post, waarin sites worden opgesomd die AI zoals ChatGPT slim laten klinken. Hij creëerde een lijst “op basis van hoeveel ’tokens’ er uit elk in de dataset kwamen.” Tokens zijn kleine stukjes tekst die worden gebruikt om informatie buiten de juiste volgorde te verwerken – meestal een woord of zin”, legt het verhaal uit. Er is bijvoorbeeld gebruik gemaakt van zoekmachineland. Zoals Marketing Land (een merk dat niet meer bestaat, maar in 2019 is ontstaan) en Marketing Land Events, waar onze SMX- en MarTech-conferentiesites werden gehost. En de website van het moederbedrijf van Search Engine Land, Third Door Media. Er werd ook gebruik gemaakt van de Search Engine Roundtable van Barry Schwartz. @kevinschaul en @dataviz_szuyu hebben al het harde werk gedaan en deze geweldige website-zoektool gemaakt. Velen van ons hebben onze oude persoonlijke blogs al gevonden. Ik hoop dat je de ranglijst net zo fascinerend vindt als ik https://t.co/xckLl15ZaS pic.twitter.com/7Q7zmzDC6w — Nitasha Tiku @nitashatiku@mastodon.social (@nitashatiku) Maart 2023 19 april Slechts een deel van de gegevens. Ter herinnering: C4 (wat staat voor Colossal Clean Crawled Corpus) is slechts een deel van de gegevens die worden gebruikt door Google Bard en andere grote taalmodellen. Hij gebruikt ook Wikipedia, Reddit en andere bronnen. Wat betreft Reddit. Reddit wil betaald worden wanneer een bedrijf zijn gegevens wil gebruiken om modellen voor kunstmatige intelligentie te trainen, meldde de New York Times. Reddit heeft zijn API-voorwaarden bijgewerkt en nu zullen sommige bedrijven (bijv. Google, OpenAI) betalen voor toegang. Reddit CEO en mede-oprichter Steve Huffman zei:
  • “De gegevensverzameling van Reddit is echt waardevol. Maar we hoeven al die waarde niet gratis aan enkele van de grootste bedrijven ter wereld te geven. We hebben een probleem met het crawlen van Reddit, het genereren van waarde en het niet teruggeven van die waarde aan onze gebruikers. Het wordt tijd dat we de zaken gaan aanscherpen.”
Ironisch genoeg heeft Reddit zelf niet eens zo’n waarde gecreëerd. Dat deden de gebruikers. Plaats zoekopdracht 15,7 miljoen Search Engine Land verscheen als eerste in de C4-dataset van websites van Google.

Relevante berichten