Het jaarlijkse webspamrapport van Google over 2022 belichtte alle manieren waarop hun SpamBrain-antispamsysteem beter geschikt is geworden om verschillende vormen van spam te bestrijden. Hoewel het rapport vooral meldt hoeveel meer spam ze hebben opgevangen in vergelijking met vorig jaar, leek hoe SpamBrain werkt net zo belangrijk.
Het SpamBrain-platform van Google
SpamBrain is de naam die Google heeft gegeven aan een machine learning-systeem dat Google een platform noemt van waaruit algoritmen kunnen worden uitgevoerd die meerdere vormen van spam detecteren. Machine learning is een vorm van kunstmatige intelligentie die gegevens gebruikt om te leren om steeds beter te worden in de taak die voorhanden is. Er is niet veel bekend over SpamBrain, behalve dat het een machine learning-platform is en “centraal” staat in de initiatieven van Google om te voorkomen dat spam op de ranglijst komt te staan.
Google’s webspamrapport over SpamBrain merkt op:
“We hebben SpamBrain ook verbeterd als een robuust en veelzijdig platform, dat meerdere oplossingen biedt om de dekking voor verschillende soorten misbruik te verbeteren.”
SpamBrain-verbeteringen
In het Web Spam Report werd opgemerkt dat verbeteringen aan het systeem resulteerden in 500% meer spamsites dan een jaar geleden. Dankzij aanvullende training is het vermogen van SpamBrain om gehackte sites te identificeren vertienvoudigd.
Link spam detectie
In het rapport wordt opgemerkt dat het gebruik van speciale training voor linkspam vijftig keer meer sites heeft betrapt op het creëren van linkspam in vergelijking met vorig jaar, en het leervermogen van SpamBrain is een sleutelfactor in het succes ervan. “Dankzij de leermogelijkheden van SpamBrain hebben we 50x meer link-spamsites gedetecteerd in vergelijking met de vorige link-spam-update.
Indexerende poortwachter
Een interessant feit over SpamBrain is hoe het spam detecteert tijdens het scannen. Als een pagina als spam wordt gedetecteerd, wordt deze onmiddellijk geblokkeerd, waardoor wordt voorkomen dat deze in de zoekindex van Google terechtkomt en bronnen worden bespaard zodat ongewenste webpagina’s niet worden verspild. Spamblokkering tijdens het crawlen is een optie die werd aangekondigd in 2021, waarbij wordt opgemerkt dat indexering niet alleen wordt geblokkeerd bij het crawlen van spam, maar ook wanneer wordt geprobeerd de zoekconsole en sitemaps te openen.
Ze schreven in 2021.
“…we hebben systemen die spam kunnen detecteren wanneer we pagina’s of andere inhoud scannen. Validatie is wanneer onze geautomatiseerde systemen inhoud bezoeken en deze geschikt achten voor opname in de index die we gebruiken om zoekresultaten te leveren. Bepaalde inhoud die als spam wordt gedetecteerd, wordt uitgesloten van de index. Deze systemen werken ook met inhoud die we ontdekken via sitemaps en Search Console. Search Console heeft bijvoorbeeld een functie voor het indexeren van verzoeken, zodat ontwikkelaars ons op de hoogte kunnen stellen van nieuwe pagina’s die snel moeten worden toegevoegd. We hebben spammers kwetsbare websites zien hacken, zich voordoen als de eigenaren van die websites, zichzelf verifiëren in Search Console en de tool gebruiken om Google te vragen een aantal pagina’s met spam te crawlen en te indexeren. Met behulp van AI konden we verdachte controles lokaliseren en zo voorkomen dat spam-URL’s onze index binnendrongen. Het is dus redelijk om te zeggen dat een van de vele functies van SpamBrain is om op te treden als poortwachter en spam te blokkeren voordat het de kans krijgt om in de index van Google te komen.
Fraudebescherming is nu meertalig
Nieuw bij SpamBrain is dat het fraudedetectiesysteem nu meertalig is en het aantal klikfraudesites met 50% vermindert ten opzichte van vorig jaar. Hoe zit het met spaminhoud? Het rapport van dit jaar was gericht op het opsporen van link-spam, het identificeren van gehackte sites en het verbeteren van spamdetectie tijdens het crawlen. Wat het niet vermeldde, ging over het identificeren van spam-inhoud. Is het omdat de inhoudskant wordt afgehandeld door het bruikbare inhoudsalgoritme in plaats van SpamBrain?
Lees het webspamrapport van Google:
Hoe we in 2022 spam hebben bestreden in Google Zoeken
Uitgelichte afbeelding door Shutterstock / Asier Romero