Hoe u kunt bepalen hoe Googlebot omgaat met uw website

Google Search Communications beantwoordde enkele vragen over het indexeren van webpagina’s in de nieuwste aflevering van de Search Off The Record-podcast. Onderwerpen die aan bod komen, zijn onder meer hoe u kunt voorkomen dat Googlebot specifieke delen van een pagina crawlt en hoe u kunt voorkomen dat Googlebot toegang krijgt tot uw website. John Mueller en Gary Illyes van Google beantwoordden de vragen in dit artikel.

Googlebot blokkeren van specifieke delen van een website

Muller zegt van wel onmogelijk vroeg hoe te voorkomen dat Googlebot specifieke delen van een webpagina crawlt, zoals het “ook gekochte” gedeelte van productpagina’s. “De korte versie is dat je de inspectie van een specifiek deel van een HTML-pagina niet kunt blokkeren”, zei Mueller. Vervolgens stelde hij twee mogelijke strategieën voor om het probleem op te lossen, die geen van beide, zo benadrukte hij, een ideale oplossing is. Mueller stelde voor om het HTML-attribuut data-nosnippet te gebruiken om te voorkomen dat de tekst in het zoekfragment verschijnt. Als alternatief kunt u iframes of JavaScript gebruiken wanneer de bron wordt geblokkeerd door robots.txt, hoewel het waarschuwde dat dit geen goed idee is. “Het gebruik van een mislukt iframe- of JavaScript-bestand kan crawl- en indexeringsproblemen veroorzaken die moeilijk te diagnosticeren en op te lossen zijn”, aldus Mueller. Hij verzekerde iedereen die luisterde dat als de betreffende inhoud op meerdere pagina’s wordt hergebruikt, dit geen probleem is dat moet worden aangepakt. “Het is niet nodig om Googlebot te blokkeren om deze duplicatie te zien”, voegde hij eraan toe.

Googlebot de toegang tot uw website blokkeren

Het antwoord op het blokkeren van Googlebot-toegang elk onderdeel van de site, heeft Illyes een eenvoudig te volgen oplossing geboden. “De gemakkelijkste manier is robots.txt: als je deny: / toevoegt aan de Googlebot user-agent, laat Googlebot je site met rust zolang je deze regel volgt”, legt Illyes uit. Voor degenen die op zoek zijn naar een robuustere oplossing, stelt Illyes een andere benadering voor: “Als je zelfs de toegang tot het netwerk wilt blokkeren, moet je firewallregels maken die onze IP-bereiken in een weigeringsregel laden”, zei hij. Raadpleeg de officiële documentatie van Google voor een lijst met IP-adressen van Googlebot.

samengevat

Hoewel het onmogelijk is om te voorkomen dat Googlebot toegang krijgt tot specifieke delen van een HTML-pagina, kunnen technieken zoals het gebruik van het data-nosnippet-attribuut enige controle bieden. Als u Googlebot volledig van uw website wilt blokkeren, volstaat een eenvoudige disallow-regel in uw robots.txt-bestand. Er zijn echter ook extremere maatregelen mogelijk, zoals het instellen van speciale firewallregels.

Themaafbeelding gemaakt door de auteur met behulp van Midjourney.
Bron: Google Zoeken Off The Record

Relevante berichten