Alles wat u moet weten over de X-Robots-Tag HTTP-header

Zoekmachineoptimalisatie, in de eenvoudigste zin, berust vooral op één ding: spiders van zoekmachines die uw website crawlen en indexeren. Bijna elke website heeft echter pagina’s die u niet in dit onderzoek wilt opnemen. Wilt u bijvoorbeeld echt dat uw privacybeleid of interne zoekpagina’s in Google-resultaten verschijnen? In het beste geval doen ze niets om actief verkeer naar uw site te leiden, en in het slechtste geval kunnen ze verkeer wegleiden van belangrijkere pagina’s. Gelukkig staat Google webmasters toe om bots van zoekmachines te vertellen welke pagina’s en inhoud ze moeten inspecteren en wat ze moeten negeren. Er zijn verschillende manieren om dit te doen, de meest gebruikelijke is een robots.txt-bestand of de robots-metatag. We hebben een geweldige en gedetailleerde uitleg van de trucs en valkuilen van robots.txt die je zeker moet lezen. Maar op hoog niveau is het een gewoon tekstbestand dat zich in de hoofdmap van uw site bevindt en voldoet aan het Robot Exclusion Protocol (REP). Robots.txt geeft robots instructies over de hele website, terwijl meta-robottags links naar specifieke pagina’s bevatten. Enkele van de meta-bottags die u kunt gebruiken, zijn inhoudsopgavedie zoekmachines instrueert om de pagina in hun index op te nemen; geenindexdie u vertelt om de pagina niet aan de index toe te voegen of niet op te nemen in de zoekresultaten; volgenwat de zoekmachine vertelt om de links op de pagina te volgen; niet volgen, die u vertelt geen links te volgen, en vele andere. De robots.txt en meta robots tags zijn handige tools om in je toolbox te bewaren, maar er is een andere manier om zoekmachinebots te vertellen dat ze noindex of nofollow moeten zijn: X-Robots-Tag.

Wat is X-Robots-Tag?

X-Robots-Tag is een andere manier om te bepalen hoe uw webpagina’s worden gecrawld en geïndexeerd door spiders. Omdat HTTP-headers reageren op delen van een URL, regelt het de indexering van de hele pagina en specifieke elementen van die pagina. En hoewel meta-robottags vrij eenvoudig te gebruiken zijn, is X-Robots-Tag een beetje ingewikkelder. Maar dit roept natuurlijk de vraag op:

Wanneer moet u X-Robots-Tag gebruiken?

Volgens Google kan “elke richtlijn die in de robots-metatag kan worden gebruikt, ook worden gespecificeerd als een X-Robots-Tag.” Hoewel u robots.txt-gerelateerde richtlijnen in HTTP-antwoordheaders kunt instellen met behulp van de metarobots- en X-Robots-tag, zijn er bepaalde situaties waarin u de X-Robots-tag zou willen gebruiken – de twee meest voorkomende zijn wanneer:
  • U wilt bepalen hoe uw niet-HTML-bestanden worden gecrawld en geïndexeerd.
  • U wilt instructies geven voor de hele site, niet op paginaniveau.
Als u bijvoorbeeld de inspectie van een specifieke afbeelding of video wilt blokkeren, maakt de HTTP-antwoordmethode dit gemakkelijk. De X-Robots-Tag-header is ook handig omdat u hiermee meerdere tags kunt combineren in een HTTP-antwoord of een door komma’s gescheiden lijst met richtlijnen kunt gebruiken om richtlijnen te specificeren. Misschien wil je niet dat een bepaalde pagina in de cache wordt opgeslagen en wil je dat deze na een bepaalde datum niet meer beschikbaar is. U kunt een combinatie van de noarchive- en niet-beschikbare_after-tags gebruiken om bots van zoekmachines te vertellen dat ze deze instructies moeten volgen. Kortom, het voordeel van X-Robots-Tag is dat het veel flexibeler is dan de meta-robots-tag. Het voordeel van het gebruik van X-Robots-Tag met HTTP-antwoorden is dat u hiermee reguliere expressies kunt gebruiken om validatierichtlijnen buiten HTML uit te voeren, en dat u parameters kunt toepassen op een groter, wereldwijd niveau. Om de verschillen tussen deze richtlijnen beter te begrijpen, is het handig om ze op type te categoriseren. Dat wil zeggen, zijn het crawlers of indexeringsinstructies? Hier is een handig spiekbriefje om uit te leggen: Caterpillar richtlijnen Indexer richtlijnen Robots.txt – gebruikt user agent, allow, deny en sitemap-richtlijnen om aan te geven waar bots van zoekmachines uw site wel en niet mogen crawlen. Meta Robots-tag – hiermee kunt u opgeven en voorkomen dat zoekmachines bepaalde pagina’s van uw website in zoekresultaten weergeven. Niet volgen – hiermee kunt u links specificeren die geen autoriteit of PageRank mogen overdragen. X-Robots-tag – hiermee kunt u bepalen hoe de opgegeven bestandstypen worden geïndexeerd.

Waar plaats je de X-Robots-Tag?

Stel dat u specifieke bestandstypen wilt blokkeren. De ideale manier zou zijn om de X-Robots-Tag toe te voegen aan uw Apache-configuratie of .htaccess-bestand. De X-Robots-Tag kan worden toegevoegd aan de HTTP-antwoorden van een website in de Apache-serverconfiguratie met behulp van een .htaccess-bestand.

Real-life voorbeelden en gebruik van X-Robots-Tag

Dus het klinkt geweldig in theorie, maar hoe ziet het eruit in de echte wereld? Laten we zien. Stel dat we willen voorkomen dat zoekmachines .pdf-bestandstypen indexeren. Deze configuratie zou er ongeveer zo uitzien op de Apache-servers: Headerset X-Robots-Tag “noindex, nofollow” In Nginx zou het er zo uitzien: location ~ * \.pdf$ { add_header X-Robots-Tag “noindex, nofollow”; } Laten we nu eens naar een ander script kijken. Laten we zeggen dat we de X-Robots-Tag willen gebruiken om het indexeren van afbeeldingsbestanden zoals .jpg, .gif, .png, etc. te blokkeren. U kunt dit doen met behulp van de X-Robots-Tag, die er als volgt uit zou zien: Header Set X-Robots-Tag “noindex” Houd er rekening mee dat het erg belangrijk is om te begrijpen hoe deze richtlijnen werken en hoe ze elkaar beïnvloeden. Wat gebeurt er bijvoorbeeld als zowel de X-Robots-tag als de metarobots-tag aanwezig zijn wanneer crawlers de URL detecteren? Als deze URL wordt geblokkeerd door robots.txt, worden bepaalde indexerings- en weergaverichtlijnen niet gedetecteerd en gerespecteerd. Als u richtlijnen moet volgen, kunt u geen inspectie toestaan ​​van URL’s die deze bevatten.

Controleer op X-Robots-tag.

Er zijn verschillende methoden die kunnen worden gebruikt om te controleren of een website de X-Robots-tag bevat. De eenvoudigste manier om dit te controleren, is door een browserextensie te installeren die X-Robots-Tag-informatie over de URL weergeeft. Checker voor robotverwijderingRobots Exclusieve Checker 2022 December, screenshot Een andere plug-in die je kunt gebruiken om te bepalen of bijvoorbeeld X-Robots-Tag wordt gebruikt, is de Web Developer-plug-in. U kunt de verschillende gebruikte HTTP-headers zien door op de plug-in in uw browser te klikken en naar “Reactieheaders bekijken” te gaan. plug-in voor webontwikkelaars Een andere methode die kan worden gebruikt voor schaalvergroting om problemen op sites met een miljoen pagina’s te lokaliseren, is Screaming Frog. Nadat u uw site door Screaming Frog heeft geleid, kunt u naar de X-Robots-Tag-kolom navigeren. Dit laat zien welke delen van de site de tag gebruiken, samen met specifieke richtlijnen. Het Screaming Frog-rapport.  X-Robot-TagScreenshot van Screaming Frog Report. X-Robot-Tag, 2022 December

Gebruik van X-Robots-Tags op de Website

De hoeksteen van zoekmachineoptimalisatie is het begrijpen en beheren van hoe zoekmachines omgaan met uw website. En X-Robots-Tag is een krachtige tool die u daarvoor kunt gebruiken. Weet gewoon: het is niet zonder risico’s. Het is heel gemakkelijk om een ​​fout te maken en uw hele site te de-indexeren. Trouwens, als je dit stuk leest, ben je waarschijnlijk geen SEO-beginner. Als je het verstandig gebruikt, de tijd neemt en je werk controleert, zal X-Robots-Tag een nuttige aanvulling zijn op je arsenaal. Meer middelen:
  • Google geeft websites meer controle over indexering met een nieuwe bot-tag
  • 6 Veelvoorkomende Robots.txt-problemen en hoe u ze kunt oplossen
  • Geavanceerde technische SEO: de complete gids
Uitgelichte afbeelding: Song_about_summer/Shutterstock

Relevante berichten