BigQuery-prestatietips voor bulkexport van Search Console-gegevens

BigQuery-prestatietips voor bulkexport van Search Console-gegevens post thumbnail image

maandag 2023 5 juni

Zoekconsole bulkgegevens exporteren is een krachtige manier om de zoekprestatiegegevens van uw site in BigQuery te brengen voor meer opslag, analyse en rapportagemogelijkheden. Na het exporteren van gegevens kunt u bijvoorbeeld zoekopdrachten en URL-clustering uitvoeren, langdurige zoekopdrachten analyseren en zoeken combineren met andere gegevensbronnen. U kunt er ook voor kiezen om de gegevens te bewaren zolang u ze nodig heeft.

Bij het gebruik van bulkgegevensexport is het belangrijk om weloverwogen beslissingen te nemen bij het beheren van gegevensverwerkings- en opslagkosten. Er zijn geen kosten verbonden aan Search Console bij het exporteren van gegevens; maar lees verder BigQuery-prijzen om te begrijpen waarvoor u in rekening wordt gebracht. In dit bericht bespreken we tips om u te helpen profiteren van de nieuwe gegevens zonder de bank te verslaan.

Als je bulkgegevensexport nog niet hebt ingesteld, probeer het dan eens stap voor stap handleiding
In het Helpcentrum van Search Console. Als u wilt zien welke gegevens beschikbaar zijn bij het exporteren, bekijk dan de video die hier is ingesloten.

Maak factureringswaarschuwingen en -beperkingen

Bij het overwegen van uw uitgaven kan het nuttig zijn om na te denken over hoeveel u zou willen uitgeven. Het antwoord op deze vraag zal waarschijnlijk variëren tussen opslag, analyse en monitoring. U wilt bijvoorbeeld misschien een bepaald bedrag betalen om ervoor te zorgen dat u al uw gegevens beschermt, maar minder om een ​​rapportageplatform te bouwen. Met dit in gedachten, wilt u misschien een maandelijks budget instellen om te investeren in zoekgegevens.

Met een budgetbedrag in gedachten kun je een Google Cloud-budgetwaarschuwing
om verrassingen op uw factuur te voorkomen. U kunt ook drempelregels instellen die e-mailmeldingen activeren. per post bij verhoging van het budgetbedrag.

Een screenshot van de Cloud Console die laat zien hoe u een factureringswaarschuwing maakt

Om de bescherming te vergroten, kunt u dat ook beperk het aantal in rekening gebrachte bytes
voor het verzoek. Als u dit doet, wordt het aantal bytes dat de query leest geëvalueerd voordat de query wordt uitgevoerd. Als het berekende aantal bytes de limiet overschrijdt, mislukt het verzoek en worden er geen kosten in rekening gebracht.

Bouw geen dashboards rechtstreeks op ruwe data

BigQuery is snel, dus het is verleidelijk om het dashboard rechtstreeks te koppelen aan de tabellen die door Search Console zijn geëxporteerd. Voor grote sites is deze dataset echter erg groot (vooral bij verzoeken in de loop van de tijd). Als u een dashboard maakt dat de samenvattende informatie in elke weergave opnieuw berekent en deze binnen uw bedrijf deelt, zullen uw querykosten snel stijgen.

Om deze kosten te vermijden, kunt u overwegen om de drop-gegevens van elke dag vooraf samen te voegen en een of meer draaitabellen te maken. Uw dashboard kan dan een veel kleinere tijdreekstabel opvragen, waardoor de verwerkingskosten worden verminderd.

Bekijken aanvragen plannen
BigQuery-functie of overweeg BI-motor
als u een meer geautomatiseerde oplossing wilt.

Optimaliseer de kosten voor gegevensopslag

Wanneer u een bulkgegevensexport start, worden de gegevens standaard voor altijd opgeslagen in uw BigQuery-dataset. Maar je kan werk de standaard vervaltijden van partities bij
zodat datumsecties automatisch worden verwijderd na een jaar, 16 maanden of hoe lang u maar wilt.

Geëxporteerde gegevens kunnen waardevol voor u zijn, maar kunnen erg groot zijn. Profiteer van uw zakelijke kennis en overweeg deze lang genoeg op te slaan voor een grondige analyse, maar niet zo lang dat het een last wordt. Een optie is om een ​​geselecteerde versie van de oudere tabellen te behouden en tegelijkertijd de volledige tabel van nieuwere data te behouden.

Optimaliseer uw SQL-query’s

Wanneer u Search Console-gegevens opvraagt, moet u ervoor zorgen dat query’s zijn geoptimaliseerd voor prestaties. Als u nieuw bent bij BigQuery, probeer het dan eens richtlijnen en voorbeeldvragen
in het helpcentrum. Er zijn drie methoden die u zou moeten proberen.

1. Beperk het scannen van invoer

Allereerst, Vermijd te gebruiken SELECT *, wat de duurste manier is om gegevens op te vragen. BigQuery voert een volledige scan uit van elke kolom in de tabel. Het toepassen van een LIMIT clausule wel Nee beïnvloedt de hoeveelheid gelezen gegevens.

Omdat de geëxporteerde tabellen op datum zijn gesorteerd, kunt u de invoerscan beperken tot alleen de dagen die van belang zijn, vooral wanneer u aan het testen bent en met de gegevens speelt. Gebruiken WHERE voorwaarde om het datumbereik in een op datum gepartitioneerde tabel te beperken, bespaart dit aanzienlijk op zoekkosten. U kunt bijvoorbeeld alleen de laatste 14 dagen bekijken met de volgende voorwaarde:

WHERE data_date between DATE_SUB(CURRENT_DATE(), INTERVAL 14 day)

Om het scannen van invoer te minimaliseren, wilt u voor elke query zo snel mogelijk bekende filters implementeren. Als u bijvoorbeeld query’s analyseert, wilt u waarschijnlijk filteren
anonieme aanvragen lijnen. Een anonieme zoekopdracht wordt in een tabel weergegeven als een tekenreeks met lengte nul. Om dit te doen, kunt u toevoegen:

WHERE query != ''

2. Neem gegevensmonsters

BigQuery biedt een tafel bemonstering
mogelijkheid om willekeurige subsets van gegevens uit grote BigQuery-tabellen op te vragen. Een selectie retourneert een verscheidenheid aan records, waardoor de overhead van het scannen en verwerken van de hele tabel wordt vermeden, en is met name handig bij het maken van query’s of wanneer exacte resultaten niet vereist zijn.

3. Als exacte resultaten niet vereist zijn, gebruik dan benaderende functies

BigQuery ondersteunt veel geschatte aggregatiefuncties
die berekende resultaten opleveren en veel goedkoper te berekenen zijn dan hun exacte tegenhangers. Als u bijvoorbeeld zoekt naar de meest populaire URL’s op basis van vertoningen voor bepaalde voorwaarden, kunt u gebruiken

SELECT APPROX_TOP_SUM(url, impressions, 10) WHERE datadate=...;

in plaats van

SELECT url, SUM(impressions) WHERE datadate=... GROUP BY url ORDER BY 2 DESC LIMIT 10;

Bronnen

Dit zijn slechts enkele tips die u kunt gebruiken om uw uitgaven te beheren. Bekijk het om meer te weten
praktische tips voor kostenoptimalisatie in BigQuery.

En zoals altijd, als u vragen of opmerkingen heeft, kunt u ons een e-mail sturen op
Centrale gemeenschap van Google Zoeken
of ingeschakeld Twitteren.

Relevante berichten