Suchmaschinen setzen spezielle Programme – Crawler, auch Spider oder Robots genannt – ein, um Domains nach relevanten Ressourcen zu durchsuchen, um einen Index aufzubauen. Bei Google als Marktführer im Suchmaschinensegment sind Crawler seit vielen Jahren Standard.
Wer zahlreiche Haupt- und Subdomains führt, lässt von Google ein Crawl-Budget erstellen. Dieses Budget gibt vor, wie viele Seiten und in welcher Geschwindigkeit die Suchmaschine crawlt. Grundsätzlich gilt: mehr Crawling vonseiten der Suchmaschine heißt automatisch ein besseres Ranking. Google ist beim Crawling schon von Beginn an sehr eigenständig und entscheidet selbst wie schnell oder langsam und wie intensiv gecrawlt wird. Die Auswahl der Faktoren und Sites ist eins der großen Secrets des Unternehmens.
In der Regel erstellt Google ein Crawl Budget für sehr große Domains mit Tausenden von Subdomain. Das Budget wird pro Hostname festgeschrieben und unterscheidet sich in der Höhe nach Haupt- und Subdomains. Viele Admins fragten bei Google nach, wie genau das Budget verteilt ist. Und Google hat sich dazu geäußert.
Crawl Budget: Google trennt Haupt- und Subdomain
John Müller von Google bestätigte auf Linked in , dass Crawl Budgets nicht voneinander abhängig sind. Das heißt, dass z.B. für das Crawlen von Bildern oder JavaScript für eine Website von anderen Domains nicht das Budget der eigenen Domain genutzt wird.
Zusätzlich wurde bestätigt, dass das Crawl- Budget innerhalb einer Domain für unterschiedliche Subdomains getrennt festgelegt wird.Durch diese Maßnahme soll die Überwachung des Bugdets einfacher werden. Oft kommt es gerade bei extrem großen Budgets dazu, dass in einigen Subdomains das Crawl Budget bereits ausgeschöpft , bei anderen Subdomains aber noch ausreichend vorhanden ist. So kann die Administration zeitnah reagieren, um das volle Potential auszuschöpfen.
Technische Probleme beim Crawler?
Der Google Experte John Müller erklärte, dass nur bei wirklich „massiven“ Domains technische Probleme beim Crawlen auftreten könnten, bei kleinen Domains sind dies Probleme eher dem Fakt geschuldet, dass der Google Crawler keinen Mehrwert in dem Durchsuchen zusätzlicher Seiten sieht. Es kommt also immer auf den Inhalt und deren Qualität und Relevanz an an.