Robots.txt: tutto ciò che devi sapere per l'ottimizzazione SEO
Contenuto del articolo
-
🤖 Introduzione al file robots.txt
- Cos'è un file robots.txt
- Direttive supportate da Google crawler
- Best practice per l'utilizzo del file robots.txt
-
📝 Come creare un file robots.txt
- Composizione corretta del file
- Nomi degli User-Agent
- Utilizzo delle direttive
-
🧠 Funzionamento del file robots.txt
- Cosa succede se il file non esiste
- Crawler che ignorano le restrizioni
- Risoluzione dei conflitti tra gruppi
-
🛠️ Direttive supportate dal file robots.txt
- Sitemap
- Disallow
- Allow
- Crawl Delay
- No index
- No follow
-
📄 Esempi di regole utili
- Bloccare una directory specifica
- Bloccare un User-Agent specifico
- Evitare il crawling di una singola pagina
- Bloccare l'indicizzazione di immagini specifiche
- Bloccare determinati tipi di file
-
🔒 Migliori pratiche per il file robots.txt
- Utilizzare Rejects per semplificare le direttive
- Menzionare ogni User-Agent solo una volta
- Essere specifici con le direttive
-
💡 Utilizzare SEO Testing per ottimizzare il tuo sito
- Settare i test SEO
- Aumentare il traffico con i dati di Google Search Console
-
📚 Risorse
- Link utili per ulteriori informazioni
🤖 Introduzione al file robots.txt
Il file robots.txt è un file di testo che fornisce istruzioni ai crawler, come i bot dei motori di ricerca, su quali pagine o sezioni del sito possono o non possono esplorare. Questo file è estremamente importante per l'ottimizzazione SEO del tuo sito web, in quanto contribuisce a evitare sovraccarichi di server causati dall'esplorazione dei bot.
È importante sottolineare che il file robots.txt non impedisce l'indicizzazione delle pagine da parte dei motori di ricerca. La presenza del file o la sua mancanza non influisce direttamente sull'indicizzazione delle pagine. Le istruzioni nel file servono principalmente a specificare quali pagine i crawler possono esplorare.
📝 Come creare un file robots.txt
Per creare un file robots.txt valido, ci sono alcune regole da seguire:
-
📁 Posizione e nome del file: Il file deve essere chiamato "robots.txt" e posizionato nella radice del dominio.
-
🔤 Codifica: Il file deve essere codificato in UTF-8.
-
🌐 Dominio e protocollo: Il file sarà valido solo per il dominio e il protocollo specifici.
-
➡️ Una direttiva per riga: Ogni riga può contenere una sola direttiva.
-
📍 Percorsi relativi: I percorsi delle direttive devono essere relativi.
-
🖇️ Commenti: I commenti iniziano con il simbolo di cancelletto ("#") e non vengono letti dai crawler.
È possibile includere l'URL della mappa del sito XML nel file robots.txt, ma questa informazione non è fondamentale ai fini del suo funzionamento corretto.
🧠 Funzionamento del file robots.txt
Di seguito sono riportati alcuni punti importanti da considerare per comprendere meglio il funzionamento del file robots.txt:
- Se il file robots.txt non esiste o non è accessibile, i crawler agiranno come se non ci fossero restrizioni.
- I crawler non sono obbligati a seguire le istruzioni del file robots.txt. Alcuni bot possono comunque esplorare le pagine, anche se viene loro richiesto di non farlo.
- I gruppi nel file robots.txt sono solitamente elaborati dai crawler dall'alto verso il basso. Di solito, i crawler seguono solo un gruppo.
- Googlebot e Bingbot si attengono alle regole più specifiche, quindi è importante essere precisi con le direttive nel caso si desideri sovrascrivere restrizioni precedenti.
🛠️ Direttive supportate dal file robots.txt
Il file robots.txt supporta diverse direttive che possono essere utilizzate per comunicare con i crawler. Di seguito sono elencate le direttive supportate da Googlebot:
-
Sitemap: Specifica l'URL della sitemap XML, facilitando la sua scoperta da parte dei crawler.
-
Disallow: Indica ai crawler che non è consentito visitare l'URL o la sezione del sito specificati.
-
Allow: Indica ai crawler che è consentito visitare e indicizzare un particolare URL, sovrascrivendo eventuali restrizioni precedenti.
-
Crawl Delay: Limita la frequenza con cui i crawler visitano gli URL per evitare sovraccarichi dei server. Non tutti i crawler supportano questa direttiva.
-
No Index: Impedisce l'indicizzazione degli URL nelle pagine dei motori di ricerca. Tuttavia, Google ha interrotto il supporto per questa direttiva nel 2019, non avendone mai documentato l'utilizzo.
-
No Follow: Indica ai crawler di non seguire i link presenti in un URL. Questa direttiva è simile all'attributo "nofollow" nei link, ma si applica a tutte le URL nella pagina. Google non supporta questa direttiva.
📄 Esempi di regole utili
Di seguito sono riportati alcuni esempi di regole che è possibile creare utilizzando il file robots.txt:
-
Bloccare una directory specifica:
User-Agent: *
Disallow: /admin/
-
Bloccare un User-Agent specifico:
User-Agent: BadBot
Disallow: /
-
Evitare il crawling di una singola pagina:
User-Agent: *
Disallow: /pagina.html
-
Bloccare l'indicizzazione di immagini specifiche:
User-Agent: Googlebot-Image
Disallow: /images/immagine1.jpg
Disallow: /images/immagine2.jpg
-
Bloccare determinati tipi di file:
User-Agent: *
Disallow: /*.pdf$
Disallow: /*.doc$
🔒 Migliori pratiche per il file robots.txt
Ecco alcuni consigli utili per utilizzare al meglio il file robots.txt:
-
Utilizza Rejects per semplificare le direttive: Puoi raggruppare più istruzioni in un'unica espressione utilizzando Rejects. Questo rende il file più semplice da gestire e più efficiente in termini di linee di codice.
-
Menziona ogni User-Agent solo una volta: La maggior parte dei crawler legge il file robots.txt dall'alto verso il basso e segue il primo gruppo applicabile per il proprio User-Agent. Menzionare lo stesso crawler più volte farà sì che venga ignorato il resto dei gruppi. Tuttavia, è consigliabile elencare gli User-Agent specifici nella parte superiore del file e includere il gruppo con il wild card per tutti gli altri crawler non citati.
-
Essere specifici con le direttive: È importante essere specifici nelle direttive del file robots.txt per evitare conseguenze involontarie. Ad esempio, se desideri bloccare il crawling della cartella dei cookie, è necessario specificare il percorso corretto per evitare che vengano bloccate anche altre URL che contengono "cookie".
💡 Utilizza SEO Testing per ottimizzare il tuo sito
Per ottimizzare al meglio il tuo sito web e aumentare il traffico da Google, puoi utilizzare SEO Testing. Questo strumento ti consente di impostare test SEO e di conoscere quali modifiche al tuo sito contribuiscono ad aumentare il traffico.
Registrati utilizzando il link nella descrizione per ottenere una prova gratuita di 14 giorni del nostro strumento.
Grazie per la lettura!
📚 Risorse
Ecco alcune risorse utili per ulteriori informazioni:
Domande frequenti
Q: Qual è lo scopo principale del file robots.txt?
A: Il file robots.txt fornisce istruzioni ai crawler dei motori di ricerca su quali pagine o sezioni del sito possono o non possono esplorare.
Q: Posso impedire l'indicizzazione delle pagine utilizzando il file robots.txt?
A: No, il file robots.txt non impedisce direttamente l'indicizzazione delle pagine da parte dei motori di ricerca. Le istruzioni nel file servono principalmente a specificare quali pagine i crawler possono esplorare.
Q: Cosa succede se il file robots.txt non esiste?
A: Se il file robots.txt non esiste o non è accessibile, i crawler agiranno come se non ci fossero restrizioni e potranno esplorare tutte le pagine del sito.
Q: Come posso bloccare l'accesso a una specifica directory?
A: Puoi utilizzare la direttiva "Disallow" nel file robots.txt per impedire l'accesso a una specifica directory. Ad esempio, se desideri bloccare l'accesso alla cartella "admin", puoi aggiungere la seguente regola: "Disallow: /admin/".
Q: Quali sono le migliori pratiche per il file robots.txt?
A: Alcune migliori pratiche per il file robots.txt includono l'utilizzo di Rejects per semplificare le direttive, menzionare ogni User-Agent solo una volta e specificare le direttive in modo preciso per evitare conseguenze involontarie.
Q: Come posso utilizzare SEO Testing per ottimizzare il mio sito?
A: SEO Testing ti consente di impostare test SEO per ottimizzare il tuo sito web. Puoi testare diverse modifiche e analizzare i risultati per comprendere quali modifiche contribuiscono ad aumentare il traffico da Google.