SITEMAP – Creare e segnalare sitemap per aumentare la visibilità sui motori di ricerca

Riportiamo in questo articolo una versione rivista delle informazioni reperibile su http://www.sitemaps.org , un sito dedicato allo studio e alla spiegazione di utilizzo del protocollo che sta alla base delle sitemap.

Le Sitemap consentono ai webmaster di indicare ai motori di ricerca le pagine dei loro siti disponibili per la scansione. Nella sua forma più semplice, una Sitemap è un file XML contenente gli URL di un sito insieme ai rispettivi metadati aggiuntivi (data dell’ultimo aggiornamento, frequenza tipica delle modifiche, importanza rispetto agli altri URL del sito) che consente ai motori di ricerca di eseguire la scansione del sito in modo più efficiente.

In genere, i crawler web individuano le pagine dai link presenti sul sito e da altri siti. Questi dati vengono aggiunti per consentire ai crawler che supportano Sitemaps di selezionare tutti gli URL nella Sitemap e di ottenere informazioni relative a tali URL tramite i metadati associati. L’utilizzo del Protocollo Sitemap (vedi più avanti) non garantisce l’inclusione delle pagine web nei motori di ricerca, ma facilita il processo di scansione del tuo sito da parte dei crawler web.

Sitemap 0.90 viene regolato dal contratto di licenza Attribution-ShareAlike Creative Commons License e viene adottato a livello generale, compresi Google, Yahoo! e Microsoft.

Formato XML delle Sitemap

Il formato Protocollo Sitemap è composto da tag XML. Tutti i valori dei dati in una Sitemap devono utilizzare i codici di escape. Il file stesso deve utilizzare la codifica UTF-8.

La Sitemap deve:

  • Inizia con un tag di apertura <urlset> e termina con un tag di chiusura </urlset>.
  • Specifica lo spazio dei nomi (standard del protocollo) all’interno del tag <urlset>.
  • Includi una voce <url> per ogni URL come tag XML principale.
  • Includi una voce secondaria <loc> per ogni tag principale <url>.

Tutti gli altri tag sono facoltativi. Il supporto di questi tag facoltativi varia a seconda del motore di ricerca in uso. Consulta la documentazione di ciascun motore di ricerca per maggiori informazioni.

Sitemap XML di esempio

Di seguito viene riportata una Sitemap di esempio che contiene solo un URL e utilizza tutti tag facoltativi. I tag facoltativi vengono riportati in corsivo.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
      <loc>http://www.example.com/</loc>
      <lastmod>2005-01-01</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.8</priority>
   </url>
</urlset>

Vedi anche l’esempio con più URL.

Definizioni tag XML

I tag XML disponibili vengono descritti di seguito.

Attributo Descrizione
<urlset> obbligatorio Comprende il file e fa riferimento agli standard del protocollo corrente.
<loc> obbligatorio URL della pagina. L’URL deve iniziare con il protocollo (ad esempio http) e terminare con una barra finale, se richiesto dal server web. Questo valore deve contenere meno di 2048 caratteri.
<changefreq> facoltativo Frequenza con la quale la pagina potrebbe venire modificata. Questo valore fornisce informazioni generiche ai motori di ricerca ed è possibile che non sia esattamente correlato alla frequenza di scansione della pagina. I valori validi sono:

  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never

Il valore “always” deve essere utilizzato per descrivere i documenti che subiscono modifiche ogni volta che vi si accede. Il valore “never” deve essere utilizzato per descrivere gli URL archiviati.

Il valore di questo tag viene considerato un suggerimento e non un comando. Anche se i crawler dei motori di ricerca possono prendere in considerazione questa informazione, è possibile che la scansione di pagine contrassegnate come “hourly” avvenga meno di frequente rispetto alla scansione di pagine contrassegnate come “yearly”. È possibile che i crawler eseguano la scansione periodica di pagine contrassegnate come “never”, in modo da poter gestire modifiche impreviste apportate a tali pagine.

Codici di escape
Il file Sitemap deve utilizzare la codifica UTF-8. In genere, è possibile eseguire questa operazione al momento del salvataggio del file. Analogamente a quanto accade con i file XML, tutti i valori dei dati (inclusi gli URL) devono utilizzare codici di escape per i caratteri elencati nella seguente tabella.

 

 

CarattereE commerciale &

Virgolette ‘

Virgolette doppie ”

Maggiore di >

Minore di <

Codice di escape&

'

"

>

<

 

 

Inoltre, tutti gli URL, compreso l’URL della tua Sitemap, devono utilizzare caratteri escape ed essere codificati in modo da consentire la lettura ai server web sui quali sono posizionati. Tuttavia, se utilizzi script, strumenti o file di log per generare gli URL (qualsiasi metodo, ad eccezione dell’inserimento manuale), l’operazione viene in genere eseguita automaticamente. Assicurati che tutti i tuoi URL siano conformi allo standard URI RFC-3986, allo standard IRI RFC-3987 e allo standard XML.

Di seguito, viene riportato un esempio di URL che utilizza caratteri non ASCII (ü) e caratteri che richiedono l’utilizzo di codici di escape (&):

http://www.example.it/ümlat.html&q=name

Di seguito viene riportato l’URL con codifica ISO-8859-1 (per il servizio di hosting su un server che utilizza la stessa codifica) e con codice di escape:

http://www.example.it/%FCmlat.html&q=name

Di seguito viene riportato lo stesso l’URL con codifica UTF-8 (per il servizio di hosting su un server che utilizza la stessa codifica) e con codice di escape:

http://www.example.com/%C3%BCmlat.html&q=name

Di seguito, viene riportato lo stesso URL ma questa volta con codice di escape:

http://www.example.com/%C3%BCmlat.html&q=name

Sitemap XML di esempio

Il seguente esempio illustra una Sitemap in formato XML. La Sitemap dell’esempio contiene un numero ridotto di URL, ognuno dei quali utilizza un insieme diverso di parametri facoltativi.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
      <loc>http://www.example.com/</loc>
      <lastmod>2005-01-01</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.8</priority>
   </url>
   <url>
      <loc>http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc>
      <changefreq>weekly</changefreq>
   </url>
   <url>
      <loc>http://www.example.com/catalog?item=73&desc=vacation_new_zealand</loc>
      <lastmod>2004-12-23</lastmod>
      <changefreq>weekly</changefreq>
   </url>
   <url>
      <loc>http://www.example.com/catalog?item=74&desc=vacation_newfoundland</loc>
      <lastmod>2004-12-23T18:00:15+00:00</lastmod>
      <priority>0.3</priority>
   </url>
   <url>
      <loc>http://www.example.com/catalog?item=83&desc=vacation_usa</loc>
      <lastmod>2004-11-23</lastmod>
   </url>
</urlset>

Utilizzo di file dell’indice Sitemap (per raggruppare più file Sitemap)

Puoi creare più file Sitemap, ma ciascuno di essi non può contenere più di 50.000 URL e non può avere una dimensione superiore a 10 MB (10.485.760 byte). Se lo desideri, puoi comprimere i file Sitemap utilizzando gzip per rimanere nei limiti dei 10 MB e ridurre la larghezza di banda richiesta. Se desideri indicare più di 50.000 URL, crea più file Sitemap.

Se fornisci più Sitemap, devi elencare ogni file Sitemap in un file dell’indice Sitemap. I file dell’indice Sitemap non possono contenere più di 1000 Sitemap e non devono avere una dimensione superiore a 10 MB (10.485.760 byte). Il formato XML di un file dell’indice Sitemap è molto simile al formato XML di un file Sitemap.

Il file dell’indice Sitemap deve:

  • Inizia con un tag di apertura <sitemapindex> e termina con un tag di chiusura </sitemapindex>.
  • Includi una voce <sitemap> per ogni Sitemap come tag XML principale.
  • Includi una voce secondaria <loc> per ogni tag principale <sitemap>.

Il tag facoltativo <lastmod> è anche disponibile per i file dell’indice Sitemap.

Nota: un file dell’indice Sitemap può solo specificare le Sitemap che si trovano nel suo stesso sito. Ad esempio, http://www.iltuosito.it/sitemap_index.xml può includere le Sitemap di http://www.iltuosito.it, ma non di http://www.esempio.it o http://iltuohost.iltuosito.it. In modo analogo alle Sitemap, anche il file dell’indice Sitemap deve utilizzare la codifica UTF-8.

Indice Sitemap XML di esempio

Il seguente esempio illustra un indice Sitemap in cui sono elencate due Sitemap:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

Nota: analogamente a tutti i valori dei file XML, gli URL della Sitemap devono utilizzare i codici di escape.

Definizioni dei tag XML dell’indice Sitemap

Attributo Descrizione
<sitemapindex> obbligatorio Comprende informazioni su tutte le Sitemap del file.
<loc> obbligatorio Identifica l’ubicazione della Sitemap.Questo percorso può essere una Sitemap, un file Atom, un file RSS o un semplice file di testo.

Altri formati sitemap

Il Protocollo Sitemap consente di fornire informazioni dettagliate sulle pagine ai motori di ricerca. Ti consigliamo di utilizzarlo per fornire ulteriori informazioni sulle pagine del sito, e non solo gli URL. Tuttavia, oltre al protocollo XML, supportiamo i feed RSS e i file di testo, che forniscono informazioni limitate.

Feed di diffusione dei contenuti

Puoi fornire un feed RSS (Real Simple Syndication) 2.0 o Atom 0.3 o 1.0. In genere, si utilizza questo formato soltanto se il sito già dispone di un feed di diffusione dei contenuti. È possibile che in questo modo i motori di ricerca non vengano a conoscenza di tutti gli URL del tuo sito, poiché il feed potrebbe fornire informazioni solo sugli URL recenti; tuttavia queste informazioni possono essere utilizzate per ottenere informazioni su altre pagine del tuo sito nel corso dei normali processi di scansione seguendo i link disponibili nella pagina del feed. Assicurati che il feed sia collocato nella directory di livello più elevato di cui desideri venga eseguita la scansione da parte dei motori di ricerca. I motori di ricerca estraggono le informazioni dai feed nel seguente modo:

  • Campo <link> – indica l’URL
  • campo date di modifica (il campo <pubDate> per i feed RSS e il campo <modified> per i feed Atom) – indica la data dell’ultima modifica di ciascun URL. L’utilizzo del campo della data di modifica è opzionale.

File di testo

Puoi fornire un semplice file di testo contenente un URL per riga. Il file di testo deve rispettare le seguenti convenzioni:

  • Il file di testo deve contenere un URL per riga. Gli URL non possono contenere codici di interruzione di riga.
  • È necessario specificare gli URL completi, incluso http.
  • Ogni file di testo può contenere massimo 50.000 URL. Se il tuo sito include più di 50.000 URL, puoi dividere l’elenco in più file di testo e aggiungere ogni file separatamente.
  • È necessario utilizzare la codifica UTF-8 per il file di testo. È possibile specificare la codifica al momento del salvataggio del file, ad esempio, in Notepad, la codifica UTF-8 viene elencata nel menu “Codifica” della finestra di dialogo “Salva con nome”.
  • Il file di testo non deve contenere altri dati che non siano l’elenco degli URL.
  • Il file di testo non deve contenere dati di intestazione o piè di pagina.
  • È possibile assegnare qualsiasi nome al file di testo.
  • Carica il file di testo nella directory di livello superiore di cui i motori di ricerca devono eseguire la scansione e accertarti che gli URL elencati nel file di testo non siano presenti nella directory di livello superiore.

Di seguito sono riportate voci di esempio del file di testo.

http://www.example.it/catalog?item=1
http://www.example.it/catalog?item=11

Ubicazione del file Sitemap

Il percorso di un file Sitemap determina l’insieme di URL che può essere inserito nella Sitemap. Un file Sitemap posizionato in http://esempio.it/catalog/sitemap.xml può includere tutti gli URL che iniziano con http://esempio.it/catalog/ ma non quelli che iniziano con http://esempio.it/images/.

Se hai l’autorizzazione a modificare http://example.org/path/sitemap.xml, si presume che tu abbia anche l’autorizzazione a fornire informazioni relative agli URL con il prefisso http://example.org/path/. Alcuni esempi di URL considerati validi in http://example.com/catalog/sitemap.xml sono:

http://example.com/catalog/show?item=23
http://example.com/catalog/show?item=233&user=3453

Gli URL non considerati validi in http://esempio.it/catalog/sitemap.xml sono:

http://example.com/image/show?item=23
http://example.com/image/show?item=233&user=3453
https://example.com/catalog/page1.html

Questo significa che tutti gli URL elencati nella Sitemap devono utilizzare lo stesso protocollo (in questo esempio, il protocollo http) e risiedere nello stesso host della Sitemap. Ad esempio, una Sitemap che si trova in http://www.esempio.it/sitemap.xml non può includere gli URL di http://sottodominio.esempio.it.

Gli URL non considerati validi vengono ignorati. Ti consigliamo di salvare la Sitemap nella directory principale del tuo server web. Ad esempio, se il server web è su esempio.it, il file dell’indice Sitemap si troverà su http://esempio.it/sitemap.xml. In alcuni casi, potresti dover creare Sitemap diverse per i vari percorsi del tuo sito, ad esempio se le autorizzazione di protezione della tua azienda separano i diritti di accesso in scrittura a directory diverse.

Se invii una Sitemap utilizzando un percorso con un numero di porta, devi includere tale numero nel percorso in ciascun URL riportato nel file Sitemap. Ad esempio, se la tua Sitemap è ubicata in http://www.example.com:100/sitemap.xml, ciascun URL riportato nella Sitemap deve iniziare con http://www.example.com:100.


Convalida della Sitemap

I seguenti schemi XML definiscono gli elementi e gli attributi che possono essere visualizzati nel file Sitemap. Puoi scaricare lo schema dai seguenti link:

Per le Sitemap

http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd

Per i file dell’indice Sitemap

http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd

Sono disponibili diversi strumenti per la convalida della struttura della Sitemap in base a questo schema. Puoi trovare un elenco di strumenti relativi a XML in ognuno dei seguenti percorsi:

http://www.w3.org/XML/Schema#Tools
http://www.xml.com/pub/a/2000/12/13/schematools.html

Per convalidare la Sitemap o il file dell’indice Sitemap in base a uno schema, è necessario che il file XML abbia intestazioni aggiuntive, come mostrato di seguito.

Sitemap:

<?xml version='1.0' encoding='UTF-8'?>
<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
         http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd"
         xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
      ...
   </url>
</urlset>

File dell’indice Sitemap:

<?xml version='1.0' encoding='UTF-8'?>
<sitemapindex xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
         http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd"
         xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      ...
   </sitemap>
</sitemapindex>

Estensione del Protocollo Sitemap

Puoi estendere il Protocollo Sitemap utilizzando il tuo spazio dei nomi. Devi semplicemente specificare questo spazio dei nomi nell’elemento principale. Ad esempio:

<?xml version='1.0' encoding='UTF-8'?>
<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
         http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd"
         xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
         xmlns:example="http://www.example.com/schemas/example_schema"> <!-- namespace extension -->
   <url>
      <example:example_tag>
         ...
      </example:example_tag>
      ...
   </url>
</urlset>

Invio delle informazioni ai crawler dei motori di ricerca

Dopo aver creato il file sitemap e averlo posizionato sul tuo server web, invialo ai motori di ricerca che supportano questo protocollo. Puoi eseguire questa operazione nel seguente modo:

Nell’elenco sottostante troviamo i link ai motori di ricerca principali per segnalare la propria sitemap:

Yahoo

https://siteexplorer.search.yahoo.com/submit

Google

http://www.google.com/support/webmasters/bin/answer.py?answer=40318

Ask.com

http://submissions.ask.com/ping?sitemap=SitemapUrl

RISORSE

Vi sono diverse risorse disponibile per generare in automatico la sitemap del proprio sito. Ecco alcune tra le principali:

GSite Crawler

GSite Crawler ha saputo conquistare la palma del miglior software gratuito per la creazione di sitemap su Windows. Supporta diversi formati, dai feed alle sitemap, per generare il risultato più adatto alle vostre esigenze.

Il funzionamento si basa su un crawler che, una volta lanciato su un indirizzo, si preoccupa di recuperare le URL di tutte le pagine collegate scandagliando il sito web come se fosse il bot di un motore di ricerca. Al termine è possibile scegliere le impostazioni di ogni singolo indirizzo e generare sia sitemap XML sia archivi compressi.

Rage Google Sitemap Automator

Se lavorate su Mac potreste trovare interessante Google Sitemap Automator, un software a pagamento per generare e segnalare sitemap ai motori di ricerca.

Script online

Sebbene i generatori online di sitemap non offrano, ad oggi, la stessa affidabilità e la stessa qualità di un buon software desktop, in molti casi sono una soluzione utile e chiavi in mano che vi permette in pochi click di generare una sitemap per il vostro sito.

È possibile scegliere tra innumerevoli prodotti come AutoSitemap, Online Sitemap Generator o Google Site Map Generator. Una menzione particolare la merita sitemap.xml.gz Generator, un software scritto in Java e disponibile tramite interfaccia web.

5 commenti su “SITEMAP – Creare e segnalare sitemap per aumentare la visibilità sui motori di ricerca”

  1. Se fosse di vostro interesse, ho provveduto a creare uno Strumento per la Creazione delle Sitemap e per la segnalazione di queste ultime ai motori di ricerca, il tutto in italiano ed a titolo completamente gratuito.

    Saluti,
    Loris

  2. Pingback: diggita.it
  3. Pingback: upnews.it
  4. Pingback: indice.it

I commenti sono chiusi.