
Chiunque si occupi di SEO sicuramente avrà avuto a che fare con i contenuti duplicati e con le implicazioni che essi hanno sui nostri sforzi per creare contenuti mirati e ottimizzati.
Cosa sono i contenuti duplicati?
In senso stretto un contenuto duplicato è tale quando due o più siti web ospitano lo stesso identico contenuto nelle loro pagine. Non sto parlando di pagine con lo stesso header, ma che presentano piuttosto lo stesso contenuto parola per parola, o quasi. Questo può succede per diverse ragioni. Potresti ad esempio aver scritto un articolo e un altro sito o blog potrebbe semplicemente averlo ri-postato tale e quale. Oppure potresti avere diversi domini che presentano contenuto simile, talvolta addirittura identico. Entrambi i casi sono più frequenti di quanto si possa immaginare, e sebbene delle volte sia legittimo avere gli stessi contenuti, è meglio comunque capire a fondo cosa si rischia in questi casi.
Perché i contenuti duplicati sono un problema?
Lo scopo dei motori di ricerca è quello di fornire il miglior risultato possible per una data keyword o keyphrase: più questo si avvicina alla realtà, maggiormente gli utenti utilizzeranno quello specifico motore di ricerca. In altre parole, il loro scopo non è quello di restituire SERP con pagine che offrono risultati identici, poiché tutto questo si trasformerebbe in un servizio frustrante e di bassa qualità per gli utenti. Per questo motivo i contenuti vengono filtrati e scelti in base a diversi criteri. Il rischio è dunque quello che la tua pagina non venga mostrata, a vantaggio di un’altra che presenta gli stessi identici contenuti.
Come gestiscono i contenuti duplicati i motori di ricerca?
I motori di ricerca utilizzano un bot per navigare in rete e catalogare tutti i contenuti che incontrano. Questi vengono poi indicizzati e memorizzati nella base di dati del motore di ricerca stesso. Durante questo processo il contenuto incontrato viene comparato con altri contenuti simili o identici, allo scopo di determinare quale sia il contenuto originale. Alcuni fattori che possono aiutare i motori di ricerca a distinguere il contenuto originale da quello duplicato sono:
- il trust rank del dominio
- la verifica di link in una delle pagine con contenuto identico che puntano verso il contenuto originale?
- l’analisi dei link in uscita
- quale delle pagine è stata indicizzata anteriormente
Ovviamente entrano altri fattori in gioco per determinare quali siano i contenuti originali e quali i contenuti duplicati. A questo punto una delle pagine viene scelta e mostrata come contenuto originale a dispetto delle altre.
Problemi con il contenuto duplicato
Ora che abbiamo definito cosa sono i contenuti duplicati e come possono verificarsi, scopriamo come evitare i rischi che questo penalizzi i nostri contenuti originali. Prima di tutto va specificato che i problemi relativi al contenuto duplicato non hanno nulla a che vedere con il codice HTML della pagina o con la sua struttura, ma solo con i contenuti stessi della pagina. Per ovviare al problema si possono per esempio specificare le pagine canoniche attraverso un corretto uso degli attributi che identificano una URL, in questo modo possiamo comunicare quale, tra le pagine con contenuto simile o identico, è quella più autorevole. A tal proposito, per seguire le linee guida proposte da Google e per chi volesse approfondire i temi solo (inevitabilmente) accennati in questo post, vi consiglio la lettura di questi due articoli (in inglese):
specificare URL canoniche
cross domain