mercoledì 4 maggio 2011

Come funziona la cache di Google

La cache di Google è qualcosa che, almeno di nome, dovreste aver già incontrato tutti, almeno una volta. E il motivo è molto semplice. Sotto al risultato di ogni ricerca su Google, infatti, accanto alla scritta "Pagine simili" compare anche "Copia cache": probabilmente non ci avrete mai fatto caso, o forse l'avete ignorata, ma quella parola è finita sotto i vostri occhi già centinaia di volte.
Ma che cos'è questa cache? Vediamo di spiegarlo in breve.
La cache è un archivio, nel quale sono conservate copie di altri documenti. Tutti i programmi con cui ci colleghiamo a internet, cioè i browser come Internet Explorer, Firefox e Chrome, ne hanno una e la usano per conservare una copia di tutte le pagine che visitiamo: in questo modo, se torniamo a un sito già visitato in precedenza, il browser potrà sfruttare la copia nella cache per caricarlo più velocemente. A noi, però, non interessa la cache dei browser, almeno oggi, per cui possiamo procedere oltre e arrivare alla cache di Google.
Google utilizza la propria cache per archiviare una copia di tutte le pagine presenti nel suo indice: la cache è quindi un archivio di tutti i documenti che Google è in grado di cercare. Il funzionamento è piuttosto semplice. Google al momento è il principale motore di ricerca della Rete; per poter cercare, però, ha bisogno prima di tutto di conoscere il contenuto della Rete: i nomi dei siti presenti, il contenuto delle loro pagine e così via. Per ottenere queste informazioni, Google utilizza alcuni programmi automatici, i bot (detti anche "ragni", per ovvia analogia con il Web), che eseguono un "censimento" della Rete: saltando da una pagina all'altra, ne copiano il contenuto e lo inoltrano a Google stesso. Una volta arrivato a destinazione, il contenuto delle pagine è indicizzato, ossia è catalogato nell'archivio di Google in base a elementi come argomento, parole chiave e così via. Quando noi eseguiamo una ricerca, Google sfoglia il contenuto del suo archivio e ci restituisce le pagine che più si avvicinano a ciò che noi staimo cercando, in base alle informazioni in suo possesso.
La cache è appunto l'archivio di Google, ossia il "luogo" in cui sono salvate le copie di tutte le pagine internet che ha indicizzato.
Questo archivo è aggiornato periodicamente, in modo da aver sempre sotto controllo tutto ciò che è pubblicato in Rete. Naturalmente, data la vastità della Rete, non sarebbe possibile controllare e aggiornare ogni ora il contenuto di tutti i siti, perché le pagine da controllare sono miliardi. Per questo motivo, i bot di Google controllano e aggiornano il contenuto degli archivi secondo un criterio abbastanza sensato: la frequenza degli aggiornamenti dipenderà dalla dimensione del sito, dal numero di visite che riceve, dalla quantità di nuove pagine che quel sito produce, eccetera. I siti più grandi, famosi e attivi saranno dunque visitati più spesso dai bot; i siti più piccoli e meno attivi, invece, saranno visitati di meno.
Per ogni pagina indicizzata da Google, la cache conterrà l'ultima versione che è stata copiata dai bot: più o essere dunque più o meno recente, a seconda di quanto spesso i bot visitano quel determinato sito. Talvolta la copia della cache è identica all'originale, talvolta invece la copia della cache è più vecchia dell'originale, se l'originale è stato modificato o aggiornato dopo l'ultimo passaggio dei bot. Guardando la copia cache di una pagina, dunque, potremo trovare o una versione identica di quella pagina, oppure una versione più vecchia. Questo cosa significa? Significa che, per esempio, se una certa informazione è stata rimossa dalla pagina originale di un sito, nella copia cache potrebbe invece esserci ancora, perché magari i bot di Google non hanno ancora avuto il tempo di aggiornarla. Ed è un dettaglio che non va trascurato, perché ci ricorda che in Rete nulla è mai distrutto per sempre.
La cache di Google ha però anche altri aspetti, che possono tornarci utili. Un aspetto lo abbiamo già visto: se qualche informazione è stata cancellata dalla pagina originale, potrebbe ancora esistere nella sua copia cache. Su scala più ampia, ci può permettere di recuperare le pagine di un sito che, nel frattempo, è stato rimosso dalla Rete: se Google lo aveva indicizzato, per un certo periodo potremo ancora accedere alla sua copia cache, anche se il sito è ormai defunto. Ancora: se un filtro web non è stato progettato con cura, possiamo aggirarlo usando la cache di Google, in modo del tutto lecito. E il motivo è semplice. Se un filtro ci impedisce di accedere al sito "pincopallino", noi possiamo raggiungerlo lo stesso visitando la copia conservata nella cache di Google: in questo caso, noi non stiamo accedendo al sito pincopallino, ma stiamo accedendo a Google, perché la copia si trova appunto negli archivi di Google. Non è proprio come usare un proxy, d'accordo, ma è una possibilità da tenere presente. Eccetera eccetera.

Come accedere alla copia cache di un sito? Beh, il sistema più semplice è quello di cliccare "copia cache", che troviamo in coda a ogni risultato di una nostra ricerca su Google. In alternativa, possiamo cercare direttamente la copia cache su Google: basta digitare cache: seguito dall'indirizzo del sito che ci interessa. Nella copia cache di una pagina, inoltre, è sempre indicata la data dell'ultimo aggiornamento: potremo così sapere subito a quando risale quella copia.

Aggiornamento - Dopo l'ultima modifica grafica di Google, non troviamo più il link "Copia cache" sotto ai risultati di ricerca: dovremo cliccare (o anche solo spostare il mouse) sulla freccia che compare a destra di ogni risultato, per vedere le voci "Copia cache", "Simili" e l'Anteprima della pagina.

20 commenti:

  1. Salve Adriano, grazie per i dettagli sulla cache di google, finalmente ci capisco qualcosa!! Posso chiederti un`informazione? Vivo in UK e ho da poco chiesto a un sito web che aveva pubblicato il mio indirizzo senza autorizzazione di rimuoverlo. Oggi ho notato che lo hanno rimosso ma e`ancora possibile vederlo dalla copia cache. Sparira`prima o poi o devo chiedergli di eliminare anche la cache?
    grazie in anticipo! vania

    RispondiElimina
  2. La cache la possiede Google, perché è la copia della pagina che ha salvato nei suoi archivi. Al massimo potresti chiedere a Google di rimuoverla, attraverso il centro di assistenza, ma non mi pare così necessario: le pagine sono aggiornate periodicamente, per cui al prossimo aggiornamento della pagina il problema si risolverà da solo, perché nella cache apparirà l'ultima versione, dunque senza il tuo indirizzo. Potrebbe volerci un po', se non è un sito molto visitato...

    RispondiElimina
  3. GRAZIE mille, ho richiesto a google di rimuovere la cache come mi hai detto ed e`sparita nell`arco di 24 ore!!! grazie ancora!!!!

    RispondiElimina
  4. Piu' Che Altro E' Sparita Per Tutti i Siti ;) hehe Ammaza Ti Hanno Preso In Parola Anonimo...

    RispondiElimina
  5. Effettivamente, da qualche giorno hanno modificato la grafica di Google: adesso, per accedere alle voci "Copia Cache", "Simili" eccetera, bisogna cliccare sulla freccia che appare a destra di ogni risultato.

    RispondiElimina
  6. ciao anch'io vorrei cancellare la copia cache del mio sito, ho fatto richiesta ed era stata cancellata pero' il giorno dopo e' tornata..come faccio ad eliminarla definitivamente? premetto che il sito l'ho rimosso.
    A chi devo rivolgermi e poi perche' torna???

    RispondiElimina
  7. Siccome la copia cache è conservata negli archivi digitali di Google, l'unico a poterla rimuovere è Google stesso.
    Se il sito era ancora accessibile in qualche modo, dopo la prima richiesta, è possibile che sia semplicemente capitato di nuovo nel percorso di uno Spider di Google, prima che sparisse del tutto, e per questo ne è stata salvata un'altra copia. Prova di nuovo a fare richiesta per la cancellazione, se adesso non ci sono più tracce del tuo sito online.

    RispondiElimina
  8. Grazie mille per il consiglio..ho fatto come mi ha detto, ho inviato un'altra richiesta ed e' sparita completamente la cache dai motori di ricerca!Grazie ancora..

    RispondiElimina
  9. Salve io ho avuto problemi con un post in un forum...dopo una segnalazione giustificata il forum ha eliminato e cmq bloccato la discussione ma ho notato che effettuando una ricerca su google tornavano fuori tramite le parole chiave fornite,le stesse frasi del forum.giustamente spiacevoli e quindi ho richiesto a google la rimozione cache ierisera.oggi ho letto che lo stato è su rimosso ma andando a verificare cè ancora...è possibile che ho sbagliato procedura oppure devo aspettare un po di tempo??se si quanto??grazie

    RispondiElimina
    Risposte
    1. Gli spider di Google passano periodicamente attraverso i vari siti, per raccoglierne una copia che sarà schedata nella cache. La frequenza del loro passaggio dipende anche dall'attività del sito, ossia ogni quanto è aggiornato e quanto è frequentato: è possibile dunque che occorra un tempo più o meno lungo, prima che nella cache compaiano gli ultimi aggiornamenti di un sito. In pratica, una pagina rimossa da un sito rimarrà nella cache di Google, fino a quando non passeranno di nuovo gli spider a esaminare quel sito, aggiornando la copia in loro possesso.
      Per accelerare la rimozione di un contenuto si può appunto inviare una richiesta di cancellazione a Google, ma anche in quel caso non è detto che accada subito e il tempo può essere proporzionale all'importanza del sito. Su un sito molto frequentato sparirà subito, su un sito sconosciuto potrebbe metterci più tempo. A ogni modo, per sicurezza si può sempre mandare un'altra segnalazione, che potrebbe servire ad accelerare un poco il procedimento.

      Elimina
    2. grazie per la risposta...sei stato chiarissimo!!il mio sito è aperto da un anno e non so esattamente la sua "frequentazione" pero ora seguo il tuo consiglio e mando un altra segnalazione nonostante lesito positivo della rimozione!!grazie ancora

      Elimina
  10. da quel che leggo mi pare di capire che, una volta che la pagina contenuta nella cache sia stata aggiornata, la versione precedente sparisce definitivamente.... o esiste un modo per recuperarla, e recuperare le istantanee più vecchie fatte da google di quella pagina?

    RispondiElimina
    Risposte
    1. Di norma, ogni nuova versione di una pagina sostituisce la versione precedente: la cache di Google ti mostra l'ultima versione di una pagina a cui i suoi spider hanno avuto accesso. Se le versioni precedenti siano cancellate o conservate, è una domanda a cui solo Google ti potrebbe rispondere di preciso; in ogni caso, non sono pubblicamente accessibili, che esistano ancora o meno.
      Puoi però tentare con Internet Archive, una specie di enorme biblioteca di internet, che conserva immagini di moltissimi siti, salvate in mesi e anni diversi:
      http://archive.org/web/web.php
      Non è aggiornato con la frequenza della cache di Google e non ha la stessa completezza, ma può essere utile se cerchi la versione di un sito in un determinato anno.

      Elimina
    2. grazie mille!!!! non conoscevo quel sito, l'ho provato ed proprio quello che cercavo! pagine vecchie di anni!!
      davvero molte grazie!

      Elimina
  11. Sono finito si questo articolo dopo una ricerca sul funzionamento e la frequenza di aggiornamento della cache. Volevo aggiungere che visualizzare la cache memorizzata su google, è anche utile per capire quali sono le parole chiave che google utilizza per la posizione nella serp, potendo quindi agire di conseguenza nel proprio sito.

    Se ad esempio cerchiamo il nostro sito con una determinata parola chiave, e poi visualizziamo la cache, noteremo in quale posizione della pagina google ha trovato la keyword che ha influito sul posizionamento.

    RispondiElimina
  12. Ciao a tutti, ho spostato un dominio da fastnom a yola, rimodellando completamente i contenuti del sito. Ora ho un problema piuttosto grave: dal mio computer e da quello di altri utenti che avevano visitato il vecchio sito, il nuovo non è accessibile. I browser mi scrivono che è impossibile contattare il server. Ho provato a eliminare la cache e i cooji del browser, o meglio dei browser, ma la situazione è rimasta invariata.
    Cosa posso fare ? Premetto che se digito il nome del dominio su google mi compaiono i risultati del vecchio sito, mentre quelli nuovi sono assenti. Sono 4 gg che la situazione è invariata.

    RispondiElimina
    Risposte
    1. Che un nuovo sito non compaia ancora nei risultati di ricerca è normale: se non ha grandi volumi di traffico, spesso ci vuole un po' prima che sia inserito nell'archivio di Google. Puoi comunque accelerare le cose, segnalando il sito a Google:
      www.google.it/add_url.html
      Per il resto, c'è un modo per raggiungere il nuovo sito, oppure è inaccessibile su qualsiasi computer, anche scrivendo il nuovo indirizzo nella barra degli indirizzi? Se non si riesce ad accedere al sito in alcun modo, sembra essere più che altro un problema di server...

      Elimina
  13. Novità: da oggi Google nella schermata dei risultati di una ricerca, non ha piu l'opzione "Copia Cache" le la freccia sulla destra di un risultato che visualizzava la finestrella della pagina del sito web cercato.
    Credo abbiano tolto tutto quando si sono resi conto che, cliccando "copia cache" e poi "solo versione testo" si poteva entrare in PirateBay e scaricare qualsiasi cosa uno volesse

    RispondiElimina
    Risposte
    1. La voce "Copia cache" c'è ancora, ma è nascosta: devi cliccare sul triangolino che trovi sotto il titolo del risultato e a destra dell'indirizzo. Almeno, per adesso c'è ancora. Pare un semplice cambiamento estetico, al momento, ma staremo a vedere come si evolverà: il blocco ai siti di Torrent, per adesso, riguarda principalmente l'Italia, ma se in futuro dovesse diventare di moda anche in altre nazioni, più "pesanti" sul piano internazionale, allora sì che il cambiamento potrebbe non essere solo estetico...

      Elimina
  14. a me interessa *copia cache* per evidenziare le parole che inserisco nella ricerca e vederle subito senza guastarmi la vista; *è una funzione utilissima per chi naviga molto*..da un po' di tempo non funziona + ..bene clicco sul triangolino, ma spesso escono i siti in 'pagina corrente' cioè senza le evidenzazioni colorate..non ho trovato niente di utile sul web.. ergo vado su yahoo e mando affanc.. google che sarà anche il motore più importante, ma mi ha rotto le palle (dovrei chiamare un tecnico per risolvere il problema, ammesso che lo sappia fare)

    RispondiElimina