16 dicembre 2008

Recuperare una pagina con la cache dei motori di ricerca - Un esempio

L'idea di questo post nasce da una richiesta di Giovanna Cosenza. Scrive infatti sul suo blog, a proposito del secondo video caricato da Mariastella Gelmini su YouTube:

"È vero che, nella settimana fra il primo e secondo video, era stata pubblicata una lista di FAQ, ma ora non c’è più (a proposito, qualcuno l’ha conservata? mi mangio le mani per non averlo fatto…) ed è stata sostituita dal copiancolla di un’intervista sul Giornale."

Confesso di non aver conservato l'opera (al momento non mi ero reso conto del suo valore storico/artistico) però ho trovato il modo di recuperarla dalla cache di Yahoo.

La procedura in questo caso è stata molto semplice:

1)scegliere un motore di ricerca. All'inizio ho provato con Google, ma aveva già rinfrescato la pagina. Sono passato a Yahoo: http://it.search.yahoo.com/

2) cercare la pagina, magari utilizzando il comando site:
site:it.youtube.com/mariastellagelmini
(scriverlo nella casella di ricerca)

3) poi cliccare su cache (non sempre presente, a volte il motore di ricerca non dispone di una versione della pagina in cache)

4) salvare la pagina, magari utilizzando screen grab (plugin firefox) -> tasto destro sulla pagina, Screen crab!, Salva..., Selezione...

Questo è il ritaglio della parte della pagina che nel frattempo era stata aggiornata:
(cliccare sull'immagine):

Le prime risposte di Mariastella Gelmini

Sei un appassionato? Di seguito c'è la versione testuale:

Le prime risposte alle richieste più frequenti nei commenti "Perché ho aperto il canale solo ora"?

Non è tanto semplice avere il tempo per progettare un canale, visto il tanto lavoro.
In questi 6 mesi sono stata molto impegnata a mettere in atto una serie di provvedimenti urgenti per la Scuola e per le Università.
Sono favorevole al dialogo, mi sono sempre confrontata con i giovani, con il forum degli studenti, ma ritengo che poi il governo debba prendersi la responsabilità di decidere.
Non sono qui per scaldare la sedia, è mia intenzione lavorare per migliorare la scuola, l'Università e la ricerca, e sono convinta che grazie a questo strumento sarà più facile tenerci in contatto e confrontarci sulle iniziative future.

"I commenti sono censurati"?

Mi spiace che alcune persone stiano dicendo che pratico la censura sul mio canale.
Non è così. Gli unici commenti che mancano sono quelli offensivi e volgari, che non hanno molto senso ai fini di un dibattito sereno.
Per il resto, come potete vedere, ci sono tutti, favorevoli e contrari.

"Fuga di cervelli"

Uno dei miei obiettivi principali è mettere un freno alla fuga dei cervelli all'estero per far sì che gli scienziati italiani più brillanti restino a lavorare in Italia.
Con il nuovo Decreto per le Università ci saranno 4000 nuovi ricercatori grazie al blocco del turn over elevato al 50% negli Atenei (questo non vale per i concorsi già banditi).

Anche gli enti di ricerca sono esclusi dal blocco delle assunzioni. Inoltre, delle possibili assunzioni presso le Università, almeno il 60% dovrà essere riservato ai nuovi ricercatori.
In particolare con un emendamento approvato al Senato ci saranno sgravi fiscali e aiuti economici per ricercatori di valore che sono all'estero e che vogliono tornare in Italia.

"Tagli scuola"

Forse non tutti sanno che il 97% del bilancio del Ministero è destinato a pagare stipendi e non ci sono soldi per l'edilizia scolastica, per la messa in sicurezza degli edifici, per l'innovazione, per la formazione degli insegnanti, per il merito, per aumentare gli stipendi, per le nuove tecnologie. Una scuola che investe per questi settori solo il 3% del suo bilancio non ha futuro.
In Italia il personale amministrativo e i professori sono 1 milione e 300.000. Secondo me sono troppi e mal pagati. Quello che vorrei è avere un numero di insegnanti adeguati al numero di studenti ma con stipendi più alti e più valorizzati come in Europa.

"Tagli Università"

Molti rettori hanno detto che nel 2010 le università si troveranno in difficoltà. E' vero che ci sarà una riduzione del budget, ma io chiedo a tutti voi e ad alcuni rettori: come sono stati usati i finanziamenti pubblici in questi anni? Spesso per aumentare il numero dei corsi di laurea inutili, delle sedi distaccate e per una proliferazione di cattedre che non ha eguali nel mondo.
E' necessario partire da una profonda autocritica per individuare ed eliminare sprechi e privilegi.
Comunque con il decreto le Università con una spesa per il personale troppo elevata (più del 90% dello stanziamento statale) non potranno effettuare nuove assunzioni. Inoltre ci saranno più finanziamenti per le Università con offerta formativa migliore, con progetti di ricerca di qualità e con le didattiche più adeguate.

04 dicembre 2008

Cosa significa versione Beta e versione Alfa

Il collaudo Alfa 
Appena un software è stato costruito, prima di rilasciarlo fuori dall'azienda, viene normalmente sottoposto a un collaudo interno all'azienda. Tale procedura viene chiamata "collaudo Alfa" (in inglese, "Alpha testing").

Il collaudo Beta 
Spesso, quando un prodotto ha superato il collaudo Alfa, viene rilasciato all'esterno dell'azienda ad alcuni clienti selezionati o anche a tutti i clienti, avvertendo gli utenti che il prodotto rilasciato potrebbe non essere di qualità elevata e probabilmente richiede ulteriori correzioni. Tale versione viene detta "versione Beta".

Release candidate
La release candidate, nell'ambito della realizzazione di un progetto informatico, è una particolare versione del software che prelude al rilascio di quella finale e stabile.


Da cui SeoAlfa: un Seo in versione Alfa

PS: La figura professionale specializzata in ottimizzazione è il SEO (search engine optimizator, ottimizzatore per i motori di ricerca). Con il termine ottimizzazione si indica la complessa attività di strutturazione dei contenuti delle pagine web di un sito, allo scopo di facilitarne la lettura da parte dei motori di ricerca.
L'ottimizzazione è parte di un'attività più complessa, quale il marketing dei motori di ricerca (Search Engine Marketing, SEM).

09 gennaio 2007

Sitelinks

Argomento: Sitelinks.
  • Cosa sono? Sono dei link visualizzati da Google
  • Dove si trovano? Sotto alcuni risultati di ricerca
  • A cosa servono? Ad aiutare gli utenti a navigare nel sito fornendo delle scorciatoie
  • Perchè sono stati introdotti? Per consentire agli utenti di risparmiare tempo e di trovare rapidamente le informazioni che cercano
  • Come funzionano? Vengono prodotti in modo completamente automatico quando Google trova buoni link tra quelli presenti nella struttura del sito
  • Quando vengono visualizzati? Solo quando Google ritiene che siano utili per l'utente

Questi sono i dati ufficiali.

Le principali conseguenze sono:

  • uno strano effetto dopante fornito da Google al destinatario del servizio
  • il disorientamento sull'argomento da parte del mondo SEO
  • una strana impressione di come la comparsa dei sitelinks comunichi, involontariamente, più di quanto voluto.

L'effetto dopante. L'utente che si trova di fronte ad un sitelink rimane talmente colpito dalla sua potenza dal rimanere in un primo tempo estasiato, poi in stato ipnotico, con la conseguenza di essere alla fine meccanicamente spinto a cliccare su questa meraviglia con percentuali che, secondo una statistica da me inventata, risultano essere superiori al 97% rispetto a qualsiasi altro link o diavoleria web. Alcuni studi condotti a distanza di tempo dalla prima esposizione al backlink, confermano come l'immagine del sito diventi così forte da rimanere impressa nella mente dell'individuo per tempi paragonabili al ricordo di una forte martellata su di un dito. Del resto il sitelink comunica più o meno: "Caro utente, per quello che cerchi ti fornisco un primo risultato che, come puoi vedere, è un super portale molto ricco e apprezzato. A si, di seguito puoi trovare le solite paginette."

Il disorientamento SEO. I sitelinks sembrano essere il risultato di una selezione naturale di alcuni esperimenti fatti da Google in merito al miglioramento delle informazioni fornite agli utenti. Dopo vari tentativi hanno preso il formato attuale. Molti degli interventi SEO su come riuscire ad ottenerli hanno portato alla formulazione di consigli perlomeno risibili fondati su visionarie interpretazioni basate sui modelli tradizionali:
"Il sito deve avere una chiara e valida Link Popularity."
"Il sito deve assolutamente avere link autorevoli, affidabili e di qualità."
"Le pagine listate sono scelte dall’algoritmo sulla base della link popularity."

I Sitelinks segnalano la comparsa di algoritmi completamente nuovi basati sull'analisi automatica dei comportamenti degli utenti, cosa che pochi SEO sembrano aver intuito. Almeno da quanto si evince da questo approfondito studio di Ultra Tasted sui sitelinks. Prendendo come esempio un sito senza una struttura particolare, con basso PR, non particolarmente etico e autorevole e nonostante questo molto visitato, Ultra Tasted deduce che:

  • I sitelinks NON dipendono dall'uso di un layout semantico.
  • I sitelinks NON dipendono da un alto PR.
  • I sitelinks NON dipendono dall'etica e dall'autorevolezza

successivamente commenta su ABC Motori di ricerca:
[...] Comunque, recentemente è stato reso pubblico il brevetto dei sitelinks di Google, nei quale si afferma che -come in tempi non sospetti avevo già pronosticato sul mio blog (non metto il link perchè non spammo, IO) tutto dipende dalle ricerche degli utenti, dai dati della toolbar (yuppi! allora è vero), e, in minima parte, dalla struttura del sito.
Quanto alla struttura del sito, non è necessaria un html semantico o particolare, basta un semplice html 4.01 a tabelle. L’importante è che non sia un sito tutto in Flash.
Ultra. [...]

Ripeto, per chi non avesse capito, la sintesi della sintesi di come funziona l'algoritmo dei sitelinks di Google:
"tutto dipende dalle ricerche degli utenti, dai dati della toolbar e, in minima parte, dalla struttura del sito"

Finalmente, poi, approdo sul post di seobythesea Google’s Listings of Internal Site Links for Top Search Results citato anche da Marco Ziero in Visualizzazione dei link interni dei siti ai primi posti su Google dove trovo un'ottima analisi che interpreta, mantenendosi fedele allo stesso, il recente brevetto di Google. Da notare che il brevetto non si limita a descrive l'attuale implementazione, in quanto è stato volutamente esteso per includere possibili futuri sviluppi.

Dato che ne ho lette troppe a riguardo, decido che è il caso di impegnarsi nella lettura del brevetto in originale (lettura peraltro molto istruttiva). La parte che ritengo centrale indica come l'algoritmo si può basare sull'analisi dei dati presenti nei sistemi di memorizzazione dei log chiamati "Log data storage 320". Nel punto [0036] del brevetto viene descritto come questi sistemi di memorizzazione possono memorizzare i dati relativi agli accessi alle pagine web e/o ai siti. Possono memorizzare il numero di volte che una pagina viene visitata. Inoltre possono memorizzare per ogni pagina, una tabella dei link in uscita e per ogni link i dati relativi al numero di accessi, la permanenza media sulla pagina, nonchè un indice del possibile acquisto di un prodotto della pagina.
Insomma, i log data storage possono contenere una statistica completa delle visite.

Punto [0036] del brevetto originale con evidenziati i passi interessanti:
[0036] Log data storage 320 may store data associated with clients' 110 access of various web pages and/or sites. For example, log data storage 320 may include information representing web pages that have been accessed by clients 110, such as hyperlinks associated with the web pages. Log data storage 320 may also store information indicating a total number of times each of the web pages corresponding to the hyperlinks have been accessed by clients 110 and/or an amount of time (e.g., average) clients 110 have stayed on each of the web pages. Log data storage 320 may further include information representing the number of links (e.g., from various other web pages) that point to each particular web page identified in log data storage 320. Alternatively, or in addition to the information described above, log data storage 320 may include information indicating whether a typical client 110 scrolled through the web pages identified in log data storage 320 or linked out of the web pages without scrolling. In still further alternatives, or in addition to the information described above, log data storage 320 may store information retrieval scores associated with each web page identified in log data storage 320, where the information retrieval score indicates how closely a particular search query matches information on the web page. In still other alternatives or in addition to the information described above, log data storage 320 may store information identifying the likelihood that a typical client 110 will make a purchase associated with an item displayed on a web page. The likelihood that a purchase will be made may be provided by an entity (e.g., a company) associated with the particular web page or may be provided from user logs. In each case, the information stored in log data storage 320 may be used to determine a quality measure associated with a number of web pages in a particular web site, as described in more detail below.

La strana impressione. Penso che questa storia dei sitelinks faccia emergere molto bene, forse oltre quanto previsto, quelle che sono le possibilità di tracciare il comportamento degli utenti e di determinare, proprio in base a tale comportamento, importanti informazioni sulla reale utilità delle pagine visitate. Informazioni dirette, ottenute dal comportamento degli utenti.
Se fino ad oggi contavano la struttura, i contenuti e la popolarità, i sitelink insegnano che da domani conteranno anche i comportamenti.

  • ai primordi c'erano i Meta Tags
  • poi c'è stata la svolta del PageRank
  • attualmente c'è il tentativo di valutare i contenuti
  • il futuro è nei comportamenti dei visitatori

17 novembre 2006