|
|
|
|

« Calciomercato? Sogno di manga e di tatuaggi.Parto per l'agriturismo con alitalia | Main | Una Rete da salvare: free deep link »

Capitano Google, c'e' un bug nel PageRank!

Google valuta troppo la blogness e ha una eccessiva opinione della freshness delle pagine.
Quello che segue è un articolo tecnico, ma non troppo, dove, senza rancore e con molta stima, intervengo sulla questione della democraticità di Google da un punto di vista tutto mio: quello di uno che ha troppa visibilità.

Anche Google sbaglia e con il mio articolo "civetta" sul calciomercato, tutto infarcito di keyword voglio proprio dimostrarvi questo. Ma vediamo come Google può sbagliare. Perché Google può sbagliare, ma di solito non lo fa.

Mr. Anti-Google, così come è stato chiamato su un articolo di Salon che è poi stato slashdottato ed è stato ripreso in Italia anche da massimo e paolo, fa diverse critiche a Google. I suoi attacchi sulla privacy non mi interessano, nè ho cura del suo sproloquio sulla demagogia del sistema di indicizzazione, ma la sua critica alla tecnologia PageRank non mi sembra del tutto sbagliata.

Mr. Anti-Google ce l'ha con Google perché ritiene che uno dei suoi siti (namebase) non sia tenuto abbastanza in considerazione da Google. Molti credono che quindi il tipo sia solo rancoroso perché non ha visibilità.

>skip intro invece di visibilità su Google ne ha pure troppa. Avevo scritto qualche tempo fa un articolo interlocutorio sulla questione. Con questo articolo vorrei mettere un po' di puntini sulle i e analizzare in profondità i meccanismi del PageRank.

Questo sito ha troppa visibilità su Google? Sì, vi porto due esempi. Se cerchi su Google "c'è posta per le br" >skip appare prima di Panorama (almeno in questo momento). Il secondo esempio forse è meno eclatante ma che fa riflettere: se cerchi con la parola "google" su Google nelle pagine italiane >skip intro appare come decimo risultato.

Stiamo al primo esempio. Tutti quanti dicono che il PageRank lavora principalmente sulla popolarità di un sito in base al numero di link che vedono quel sito come destinazione. Falso! O almeno non completamente vero.

Panorama ha sicuramente più link di >skip intro. Per dimostrarlo basta interrogare Google. Ben 2,760 pagine hanno un link al sito di Panorama, appena 264 portano invece a >skip intro.

Allora quali sono i parametri che valgono? Ve li intabello per chiarezza indicando per ciascuno quale "valore" ha nel calcolo del PageRank. Per valore indicherò un Alto/Medio a seconda dell'impatto che un parametro può avere nei risultati della ricerca.

Parametro Descrizione Valore
In-link o Link Pop Un link che porta al sito (home page o anche singola pagina) può aumentare la "credibilità" della tua pagina agli occhi di Google. E' la grande innovazione introdotta da Google nell'arena dei motori di ricerca. Ovviamente il meccanismo è più complesso di così visto che ogni pagina ha un suo peso i link avranno pesi diversi a seconda dei siti da cui partono. Medio/Alto
keyword La presenza e la ripetizione delle parole chiave ricercate, in particolare nell'area dedicata ai contenuti (Google analizza la pagina HTML in cerca dell'area in cui ci sono i contenuti per distinguerla dall'area dove ci sono i box "di servizio". Non sempre ci riesce). Presenza della keyword nel tag "title" dell'HTML oppure nella URL della pagina, dominio compreso. Alto
link keyword Vale come keyword la parola o la frase con cui viene solitamente linkato il tuo sito. More info: Google-bombs Medio/Alto?
Open Directory Se un sito è inserito nell'Open Directory potrebbe avere un ranking più alto. Dico potrebbe perché non ho mai sperimentato direttamente il fenomeno, ma molti mi confermano che è così. ?
User rating Sulla Google Toolbar ci sono due nuovi tasti, uno con una faccina felice, una con una faccina triste, che permettono agli utenti di "valutare" una pagina web. Non so in che modo vengano raccolti e pesati questi voti. ?
blogness Per blogness intendo lo status di blog. Se sei un blog hai una marcia in più per Google e, soprattutto, puoi essere privilegiato con la "visita quotidiana" (che non è comunque privilegio esclusivo dei blog, ma di molti siti "importanti" e molto aggiornati) che aumenta la tua "freshness" Medio
freshness Se sei trai siti che hanno un ranking maggiore c'è la possibilità che Google ti visiti molto di frequente mettendo in indice copie sempre aggiornate del tuo sito. Visto che Google è stato aspramente criticato perché l'11 settembre sul suo indice non c'era alcun riflesso degli eventi delle torri gemelle in questo momento la quotazione della freschezza di un pagina è altissima. Troppo alta. Alto

Allora qual è la situazione per Google sul primo esempio? Panorama ha dalla sua parte più In-link, però la keyword è posizionata male, la sua pagina non è fresh e non è un blog. Da parte mia invece il mio sito non avrà più In-link, ma ha le keyword nei punti giusti e ripetute più volte (e questo per il mio stile di scrittura che non teme le ripetizioni e odia le perifrasi), ma soprattutto ha una blogness e una freshness molto alte.

Allora Google si sbaglia. Ma anche Mr. Anti-Google si sbaglia perché lui dice che a pesare tutto con gli In-link si penalizzano certi siti. Ma nella ricerca dell'articolo di Panorama il vero problema è che, a furia di rinfrescare il suo indice, Google non ha tempo di calcolare gli In-link. Come lo so? Basta chiedere i "collegamenti precedenti" (così li chiama la Google Toolbar) per la l'articolo di >skip su Panorama e la pagina di Panorama sulle presunte BR in Rete. Risultato: 0 in link per tutti e due. Sarà pur vero che nessuno ha linkato il mio articolo. Di link all'articolo di Panorama invece ne ho trovati parecchi!

Quando Google avrà tempo di calcolare gli in link vedrete bene scendere in graduatoria la mia paginetta e risalire quella di Panorama, complice anche il fatto che lentamente la mia pagina perderà la sua freshness.

Insomma l'errore c'è, ma è solo temporaneo.

Sul secondo esempio non vi dico niente che a furia di linkare e verificare quello che scrivo mi è venuto mal di testa.

Vorrei concludere dicendo che credo in Google e nella gente che ci sta dietro. Credo che l'attuale "deviazione" dell'indice che porta le pagine fresche più in alto delle pagine più "rilevanti" e più "linkate" sia solo un problema momentaneo e che nel GooglePlex si lavori anche per questo. E non lo dico con il rancore di chi non appare mai trai primi risultati, lo dico con lo stupore di chi ci finisce sempre e non sempre se lo merita.

Comments

Re: Capitano Google, c'e' un bug nel PageRank!
Nella tabella dei parametri che valgono per essere "trovati" aggiungerei:
1) Con quali parole sei linkato. Sperimentato personalmente con successo su un sito non mio.
2) La presenza delle parole nell'url.

Sergio

Re: Capitano Google, c'e' un bug nel PageRank!
mah, nel caso di lulop.com credo che valga solo la blogness della pagina e nient'altro. Mi spiego:

lulop non è sulla open directory (da server log risulta che ci hanno consultato per un mesetto e poi ci hanno schifato)

è un sito completamente automatico per cui headers e url non aiutano ad aumentare il ranking (cose tipo /site/download/364_video.php)

ha un numero di link in entrata e in uscita assolutamente ridicolo

è vero che aggiorniamo in continuazione per cui potremmo concludere che è la freshness che conta, ma poi penso: ma google ci indicizza una volta al mese ...

poi non indicizza i livelli sottostanti, anche se sono permalink, o meglio indicizza quelli statici ma non quelli dinamici, cioè i video caricati in tempo reale dai reporter, quindi la "freshness del sito" se la perde, becca solo quella della home

quindi, gli piace solo la blogness della home ! a noi va bene così, però il popolo di internet si perde tutti i preziosi permalink a video originali, che escono da google quando escono dalla home

aggiungo, su certe ricerche ci facciamo tutti: provate yasmine bleeth wedding (quella di baywatch che si è appena sposata con un altro tossico) personaggio minore, ma pure secondi su 23,000, invece dodicesimi su "jamie lynn spears", la sorella di britney (si, lo so, ci siamo buttati sui contenuti impegnati)

e questo per fare da rasoio di occam sull'analisi di matteo

"it s the blogness, stupid"

ciao

lulop1

Re: Capitano Google, c'e' un bug nel PageRank!
Grazie Sergio, me ne ero dimenticato, li ho inseriti nell'articolo.

matteoc

expiration?
Ho notato che l'header delle pagine di lulop c'è un . Forse è quello che impedisce a Google di memorizzare anche le pagine interne, con quello dici che la pagina è "vecchia" nello stesso istante in cui la carichi...

Magari mi sbaglio, specie perché l'expire si riferisce alla cache del browser che carica la pagina e non credo che Google lo interpreti ai fini del suo indice, ma comunque su una pagina che è stata archiviata e che è su un permalink un expire non avrebbe comunque senso.

Può essere una traccia...

matteoc

Re: Capitano Google, c'e' un bug nel PageRank!
Vorrei dire qualcosa sulla questione, secondo la mia modestissima esperienza:

A ben guardare credo che la cosa piu' importante per stare in alto nel page-ranking di Google sia la presenza nella directory. In questo caso l'indicizzazione del motore e' quasi intelligente: se proviamo a cercare "Guerre nel mondo" vediamo che noi di Warnews.it usciamo primi della lista, perche' siamo un sito molto specializzato e presente nella directory.
Ma se la gara e' tra pagine che non sono nella directory le cose cambiano, e Google torna ai metodi classici dei motori di ricerca.

Secondo la mia esperienza io dico che la prima cosa che conta è la presenza delle keywords nel titolo della pagina: per fare un esempio(ma ne potrei fare molti) quando google ha indicizzato per la prima volta la nuova versione di Warnews le pagine interne della vecchia versione uscivano sempre piu' in alto di quelle nuove, pur essendo evidentemente meno fresche.

Questo semplicemente perche' la nuova versione utilizza un sistema in Perl che crea le pagine "on the fly" e usa un unico titolo per tutte le pagine interne, mentre nella vecchia versione mettevamo noi dei titoli precisi secondo gli argomenti.

Quindi cercando ad esempio "Guerra in Uganda" usciva prima la pagina vecchia ,che aveva le keywords nel titolo, mentre la nuova ha un titolo generico ( Warnews.it - notizie...) e quindi rimaneva indietro.
Il ranking e' cambiato solo dopo piu' di un mese, con l'inserimento nella directory della nuova versione, pero' ancora oggi le pagine vecchie hanno una ottima visibilita' su Google per via dei loro titoli.

Insomma Google fa la cosa piu' semplice, controlla nell'ordine: Il titolo, la presenza nella directory, la presenza e la frequenza delle keywords nel testo, la freschezza. Poi utilizza senz'altro anche altri parametri ahime' sconosciuti a noi comuni mortali.

Google ha rivoluzionato il mondo dei motori di ricerca per l'incredibile velocita' e per la capacita' di indicizzazione ma usa meccanismi di ranking molto classici (anche piu' tradizionalisti di quelli dei suoi concorrenti ormai contaminatissimi dai link sponsorizzati).

Forse siamo noi webmaster che abbiamo cambiato atteggiamento: una volta lavoravamo in funzione delle esigenze dei motori, oggi arriviamo a pretendere che siano i motori ad adeguarsi al nostro lavoro.

Ciao a tutti.

Paolo
www.warnews.it

Cos'è successo a google?
Fino a pochi giorni fa ero al primo posto e adesso mi ritrovo in 18° posizione?

CIAO! --Franco--

Nell'articolo sono presenti alcune inesattezze.
Google spiega molto bene come funziona il PageRank.
Ai fini del calcolo del PageRank non esiste il concetto di sito bensì quello di pagina.
Il peso di un link è dato dal PageRank della pagina di partenza diviso il numero di link che contiene.
Inoltre la funzione "collegamenti precedenti" non mostra tutte le pagine che linkano ad una pagina, ma solo quelle che hanno un page rank sufficientemente alto (da 3 o 4 in su)

Secondo la mia esperienza la cosa veramente importante per il posizionamento su Google è il titolo.
Tutto il resto passa veramente in secondo piano, il pagerank stesso.
All'interno del titolo poi è fondamentale anche la posizione delle parole, l'ordine e la percentuale di ripetizioni di una keyword rispetto al numero totale di parole (sempre senza esagerare)
Ultimamente sta diventando importantissimo l'URL (dominio, nome delle cartelle e nome del file).

Per quanto riguarda il pagerank, non sono per niente convinto che sia importante per il posizionamento, ottengo risultati strabilianti su pagine con pagerank 0.
Nonostante questo però faccio salti mortali per poterlo aumentare...

Un'ultima cosa ho notato che le pagine asp con parametri numerici (tipo index.asp?Codice=23)
rimangono con pagerank 0 anche se sono linkate dall'homepage con pagerank 4. Vi risulta che i parametri numerici influiscano negativamente sul pagerank?

Ciao
Massimo

Fino a circa una settimana fa cercando Stefano Andreoli il mio sito compariva al quarto posto della prima pagina o al primo posto della terza (saltuariamente, spesso anche a distanza di pochi minuti). Ora è alla ventesima, ventunesima pagina...
Vorrei sapere secondo voi da cosa è dipeso questo "scivolone"

insomma, bisogna andare per tentativi ?

Post a comment

(If you haven't left a comment here before, you may need to be approved by the site owner before your comment will appear. Until then, it won't appear on the entry. Thanks for waiting.)


Creative Commons License
This weblog is licensed under a Creative Commons License.