04 Tipi di
informazioni ricavabili dalle statistiche di traffico
- Ad impression
- Nel linguaggio della pubblicità in Rete, si conta una
impression ogni volta che un banner viene caricato in una pagina web. Poiché
in una singola pagina può essere contenuto più di un banner, il numero di
impression – registrato in un apposito file - è in genere superiore al numero
delle pagine servite. Tuttavia è erroneo associare alla registrazione di una
impression l’idea che il banner corrispondente sia stato effettivamente visto
dall’utente che ha richiesto la pagina: non esiste infatti un modo per sapere
se, ad esempio, l’utente ha attivato la visualizzazione delle immagini nel
proprio browser oppure se ha scorso la pagina fino alla fine (nel caso che il
banner si trovi al di sotto di ciò che lo schermo gli mostra inizialmente).
-
- Average page view duration
- È il tempo medio speso da un utente unico su una
singola pagina del sito. Può essere calcolato in due modi:
-
o dividendo il tempo complessivo speso da un utente sul sito per il numero di
page view registrate per quello stesso utente nel periodo considerato (ad es.
un giorno)
-
o facendo la stessa operazione, ma con la differenza di considerare solo le
page view la cui durata sia inferiore al
timeout di sessione impostato. In
questo secondo caso, se il timeout è ad esempio di 30 minuti, una richiesta di
pagina a cui non ne seguano altre da parte dello stesso utente per oltre 30
minuti viene scartata: si considera cioè come una pagina che l’utente non sta
più guardando.
-
- Average page views per visit (o per user session, numero medio di pagine viste
per visita)
- Il valore si ottiene dividendo il numero complessivo di pagine
richieste da un utente unico per il numero di
visite effettuate da
quell’utente nell’arco di tempo considerato. Incrociando i dati ottenuti per
questo parametro con quelli relativi al tempo medio per visita, è possibile
ipotizzare il comportamento-tipo degli utenti del sito. Ad esempio, una media
di poche pagine viste per utente, accoppiata ad una lunga durata media delle
visite registrate, potrebbe indicare che i visitatori del sito trovano con
relativa facilità ciò che stanno cercando e leggono a fondo i contenuti
reperiti. Viceversa, una media di molte pagine viste in rapida successione nel
corso di poche e brevi visite potrebbe indicare che la struttura del sito è
caotica, che gli utenti non riescono a trovare ciò che stanno cercando e che
perciò non sono invogliati a ritornare.
Naturalmente queste supposizioni devono essere avanzate a ragion veduta: cioè
facendo la tara di tutti i possibili fattori di incertezza dei dati statistici
rilevati.
-
- Average time per visit (o average session duration)
- È il tempo medio speso
da un utente unico per una visita al sito. Il valore si ottiene dividendo il
tempo complessivo speso dall’utente sulle pagine del sito nel periodo
considerato per il numero di visite che ha effettuato nello stesso periodo di
tempo.
Poiché il numero di visite effettato da un utente unico in un certo arco di
tempo dipende dal parametro arbitrario della durata di sessione (cfr. la voce
session timeout), è evidente che anche la durata media di una visita risulta
influenzata dal valore assunto da questo parametro.
-
- Browser used (Browser usati)
- È la classifica espressa in valori percentuali dei browser utilizzati
dagli utenti che si collegano ad un sito. Questa informazione è utile
soprattutto ai responsabili tecnici, per tarare al meglio la struttura delle
pagine e la presentazione dei contenuti, in modo che siano navigabili per
mezzo di ciascuno dei vari tipi di browser che risultano presenti in questa
classifica. Se, ad esempio, analizzando l’elenco dei browser utilizzati, si
scopre che una discreta percentuale di visitatori utilizza un browser non
compatibile con alcune soluzioni tecniche implementate sul sito, sarebbe
opportuno ricalibrare le pagine in modo da renderle accessibili anche alla
fetta di utenza penalizzata dalle precedenti scelte tecniche.
Va comunque precisato che la verifica pratica di quali tipi di browser si
colleghino alle pagine di un sito non dovrebbe aver alcuna importanza, se
quelle pagine sono state codificate fin dall'inizio nel rispetto dei linguaggi
standard per il Web definiti dal W3C.
-
- Click rate
- È il rapporto percentuale tra il numero di volte che un utente ha
fatto clic su un banner presente su una pagina web ed il numero di volte che
quel banner è stato caricato. È cioè il rapporto percentuale tra
click-through
ed impression. Un click rate del 5% significa, ad esempio, che un banner ha
ricevuto 5 clic per ogni 100 richieste di caricamento registrate.
- Click-through
- È il numero di volte in cui un utente fa clic su un banner
pubblicitario presente su una pagina web, collegandosi in tal modo al sito
dell’azienda che vende il prodotto o il servizio reclamizzato dal banner.
-
- Hit (richiesta di accesso)
- Costituisce un hit qualsiasi richiesta di
file pervenuta ad un server web. Così, se una pagina web è costituita da un
file HTML e da sei immagini, la visualizzazione completa all’interno della
finestra di un browser sia della pagina sia delle immagini in essa contenute
corrisponderà alla registrazione di sette hit nell’apposito
file di log del
server. Un equivoco comune, soprattutto in passato, consisteva nel confondere
le richieste di accesso con le pagine realmente caricate: un numero,
quest’ultimo, che è in realtà quasi sempre nettamente inferiore al numero di
hit registrato.
- Hourly (daily,
weekly, monthly, yearly)
pages count
- Un grafico o una tabella
(1) che mostra la distribuzione oraria delle page view registrate nell’arco di una
giornata (o la distribuzione giornaliera nell’arco di una settimana oppure di
un mese, o la distribuzione mensile nell’arco di un anno solare).
- Least requested, o popular,
pages (pagine meno richieste)
- È il complemento
del parametro most requested pages, è cioè la classifica delle pagine meno richieste
di un sito in un certo arco di tempo. Lo studio di questa classifica è utile per
cercare di capire se i pochi accessi registrati per alcune pagine dipendono da
contenuti non interessanti o dalla scarsa visibilità di quelle risorse
nell’economia generale del sito.
-
- Most common countries
- È l’elenco in ordine decrescente delle nazioni da cui
proviene il maggior numero di accessi ad un sito.
- Most common operating systems
- È la classifica espressa in valori percentuali dei sistemi operativi
più utilizzati. Scorrendo i risultati forniti da questi resoconti si ha di solito
la riprova di quanto sia schiacciante il monopolio ormai raggiunto dalla
Microsoft (2).
- Most requested pages (pagine più richieste)
- È la classifica, in ordine
decrescente, delle pagine che hanno ricevuto più contatti in un determinato
arco di tempo. In base ai filtri impostati, possono essere considerati in
questo elenco alcuni tipi di file – ad es. HTML e ASP – e non altri. È utile
comunque, per i tecnici e per i responsabili editoriali di un sito, considerare
attentamente la classifica delle pagine più richieste, sia per correggere
eventuali problemi di natura tecnica - come un sovraccarico del server
web dovuto ad errori di programmazione – sia per correggere problemi di struttura
logica del sito: alcune pagine, ad esempio, potrebbero essere al vertice della
classifica delle più richieste non per i loro contenuti, ma perché sono delle
strettoie obbligate da cui passare per raggiungere determinati altri
contenuti; altre pagine, al contrario, potrebbero ricevere pochi contatti
soltanto perché non sono state rese sufficientemente visibili agli utenti
(vedi least requested pages).
-
- Page views (pagine viste)
- Il numero di pagine viste su un sito è forse
l’informazione più importante che le statistiche web possano fornire, ma è
anche l’informazione di gran lunga più ambigua e difficile da determinare, sia
per la difficoltà di definire univocamente cosa sia una pagina sia per
l’impossibilità oggettiva di conoscere il rapporto preciso tra pagine servite
e pagine caricate da un utente umano (a causa dell’interferenza di
numerose variabili quali proxy,
NAT, cache locali,
spider, ecc.).
L’oggetto principale registrato da un server web come una pagina è il file HTML,
che contiene le chiamate a tutti gli altri oggetti – immagini, suoni, elementi
multimediali, ecc. – che servono a completare quell’entità piuttosto astratta
che è la “pagina”. Ma non solo i file HTML hanno
diritto ad essere considerati “pagine”: anche i file cosiddetti “dinamici”,
cioè quelli che contengono elementi di programmazione in grado di generare
contenuti differenti a seconda dei casi, sono a buon diritto da considerarsi
“pagine”. Rientrano in questa categoria i file con estensione ASP
,
PHP
, PHP3
, PL
e
simili. Ma possono rientrarvi – ed è una scelta dell’amministratore di rete
impostare di conseguenza opportuni filtri sul server – anche i file TXT
, i file
RTF
, i file DOC
, i PDF
ed altri ancora.
Insomma: non è per niente semplice creare una categoria astratta chiamata
“pagina”, che comprenda alcuni tipi di file e ne escluda altri e che fornisca,
allo stesso tempo, un parametro attendibile per la valutazione del numero di
pagine viste da utenti umani (3).
Tale ambiguità, unita all’impossibilità di determinare quanti esseri umani vi
siano effettivamente dietro ciascuna chiamata di pagina ricevuta da un
server web, dovrebbe far comprendere quanto siano aleatorie le valutazioni
effettuate sulla base del numero di page view riportato dai programmi che
analizzano i file di log.
Soprattutto va tenuto presente che la comparazione delle page view registrate
per due o più siti differenti può essere un’operazione dai risultati molto
poco attendibili: infatti, pur ponendo come uguali gli strumenti di
rilevazione del dato e i filtri impostati, la struttura dei siti - in termini
di composizione delle pagine e di oggetti in esse presenti o da esse
richiamati – può essere motivo sufficiente per generare, nel numero di page
view rilevato, uno scarto nettamente superiore (o nettamente inferiore) alla
reale differenza nella quantità di pagine viste da visitatori umani su
ciascuno di essi (4).
In definitiva, per dare sostanza ai meri dati numerici dei log relativi alle
page view, occorre, più che in altre circostanze, lo studio approfondito di
ogni singolo caso: non basta leggere la nuda serie dei numeri, ed è erronea la
supposizione – ammesso che qualcuno la abbia - di avere a che fare con
informazioni precise ed affidabili sui visitatori umani del proprio sito.
Infine una notazione che ha a che fare con l'accessibilità: il fatto
che i sistemi di rilevazione statistica parlino comunemente di pagine
viste piuttosto che di pagine caricate, fa comprendere quanto
sia ancora forte e radicato il preconcetto che una pagina, per essere
fruita da un utente, debba essere necessariamente esplorata con gli occhi.
-
- Request By Organization Type
- È la classifica in valori percentuali delle richieste di
accesso ad un sito, ordinate in base al tipo di dominio da cui parte la
richiesta (COM, NET, ORG, MIL, EDU, GOV, identificativi nazionali).
-
- Single access pages
- È la classifica delle pagine uniche più richieste,
visitate in un certo intervallo di tempo. Si tratta cioè di quelle pagine che,
per motivi che i responsabili di un sito dovrebbero studiare a fondo, suscitano
l’interesse degli utenti, ma allo stesso tempo non li invogliano a proseguire
la visita appena iniziata. Potrebbe trattarsi di pagine con contenuti chiusi
in se stessi (ad esempio una serie di collegamenti o una recensione),
referenziate da altri siti. In questo caso andrebbe studiato il modo per
indurre il visitatore a continuare la navigazione all’interno del sito, ad
esempio inserendo nelle pagine “incriminate” dei collegamenti ad altre sezioni
con contenuti affini.
-
- Top directories
- È l’elenco in ordine decrescente delle directory (in genere
solo quelle di primo livello) che hanno ricevuto complessivamente più
richieste di accesso dagli utenti collegati. Questa classifica tende a dare un’idea
dell’importanza reciproca delle sezioni in cui è suddiviso un sito. Perché
questo resoconto abbia un qualche valore conoscitivo, occorre che la struttura
logica del sito sia stata progettata in modo razionale, raggruppando i vari
contenuti, in base alla loro omogeneità, sotto apposite directory.
-
- Top entry pages
- È la classifica in ordine decrescente delle pagine iniziali
più richieste per ciascuna visita al sito registrata in un certo arco di
tempo. Normalmente al vertice di questa classifica c’è la home page. Se così
non è, diventa importante identificare i motivi per cui altre pagine
funzionano meglio della home page come ingressi al sito. Ciò può essere fatto,
ad esempio, analizzando i referrer log, cioè i dati sulla provenienza delle
visite, per capire se e da quali altri siti sono referenziate le pagine che si
trovano al vertice della classifica delle top entry.
- Top exit pages
- È la classifica in ordine decrescente delle pagine più
richieste in un certo arco di tempo come pagine finali di una visita
ad un sito.
È, in altre parole, l’elenco delle pagine che sembrano più di tutte invogliare
l’utente ad interrompere una visita in corso. Anche qui è importante uno
studio approfondito, allo scopo di capire cosa c’è in quelle pagine che spinge
i visitatori a lasciare il sito. Molto spesso la causa è da ricercarsi in una
serie di collegamenti diretti ad altri siti; altre volte può trattarsi di un cattivo
sviluppo dell’albero di navigazione, che finisce con il condurre gli utenti
verso pagine-imbuto prive sia di informazioni utili sia di collegamenti verso
altre sezioni del sito.
-
- Top paths
- È la classifica dei più comuni percorsi di navigazione seguiti
dagli utenti nel corso delle loro visite ad un sito. Per ogni elemento della
classifica vengono forniti di solito:
- la sequenza delle pagine visitate, che costituisce il path (= percorso);
- la percentuale delle visite sviluppatesi seguendo quel path,
rispetto alle visite totali registrate;
- il numero delle visite per quel path nel periodo considerato.
-
- Top referring pages (o URLs)
- È la classifica in ordine decrescente delle
singole pagine che hanno reindirizzato degli utenti verso un sito. È utile che il servizio di rilevazione statistica adoperato
permetta di aggregare i reindirizzamenti, in modo tale da separare quelli
provenienti dall'interno del dominio di appartenenza del sito da quelli
provenienti dall'esterno.
-
- Top referring sites
- È la classifica in ordine decrescente dei siti che hanno
reindirizzato il maggior numero di contatti a file presenti su un sito.
Spesso un’elevata percentuale di contatti è accoppiata in questa classifica
all’etichetta “no referrer”: ciò significa che un utente si è collegato
direttamente ad una risorsa su un sito, senza esserci arrivato per via di
collegamenti. Questo caso si verifica, ad esempio, quando un visitatore,
conoscendo l’indirizzo della pagina richiesta sul sito di destinazione,
inserisce manualmente la URL nella barra degli indirizzi del proprio browser.
-
- Top Search Engines (Motori di ricerca)
- È l’elenco in ordine decrescente dei
motori di ricerca che hanno generato più contatti al sito. Se il numero
complessivo di contatti generato da motori di ricerca è basso rispetto al
numero complessivo di contatti registrato per un sito, allora se ne può
dedurre che le pagine e i contenuti di questo sito non sono sufficientemente
indicizzati dai motori di ricerca. Occorrerebbe in questo caso effettuare le
apposite procedure – spesso a pagamento e ottenibili in blocco rivolgendosi a
società specializzate – per migliorare l’indicizzazione dei contenuti messi in
linea. Essere ai vertici delle classifiche generate dai principali motori di
ricerca può essere, infatti, un formidabile strumento per incrementare il
numero di visite ricevute.
- Top Search Keywords (Parole chiave)
- È l’elenco in ordine decrescente delle
parole chiave con più frequenza utilizzate dai visitatori di un sito
nell’interrogare i motori di ricerca; parole chiave che hanno prodotto, come risultato
dell’interrogazione, dei collegamenti e delle conseguenti visite al sito.
È importante che un sistema di rilevazione del traffico sia in grado di
fornire la classifica delle parole chiave più utilizzate dagli utenti.
Studiare con attenzione questa classifica è infatti molto utile al fine di
comprendere che tipo di contenuti gli utenti riescono a trovare sul proprio
sito grazie ai motori di ricerca. Per via di esclusione si può poi cercare di
definire quali altri contenuti, pur presenti sul sito, non generano contatti
tramite i motori di ricerca, e perché.
-
- Unique visitor (visitatore unico)
- Viene conteggiato come visitatore unico di
un sito quel visitatore che – identificato principalmente per mezzo
dell’indirizzo IP, ma anche per mezzo di
cookie o di un’esplicita procedura di
registrazione – effettua due o più visite ad un sito in un dato arco di tempo. È
una misura considerata indicativa del traffico generato da un sito, ma anche
del livello di fidelizzazione degli utenti. Anche in questo caso, però,
le aspettative di conoscenza legate ai valori numerici rilevati si scontrano
purtroppo con difficoltà oggettive: nel caso del tracciamento per mezzo
dell’indirizzo IP, può capitare infatti che - grazie all’assegnamento di IP
dinamici da parte di server DHCP - utenti diversi si colleghino in successione
con lo stesso IP oppure il medesimo utente si colleghi più volte di seguito con un
IP diverso. In entrambi i casi il numero di visitatori unici registrato
risulta non veritiero.
Allo stesso modo, il rilevamento degli utenti unici può essere falsato
quando il tracciamento avviene per mezzo di cookie ed una stessa persona si
collega più volte ad uno stesso sito:
- con un browser che è impostato per rifiutare i cookie;
- alternativamente con browser differenti;
- da computer diversi.
-
- Visit (visita)
- Tutte le richieste ricevute in successione ininterrotta da un server web,
provenienti da un
medesimo indirizzo IP. Si considera terminata una
visita da parte di un utente identificato se tra due successive richieste di
pagina intercorre un tempo superiore al timeout di sessione impostato: se
questo, ad esempio, è impostato su 30 minuti, una richiesta di pagina da parte
dello stesso utente che arrivi oltre 30 minuti dopo la precedente richiesta,
sarà considerata come la prima pagina vista di una nuova visita al sito.
Il totale delle visite che si ricava in tal modo dall’analisi dei
file di log
per un dato periodo di tempo rappresenta evidentemente un’approssimazione
statistica, il cui indice di affidabilità rimane imprecisato, dal momento che
non esistono mezzi per sapere - tramite la sola analisi dei log - né quanto
siano durate in realtà le singole visite ricevute né se con un medesimo
indirizzo IP si sia collegata sempre la stessa persona oppure una serie di persone
differenti.
- Visitors Gained since Previous Period (Nuovi visitatori)
- Si tratta di
visitatori mai registrati nei precedenti periodi di rilevazione statistica,
ovvero di nuovi visitatori.
-
- Visitors Lost since Previous Period (Visitatori perduti)
- È l’elenco dei
visitatori registrati nel corso di precedenti periodi di osservazione e
mancanti, invece, dalle rilevazioni per il periodo corrente: si tratta cioè di
visitatori perduti.
-
- Visitors Returning from Previous Period (Visitatori di ritorno)
- Si tratta di
visitatori che hanno già visitato un sito in un precedente intervallo di
tempo. Per la significatività di questa classifica è importante tarare con
intelligenza i periodi presi in considerazione (non si può considerare, ad
esempio, come un visitatore abituale di un sito un utente la cui precedente
visita è stata registrata tre anni prima).
(1) Spesso i sistemi di reportistica offrono entrambe le viste.
(2) Sembra che il 97-98% degli accessi totali ai principali siti italiani e
internazionali avvengano tramite sistemi PC-Microsoft: questo finisce
con il penalizzare purtroppo gli utenti di sistemi meno diffusi -
soprattutto Macintosh - i quali si scontrano spesso con siti non
ottimizzati per gli strumenti in loro possesso.
(3) Un file in formato PDF, tanto per fare un esempio, è contato nei log
come un’unica pagina vista, anche se può contenere un documento composto da
centinaia di pagine stampabili.
(4) Ad esempio, una pagina HTML suddivisa in quattro
frame, cioè composta da quattro finestre che richiamano ciascuna un
differente file HTML, può generare per ogni chiamata ricevuta dal frameset
(cioè dalla pagina HTML che contiene i quattro sottoelementi) cinque
page view registrate nei
file di log. È facile comprendere, allora, che comparare il numero
di page view registrato da un sito che contiene pagine con frame
con l’analogo numero registrato da un sito con pagine senza frame è
un’operazione priva di attendibilità, a meno che non si siano impostati
complessi filtri in grado di eliminare dal conteggio tutte le page view
in sovrannumero generate dall’uso dei frame. Analoghe ambiguità di
conteggio sorgono quando delle pagine HTML sono associate a delle finestre
pop-up aperte automaticamente al caricamento della pagina principale:
l’effetto è di raddoppiare il numero di page view registrato,
senza che ciò coincida con un effettivo raddoppio delle richieste volontarie
di pagine da parte degli utenti collegati.
Leggi
Profilazione degli utenti e concetti collegati
Vai al
sommario
Scrivi a
info@diodati.org
Aggiornato Wednesday, 11-Sep-2002 10:56:23 CEST
inizio
pagina