Capire le statistiche di accesso ai siti Internet
L'interpretazione dei dati di traffico
non è una scienza esatta
Abbiamo assistito negli ultimi anni ad una crescita esponenziale
dell’importanza attribuita alle analisi statistiche dei dati di traffico
relativi ai siti Internet. Il motivo di questo crescente interesse è semplice: i
dati di traffico, opportunamente letti, danno il «polso» del successo di un sito
o di una sua sezione. Andare a leggere per mezzo di appositi programmi il numero
di accessi o di page view è - per i gestori di un portale, di un
quotidiano in linea o di un'azienda che vende prodotti - né più né meno che come
consultare i dati dell’Auditel per i responsabili di una trasmissione
televisiva. Non solo. I percorsi di visita seguiti dagli utenti collegati,
insieme ad altre variabili quali i tempi di permanenza sulle singole pagine,
rappresentano informazioni estremamente utili:
- all'area commerciale per definire valide strategie nel
campo delle vendite o della pubblicità;
- all’area tecnica, al fine di valutare se la struttura
delle pagine e l’albero di navigazione invogliano oppure scoraggiano la
permanenza dei visitatori sul sito;
- all’area editoriale, per comprendere quali sono i
contenuti sui quali puntare e quali, invece, quelli da eliminare o da
modificare.
Purtroppo, però, la rilevazione e soprattutto l’interpretazione dei dati di
traffico di un sito Internet sono processi che non producono per nulla dati
inequivocabili e certi. Così come la determinazione del numero di spettatori di
un programma televisivo da parte dell’Auditel è, in fin dei conti, un’inferenza
statistica, cioè una presunzione più o meno attendibile, strettamente dipendente
dalla scelta di un campione e dai metodi di rilevazione adoperati, allo stesso
modo la determinazione del numero di persone che hanno visitato un sito
Internet in un certo arco di tempo è un’inferenza statistica,
una presunzione legata alla definizione di determinati parametri ed ai metodi
scelti per la rilevazione di quei parametri.
Per poter comprendere appieno i limiti specifici dei sistemi di rilevazione
dei dati di traffico usati attualmente sul Web, occorre in via preliminare
esaminare nel complesso quali sono i metodi disponibili per la rilevazione e
l’analisi del traffico. Occorre però, prima di ogni cosa, definire chiaramente
la terminologia adoperata, che basta da sé sola a creare
equivoci e confusioni.
Un glossario articolato su quattro categorie di dati
La maggior parte dei software e della letteratura sulle statistiche relative
al traffico Web sono in lingua inglese. Così anche i termini che descrivono i
dati di traffico sono conosciuti per la maggior parte nella loro versione
anglosassone. Per questo motivo il seguente glossario riporta in primo luogo i
termini in lingua inglese e tra parentesi, quando presenti, i loro equivalenti
in lingua italiana. Alcune tra le parole e le locuzioni definite non riguardano
direttamente la rilevazione del traffico su un sito (il termine “DNS” ad
esempio), ma la conoscenza del loro significato è tuttavia importante ai fini di
una miglior comprensione del funzionamento dei sistemi di rilevazione esistenti.
Per ciascuno degli elementi definiti in questo glossario viene infine messa in
luce, dove necessario, la potenziale ambiguità e l’incertezza da essi
introdotta nei dati statistici relativi al traffico generato da un sito
Internet.
I termini definiti non pretendono in alcun modo di esaurire il discorso in
materia di statistiche-web. Si è cercato comunque di inserire con attenzione le
parole e i concetti più importanti per la definizione e la rilevazione dei dati
di traffico. Tutti i termini sono stati raggruppati, per maggiore chiarezza, in
quattro categorie:
- termini tecnici generali di riferimento
- tipi di informazioni ricavabili dalle statistiche di
traffico
- profilazione degli utenti e concetti collegati
- metodi per la rilevazione dei dati di traffico
Termini
tecnici generali di riferimento
- Caching
- È l’operazione eseguita da un server (un proxy, ad esempio) o da un
computer cliente, consistente nel memorizzare una copia locale di una risorsa
recuperata da Internet, con lo scopo di servire all'utente che ne fa richiesta
quella copia locale, in luogo del documento originale presente su Internet.
L’attività di caching può contribuire a falsare in notevole misura la
veridicità dei dati di traffico rilevati dai log file di un server
web. (Secondo Martin Filz di Red Sheriff, la percentuale delle
page view mancanti, dovuta all’attività di caching, può
raggiungere il 60% del traffico totale che interessa un sito.) È
possibile però prevenire questa perdita di traffico, inserendo nel codice
delle pagine del sito sottoposto a rilevazione statistica un comando che,
definendo la scadenza immediata della validità di ogni pagina, costringa
l’utente interessato a collegarsi effettivamente alla risorsa richiesta, non
potendola più recuperare dalla cache. Questa soluzione ha però degli
svantaggi: in primo luogo una maggiore occupazione di banda, in secondo luogo
un’attesa più lunga per il caricamento delle pagine (rispetto all'attesa per
quelle recuperate direttamente dalla memoria del proxy) da parte dell’utente, il
quale potrebbe essere negativamente influenzato – per quanto riguarda future
visite - da un simile inconveniente.
- Cookie
- Letteralmente “biscotto”. Si tratta di un file di testo che viene generato
dal browser dell’utente in seguito ad un messaggio inviato dal server web in
risposta alla richiesta di collegamento ricevuta. Il cookie viene memorizzato
sul computer cliente. Esso contiene delle informazioni che identificano
univocamente quell’utente rispetto al sito Internet che lo ha generato. Ad
ogni successiva connessione, il server web richiederà al browser il cookie
precedentemente memorizzato. Se questo viene trovato, il server potrà
utilizzare le informazioni in esso contenute per vari scopi:
- per offrire contenuti personalizzati a quell’utente (ad esempio una pagina di
benvenuto con il suo nome);
- per tracciare dei profili di comportamento basati sui percorsi di navigazione
seguiti nel corso delle visite effettuate al sito;
- per aggiornare le statistiche che registrano le visite ricevute da utenti
unici.
Tutte le rilevazioni statistiche di traffico-web originate dall’uso di cookie
sono soggette principalmente a due variabili: a) che l’utente collegato abbia
abilitato nel proprio browser il supporto per i cookie; b) che effettui i
successivi collegamenti per mezzo dello stesso browser.
- DHCP, Dynamic Host Configuration Protocol
- È un protocollo di comunicazione che, installato su un server di rete,
consente di governare automaticamente e centralmente l’assegnazione degli
indirizzi IP a ciascuna macchina connessa ad Internet all’interno della rete. DHCP
è in grado sia di assegnare IP statici, cioè indirizzi sempre uguali nel
tempo, sia IP dinamici, cioè indirizzi con scadenza a breve termine
(generalmente la durata di una sessione di connessione ad Internet). L’uso di
DHCP con assegnazione di IP dinamici è particolarmente utile per quegli enti,
quali università e provider, che hanno a disposizione un numero di indirizzi IP
da distribuire inferiore al numero delle macchine che potenzialmente possono
accedere ad Internet tramite i loro server.
Il fatto che moltissimi utenti si colleghino alla Rete per mezzo di IP
dinamici ricevuti automaticamente via server DHCP è un’ulteriore fonte di
incertezza per le rilevazioni statistiche del traffico generato da un sito.
Infatti l’indirizzo IP soggetto ad assegnazione dinamica è un’informazione
insufficiente per identificare nel tempo in modo non ambiguo un singolo
visitatore del sito (lo stesso IP potrebbe essere assegnato in successione ad
x utenti di una stessa rete).
- DNS, domain name system
- È il sistema che traduce i nomi di dominio in indirizzi IP. Un nome di
dominio è un nome letterale, associato in modo univoco ad un indirizzo IP
numerico, per identificare una risorsa su Internet. Ogni volta che un utente
invia tramite il proprio browser una richiesta di collegamento specificando un
nome di dominio (ad es. www.diodati.org), il server DNS competente intercetta la
richiesta e trasforma la stringa letterale nel corrispondente indirizzo IP. Se
quest’ultimo non è contenuto nella propria tabella di corrispondenze, la
richiesta viene inoltrata ad un altro server DNS, e così via finché il nome
letterale non viene risolto nella stringa numerica corrispondente. A questo
punto, tutti i DNS interpellati si aggiornano automaticamente, inserendo nei
rispettivi database la nuova corrispondenza trovata. Questo sistema di
chiamate e aggiornamenti incrociati tra una serie di server DNS decentrati è
più veloce, pratico e sicuro di un sistema basato su un unico server
DNS centralizzato.
- IP address (indirizzo IP)
- La sigla IP sta per Internet Protocol. È un numero di 32 bit che
rappresenta univocamente ogni mittente o ricevente di pacchetti di dati
attraverso Internet. Nella sua forma più comune l’IP address è espresso come
una serie di quattro numeri, separati tra loro da un punto. Ognuno dei quattro
numeri può variare (con alcune limitazioni) tra 0 e 255. Qualsiasi
comunicazione che avviene su reti appartenenti ad Internet deve comprendere
necessariamente l’indirizzo IP del mittente e quello del destinatario, allo
scopo di poter essere istradata correttamente.
- Log file (file di registro)
- Buona parte delle rilevazioni statistiche sul traffico generato dai siti
Internet sono effettuate da programmi che analizzano e presentano, in forma
comprensibile al lettore umano, i dati memorizzati momento per momento dai server
web nei propri file di log.
Usati originariamente come fonte primaria di informazioni per determinare
i carichi di lavoro dei server e studiare possibili migliorie nella
distribuzione di quei carichi, oggi i dati ricavati dai file di registro sono
considerati principalmente come strumenti commerciali, cioè:
- come informazioni sul successo di un sito Internet o di una sua parte,
- come mezzi per conoscere abitudini e preferenze di navigazione degli utenti
che si collegano ad un sito,
- come credenziali per vendere servizi (ad esempio spazi pubblicitari).
È importante però tener presente che i dati ricavati dall’analisi dei log non
sono altro che registrazioni dell’attività del server web e, solo in modo
indiretto e con molta cautela, possono essere considerati strumenti per
conoscere il numero degli utenti collegati e le loro abitudini di navigazione.
Su questo equivoco poggiano molte cattive interpretazioni dei dati di traffico
generati dai server web.
I file di log possono assumere, a seconda dei sistemi, nomi e struttura
differenti. Pur nella variabilità delle configurazioni, possiamo suddividere
comunque i file di registro in quattro categorie principali:
- Transfer (o access) log
– Registra tutte le richieste di trasferimento file pervenute ad un server tramite protocollo HTTP dagli utenti collegati via
Internet. I dati in esso raccolti sono una buona misura del carico di lavoro a
cui è sottoposto un server web.
- Error log – Memorizza tutte le richieste HTTP che non hanno prodotto il
risultato atteso dall’utente. Rientrano in questa categoria il ben noto errore
‘404 File not found’, gli errori di timeout (= scadenza del
tempo di attesa), le connessioni rifiutate, quelle
interrotte, i messaggi di server ‘too busy’ (= troppo occupato), ed altri
ancora. L’analisi degli errori riportati in questo file di registro è utile
per correggere possibili squilibri nella struttura di un sito, per scoprire la
presenza di collegamenti interrotti, per verificare se la potenza di elaborazione
della CPU o la banda di connessione ad Internet siano sufficienti rispetto al
volume di traffico generato.
- Referrer log – Tiene traccia della provenienza delle richieste di
trasferimento di file ricevute dal server. È in genere meno usato dei due log
precedenti.
- Agent (o user agent) log –
Registra il tipo di software che invia una
richiesta HTTP al server web. Le informazioni fornite da questo file di
registro riguardano il tipo e la versione di browser utilizzato dall’utente,
il sistema operativo usato, la risoluzione video. Altri dati importanti sono
quelli relativi agli accessi effettuati da spider e robot utilizzati da motori
di ricerca per indicizzare le pagine di un sito (se ne conoscono oltre una
ventina).
Va detto a questo proposito che le visite effettuate dai software di
indicizzazione dei motori di ricerca dovrebbero essere sottratte al numero
complessivo di visite al sito risultante dai file di registro. Questo è un
altro degli equivoci che possono nascere da un esame superficiale dei dati di
traffico forniti dai file di log.
- NAT, Network Address Translation
- Letteralmente: traslazione dell’indirizzo di rete. È un
meccanismo che consente, tramite appositi sistemi hardware e software, di far
corrispondere una serie di indirizzi IP usati solo in rete locale ad una serie,
generalmente meno numerosa, di indirizzi IP pubblici. Si ottengono così
molteplici vantaggi:
-
l’uso in rete locale di indirizzi IP già assegnati su Internet (la cosa non crea
conflitto per il fatto, appunto, che tali IP sono usati solo per identificare
i computer all’interno di una LAN);
-
la possibilità di mascherare l’IP delle singole macchine agli utenti esterni,
i quali “vedono” unicamente gli IP pubblici attribuiti al gateway di rete (in
questo senso il natting, interponendosi tra l’interno e l’esterno della rete
locale agisce anche da firewall)
-
la possibilità di gestire in concreto una quantità di IP maggiore di quelli
che sono stati acquistati come IP pubblici
L’uso di questa traslazione degli indirizzi IP da parte di molte reti
rappresenta una perdita d’informazioni per la rilevazione statistica degli
accessi ad un sito. Se, infatti, non si dispone della tabella di traduzione
usata da un server NAT, non è possibile sapere se le richieste giunte da un
certo IP fanno capo ad una o più macchine, né tantomeno a quali.
- Proxy server
- È un server che agisce da filtro tra le richieste di connessione a siti
Internet, provenienti in genere dall’interno della rete LAN o WAN a
cui il proxy appartiene, ed i siti stessi. La richiesta di accedere
ad una risorsa su
Internet, proveniente da un computer appartenente ad una LAN o ad una WAN, viene intercettata dal
proxy di rete in modo del
tutto trasparente per l’utente. Se la pagina richiesta non è presente nella
cache (= memoria tampone) del proxy, la richiesta viene inoltrata al sito che ospita la
risorsa, così da recuperare la pagina ed inviarla all’utente. Se, viceversa,
la pagina è già presente nella cache del proxy, questa viene inoltrata
direttamente all’utente, senza che occorra inviare alcuna richiesta al sito
Internet che ospita la risorsa. L’uso di un proxy server fornisce
essenzialmente due vantaggi:
-
La possibilità di filtrare le richieste provenienti dall’interno della propria
rete, in modo da evitare, ad esempio, di soddisfare le richieste di
connessione a determinati siti proibiti dalle regole aziendali.
- La possibilità di aumentare notevolmente le prestazioni, risparmiando tempo e
banda di connessione: ciò avviene quando una stessa pagina, già presente nella
cache del proxy, viene richiesta da più utenti
e quindi inviata loro direttamente dal proxy stesso, che evita così
di connettersi nuovamente al server remoto che ospita la risorsa.
Come si può comprendere, il fatto che molti accessi ad un sito provengano da
proxy di reti più o meno ampie può falsare grandemente la valutazione del
numero di pagine effettivamente viste (page views), numero che potrebbe essere
ben superiore a quello rilevato tramite l’analisi dei file di log. Si pensi ad
esempio a quanti utenti potrebbero essere serviti da un’unica pagina prelevata
da un proxy di America On Line e conservata nella sua cache.
- Redirect (reindirizzamento)
- È un meccanismo per mezzo del quale un utente che ha richiesto di
collegarsi ad un certo indirizzo Internet viene reindirizzato automaticamente ad un
indirizzo
differente. Càpita spesso, così, che una medesima pagina web possa essere
raggiunta, in virtù di appositi reindirizzamenti, da un certo numero di
indirizzi diversi. Ai fini della rilevazione del numero effettivo di page view
ottenuto in un certo periodo, occorre perciò tenere conto di tutti i redirect
effettuati dal web server nel periodo considerato.
- Reverse DNS lookup
- Mentre la trasformazione da un indirizzo letterale al corrispondente
indirizzo numerico è detta forward DNS lookup, l’operazione contraria – cioè
il risalire da un indirizzo IP noto al corrispondente nome di dominio – è detta
reverse DNS lookup. Appositi software sono in grado, interrogando dei server
DNS, di ottenere il nome di dominio a partire dall’IP numerico. Un sistema di
rilevazione dei dati di traffico ha più valore se è in grado di effettuare il
reverse DNS lookup, dal momento che per l’interprete umano la lettura di una
serie di IP numerici dice poco o nulla, mentre molto più utile risulta la
corrispondente serie di indirizzi letterali: solo questa è in grado, infatti,
di informare effettivamente gli amministratori di un sito sulla provenienza
degli accessi registrati.
- Spider, o crawler o web bot
- Si tratta di programmi che automaticamente effettuano, in base a
determinati criteri, una serie di richieste di file ad un server web, allo
scopo di indicizzare i contenuti di quel sito per conto di un motore di
ricerca.
Le richieste provenienti da spider possono incidere fortemente sulla
rilevazione del traffico generato da un sito. Per tale motivo, gli accessi
prodotti da spider vengono in genere evidenziati dai sistemi di misurazione
statistica, in modo che se ne possa tener conto e non risultino così falsati i
valori relativi alle visite ricevute da parte di utenti umani.
- Session timeout
- È la durata massima predefinita di una visita ad un sito da parte di un
utente unico. Non esiste uno standard per questa durata e neppure un
consistente accordo in proposito. La lunghezza di una sessione può variare da
un minimo di 10-15 minuti ad un massimo di un’ora. Nella maggior parte dei
casi essa è impostata su 20 o 30 minuti. Se dura 20 minuti, ciò significa che
ad un utente unico - riconosciuto come tale perché ha il medesimo
indirizzo IP -
vengono attribuite due visite al sito, nel caso in cui una sua richiesta di
pagina giunga oltre 20 minuti dopo la precedente richiesta registrata.
Viceversa, se l’intervallo trascorso tra questi due eventi è inferiore a 20
minuti, allora viene conteggiata per quell’utente un’unica visita.
Come è facile comprendere, la durata di sessione è un parametro del tutto
arbitrario, che nulla ha a che vedere con l’effettivo comportamento degli
utenti collegati ad un sito e che può tuttavia influenzare le valutazioni del
settore commerciale di un’azienda, circa la misura della fedeltà degli utenti ai
siti presi in considerazione. Poniamo ad esempio che un sito, avendo un
timeout di sessione impostato su 20 minuti, registri molte visite di utenti
unici nell’arco di un mese di rilevazione: se ne potrebbe ricavare l’idea che
dietro quelle visite ripetute si celino utenti fidelizzati. Basterebbe però
probabilmente aumentare di soli dieci minuti il timeout di sessione, per
scoprire che il numero di visite al sito da parte di utenti unici è nettamente
diminuito! Ancora una volta è la conoscenza del significato e della reale
portata dei numeri offerti dalle statistiche di traffico che aiuta a non
commettere pericolosi errori di valutazione.
- URL, Uniform Resource Locator
- È l’indirizzo, unico e inequivocabile, di una risorsa su Internet.
Qualsiasi documento - sia esso un file immagine, un file di testo, una risorsa
multimediale, ecc. – è localizzabile precisamente per mezzo della URL. Questa
comprende:
-
una parte relativa al protocollo di comunicazione invocato (es.:
http://
);
-
una parte più generale, che identifica l’host, ovvero il computer su cui è
archiviata la risorsa (es.:
www.diodati.org
);
-
una parte di dettaglio, che specifica il percorso e il nome del file da
recuperare (es.:
/scritti/2002/g_stat/index.htm
).
Nel linguaggio tecnico delle Specifiche HTML 4,
non si parla più di URL ma di URI (Uniform
Resource Identifier = Identificatore Uniforme di Risorsa). Nel linguaggio
comune di autori ed appassionati di Internet, però, l'uso della sigla URL è di
fatto ancora largamente prevalente.
Tipi di
informazioni ricavabili dalle statistiche di traffico
- Ad impression
- Nel linguaggio della pubblicità in Rete, si conta una
impression ogni volta che un banner viene caricato in una pagina web. Poiché
in una singola pagina può essere contenuto più di un banner, il numero di
impression – registrato in un apposito file - è in genere superiore al numero
delle pagine servite. Tuttavia è erroneo associare alla registrazione di una
impression l’idea che il banner corrispondente sia stato effettivamente visto
dall’utente che ha richiesto la pagina: non esiste infatti un modo per sapere
se, ad esempio, l’utente ha attivato la visualizzazione delle immagini nel
proprio browser oppure se ha scorso la pagina fino alla fine (nel caso che il
banner si trovi al di sotto di ciò che lo schermo gli mostra inizialmente).
-
- Average page view duration
- È il tempo medio speso da un utente unico su una
singola pagina del sito. Può essere calcolato in due modi:
-
o dividendo il tempo complessivo speso da un utente sul sito per il numero di
page view registrate per quello stesso utente nel periodo considerato (ad es.
un giorno)
-
o facendo la stessa operazione, ma con la differenza di considerare solo le
page view la cui durata sia inferiore al
timeout di sessione impostato. In
questo secondo caso, se il timeout è ad esempio di 30 minuti, una richiesta di
pagina a cui non ne seguano altre da parte dello stesso utente per oltre 30
minuti viene scartata: si considera cioè come una pagina che l’utente non sta
più guardando.
-
- Average page views per visit (o per user session, numero medio di pagine viste
per visita)
- Il valore si ottiene dividendo il numero complessivo di pagine
richieste da un utente unico per il numero di
visite effettuate da
quell’utente nell’arco di tempo considerato. Incrociando i dati ottenuti per
questo parametro con quelli relativi al tempo medio per visita, è possibile
ipotizzare il comportamento-tipo degli utenti del sito. Ad esempio, una media
di poche pagine viste per utente, accoppiata ad una lunga durata media delle
visite registrate, potrebbe indicare che i visitatori del sito trovano con
relativa facilità ciò che stanno cercando e leggono a fondo i contenuti
reperiti. Viceversa, una media di molte pagine viste in rapida successione nel
corso di poche e brevi visite potrebbe indicare che la struttura del sito è
caotica, che gli utenti non riescono a trovare ciò che stanno cercando e che
perciò non sono invogliati a ritornare.
Naturalmente queste supposizioni devono essere avanzate a ragion veduta: cioè
facendo la tara di tutti i possibili fattori di incertezza dei dati statistici
rilevati.
-
- Average time per visit (o average session duration)
- È il tempo medio speso
da un utente unico per una visita al sito. Il valore si ottiene dividendo il
tempo complessivo speso dall’utente sulle pagine del sito nel periodo
considerato per il numero di visite che ha effettuato nello stesso periodo di
tempo.
Poiché il numero di visite effettato da un utente unico in un certo arco di
tempo dipende dal parametro arbitrario della durata di sessione (cfr. la voce
session timeout), è evidente che anche la durata media di una visita risulta
influenzata dal valore assunto da questo parametro.
-
- Browser used (Browser usati)
- È la classifica espressa in valori percentuali dei browser utilizzati
dagli utenti che si collegano ad un sito. Questa informazione è utile
soprattutto ai responsabili tecnici, per tarare al meglio la struttura delle
pagine e la presentazione dei contenuti, in modo che siano navigabili per
mezzo di ciascuno dei vari tipi di browser che risultano presenti in questa
classifica. Se, ad esempio, analizzando l’elenco dei browser utilizzati, si
scopre che una discreta percentuale di visitatori utilizza un browser non
compatibile con alcune soluzioni tecniche implementate sul sito, sarebbe
opportuno ricalibrare le pagine in modo da renderle accessibili anche alla
fetta di utenza penalizzata dalle precedenti scelte tecniche.
Va comunque precisato che la verifica pratica di quali tipi di browser si
colleghino alle pagine di un sito non dovrebbe aver alcuna importanza, se
quelle pagine sono state codificate fin dall'inizio nel rispetto dei linguaggi
standard per il Web definiti dal W3C.
-
- Click rate
- È il rapporto percentuale tra il numero di volte che un utente ha
fatto clic su un banner presente su una pagina web ed il numero di volte che
quel banner è stato caricato. È cioè il rapporto percentuale tra
click-through
ed impression. Un click rate del 5% significa, ad esempio, che un banner ha
ricevuto 5 clic per ogni 100 richieste di caricamento registrate.
- Click-through
- È il numero di volte in cui un utente fa clic su un banner
pubblicitario presente su una pagina web, collegandosi in tal modo al sito
dell’azienda che vende il prodotto o il servizio reclamizzato dal banner.
-
- Hit (richiesta di accesso)
- Costituisce un hit qualsiasi richiesta di
file pervenuta ad un server web. Così, se una pagina web è costituita da un
file HTML e da sei immagini, la visualizzazione completa all’interno della
finestra di un browser sia della pagina sia delle immagini in essa contenute
corrisponderà alla registrazione di sette hit nell’apposito
file di log del
server. Un equivoco comune, soprattutto in passato, consisteva nel confondere
le richieste di accesso con le pagine realmente caricate: un numero,
quest’ultimo, che è in realtà quasi sempre nettamente inferiore al numero di
hit registrato.
- Hourly (daily,
weekly, monthly, yearly)
pages count
- Un grafico o una tabella
(1) che mostra la distribuzione oraria delle page view registrate nell’arco di una
giornata (o la distribuzione giornaliera nell’arco di una settimana oppure di
un mese, o la distribuzione mensile nell’arco di un anno solare).
- Least requested, o popular,
pages (pagine meno richieste)
- È il complemento
del parametro most requested pages, è cioè la classifica delle pagine meno richieste
di un sito in un certo arco di tempo. Lo studio di questa classifica è utile per
cercare di capire se i pochi accessi registrati per alcune pagine dipendono da
contenuti non interessanti o dalla scarsa visibilità di quelle risorse
nell’economia generale del sito.
-
- Most common countries
- È l’elenco in ordine decrescente delle nazioni da cui
proviene il maggior numero di accessi ad un sito.
- Most common operating systems
- È la classifica espressa in valori percentuali dei sistemi operativi
più utilizzati. Scorrendo i risultati forniti da questi resoconti si ha di solito
la riprova di quanto sia schiacciante il monopolio ormai raggiunto dalla
Microsoft (2).
- Most requested pages (pagine più richieste)
- È la classifica, in ordine
decrescente, delle pagine che hanno ricevuto più contatti in un determinato
arco di tempo. In base ai filtri impostati, possono essere considerati in
questo elenco alcuni tipi di file – ad es. HTML e ASP – e non altri. È utile
comunque, per i tecnici e per i responsabili editoriali di un sito, considerare
attentamente la classifica delle pagine più richieste, sia per correggere
eventuali problemi di natura tecnica - come un sovraccarico del server
web dovuto ad errori di programmazione – sia per correggere problemi di struttura
logica del sito: alcune pagine, ad esempio, potrebbero essere al vertice della
classifica delle più richieste non per i loro contenuti, ma perché sono delle
strettoie obbligate da cui passare per raggiungere determinati altri
contenuti; altre pagine, al contrario, potrebbero ricevere pochi contatti
soltanto perché non sono state rese sufficientemente visibili agli utenti
(vedi least requested pages).
-
- Page views (pagine viste)
- Il numero di pagine viste su un sito è forse
l’informazione più importante che le statistiche web possano fornire, ma è
anche l’informazione di gran lunga più ambigua e difficile da determinare, sia
per la difficoltà di definire univocamente cosa sia una pagina sia per
l’impossibilità oggettiva di conoscere il rapporto preciso tra pagine servite
e pagine caricate da un utente umano (a causa dell’interferenza di
numerose variabili quali proxy, NAT,
cache locali,
spider, ecc.).
L’oggetto principale registrato da un server web come una pagina è il file HTML,
che contiene le chiamate a tutti gli altri oggetti – immagini, suoni, elementi
multimediali, ecc. – che servono a completare quell’entità piuttosto astratta
che è la “pagina”. Ma non solo i file HTML hanno
diritto ad essere considerati “pagine”: anche i file cosiddetti “dinamici”,
cioè quelli che contengono elementi di programmazione in grado di generare
contenuti differenti a seconda dei casi, sono a buon diritto da considerarsi
“pagine”. Rientrano in questa categoria i file con estensione ASP
,
PHP
, PHP3
, PL
e
simili. Ma possono rientrarvi – ed è una scelta dell’amministratore di rete
impostare di conseguenza opportuni filtri sul server – anche i file TXT
, i file
RTF
, i file DOC
, i PDF
ed altri ancora.
Insomma: non è per niente semplice creare una categoria astratta chiamata
“pagina”, che comprenda alcuni tipi di file e ne escluda altri e che fornisca,
allo stesso tempo, un parametro attendibile per la valutazione del numero di
pagine viste da utenti umani (3).
Tale ambiguità, unita all’impossibilità di determinare quanti esseri umani vi
siano effettivamente dietro ciascuna chiamata di pagina ricevuta da un
server web, dovrebbe far comprendere quanto siano aleatorie le valutazioni
effettuate sulla base del numero di page view riportato dai programmi che
analizzano i file di log.
Soprattutto va tenuto presente che la comparazione delle page view registrate
per due o più siti differenti può essere un’operazione dai risultati molto
poco attendibili: infatti, pur ponendo come uguali gli strumenti di
rilevazione del dato e i filtri impostati, la struttura dei siti - in termini
di composizione delle pagine e di oggetti in esse presenti o da esse
richiamati – può essere motivo sufficiente per generare, nel numero di page
view rilevato, uno scarto nettamente superiore (o nettamente inferiore) alla
reale differenza nella quantità di pagine viste da visitatori umani su
ciascuno di essi (4).
In definitiva, per dare sostanza ai meri dati numerici dei log relativi alle
page view, occorre, più che in altre circostanze, lo studio approfondito di
ogni singolo caso: non basta leggere la nuda serie dei numeri, ed è erronea la
supposizione – ammesso che qualcuno la abbia - di avere a che fare con
informazioni precise ed affidabili sui visitatori umani del proprio sito.
Infine una notazione che ha a che fare con l'accessibilità: il fatto
che i sistemi di rilevazione statistica parlino comunemente di pagine
viste piuttosto che di pagine caricate, fa comprendere quanto
sia ancora forte e radicato il preconcetto che una pagina, per essere
fruita da un utente, debba essere necessariamente esplorata con gli occhi.
-
- Request By Organization Type
- È la classifica in valori percentuali delle richieste di
accesso ad un sito, ordinate in base al tipo di dominio da cui parte la
richiesta (COM, NET, ORG, MIL, EDU, GOV, identificativi nazionali).
-
- Single access pages
- È la classifica delle pagine uniche più richieste,
visitate in un certo intervallo di tempo. Si tratta cioè di quelle pagine che,
per motivi che i responsabili di un sito dovrebbero studiare a fondo, suscitano
l’interesse degli utenti, ma allo stesso tempo non li invogliano a proseguire
la visita appena iniziata. Potrebbe trattarsi di pagine con contenuti chiusi
in se stessi (ad esempio una serie di collegamenti o una recensione),
referenziate da altri siti. In questo caso andrebbe studiato il modo per
indurre il visitatore a continuare la navigazione all’interno del sito, ad
esempio inserendo nelle pagine “incriminate” dei collegamenti ad altre sezioni
con contenuti affini.
-
- Top directories
- È l’elenco in ordine decrescente delle directory (in genere
solo quelle di primo livello) che hanno ricevuto complessivamente più
richieste di accesso dagli utenti collegati. Questa classifica tende a dare un’idea
dell’importanza reciproca delle sezioni in cui è suddiviso un sito. Perché
questo resoconto abbia un qualche valore conoscitivo, occorre che la struttura
logica del sito sia stata progettata in modo razionale, raggruppando i vari
contenuti, in base alla loro omogeneità, sotto apposite directory.
-
- Top entry pages
- È la classifica in ordine decrescente delle pagine iniziali
più richieste per ciascuna visita al sito registrata in un certo arco di
tempo. Normalmente al vertice di questa classifica c’è la home page. Se così
non è, diventa importante identificare i motivi per cui altre pagine
funzionano meglio della home page come ingressi al sito. Ciò può essere fatto,
ad esempio, analizzando i referrer log, cioè i dati sulla provenienza delle
visite, per capire se e da quali altri siti sono referenziate le pagine che si
trovano al vertice della classifica delle top entry.
- Top exit pages
- È la classifica in ordine decrescente delle pagine più
richieste in un certo arco di tempo come pagine finali di una visita
ad un sito.
È, in altre parole, l’elenco delle pagine che sembrano più di tutte invogliare
l’utente ad interrompere una visita in corso. Anche qui è importante uno
studio approfondito, allo scopo di capire cosa c’è in quelle pagine che spinge
i visitatori a lasciare il sito. Molto spesso la causa è da ricercarsi in una
serie di collegamenti diretti ad altri siti; altre volte può trattarsi di un cattivo
sviluppo dell’albero di navigazione, che finisce con il condurre gli utenti
verso pagine-imbuto prive sia di informazioni utili sia di collegamenti verso
altre sezioni del sito.
-
- Top paths
- È la classifica dei più comuni percorsi di navigazione seguiti
dagli utenti nel corso delle loro visite ad un sito. Per ogni elemento della
classifica vengono forniti di solito:
- la sequenza delle pagine visitate, che costituisce il path (= percorso);
- la percentuale delle visite sviluppatesi seguendo quel path,
rispetto alle visite totali registrate;
- il numero delle visite per quel path nel periodo considerato.
-
- Top referring pages (o URLs)
- È la classifica in ordine decrescente delle
singole pagine che hanno reindirizzato degli utenti verso un sito. È utile che il servizio di rilevazione statistica adoperato
permetta di aggregare i reindirizzamenti, in modo tale da separare quelli
provenienti dall'interno del dominio di appartenenza del sito da quelli
provenienti dall'esterno.
-
- Top referring sites
- È la classifica in ordine decrescente dei siti che hanno
reindirizzato il maggior numero di contatti a file presenti su un sito.
Spesso un’elevata percentuale di contatti è accoppiata in questa classifica
all’etichetta “no referrer”: ciò significa che un utente si è collegato
direttamente ad una risorsa su un sito, senza esserci arrivato per via di
collegamenti. Questo caso si verifica, ad esempio, quando un visitatore,
conoscendo l’indirizzo della pagina richiesta sul sito di destinazione,
inserisce manualmente la URL nella barra degli indirizzi del proprio browser.
-
- Top Search Engines (Motori di ricerca)
- È l’elenco in ordine decrescente dei
motori di ricerca che hanno generato più contatti al sito. Se il numero
complessivo di contatti generato da motori di ricerca è basso rispetto al
numero complessivo di contatti registrato per un sito, allora se ne può
dedurre che le pagine e i contenuti di questo sito non sono sufficientemente
indicizzati dai motori di ricerca. Occorrerebbe in questo caso effettuare le
apposite procedure – spesso a pagamento e ottenibili in blocco rivolgendosi a
società specializzate – per migliorare l’indicizzazione dei contenuti messi in
linea. Essere ai vertici delle classifiche generate dai principali motori di
ricerca può essere, infatti, un formidabile strumento per incrementare il
numero di visite ricevute.
- Top Search Keywords (Parole chiave)
- È l’elenco in ordine decrescente delle
parole chiave con più frequenza utilizzate dai visitatori di un sito
nell’interrogare i motori di ricerca; parole chiave che hanno prodotto, come risultato
dell’interrogazione, dei collegamenti e delle conseguenti visite al sito.
È importante che un sistema di rilevazione del traffico sia in grado di
fornire la classifica delle parole chiave più utilizzate dagli utenti.
Studiare con attenzione questa classifica è infatti molto utile al fine di
comprendere che tipo di contenuti gli utenti riescono a trovare sul proprio
sito grazie ai motori di ricerca. Per via di esclusione si può poi cercare di
definire quali altri contenuti, pur presenti sul sito, non generano contatti
tramite i motori di ricerca, e perché.
-
- Unique visitor (visitatore unico)
- Viene conteggiato come visitatore unico di
un sito quel visitatore che – identificato principalmente per mezzo
dell’indirizzo IP, ma anche per mezzo di
cookie o di un’esplicita procedura di
registrazione – effettua due o più visite ad un sito in un dato arco di tempo. È
una misura considerata indicativa del traffico generato da un sito, ma anche
del livello di fidelizzazione degli utenti. Anche in questo caso, però,
le aspettative di conoscenza legate ai valori numerici rilevati si scontrano
purtroppo con difficoltà oggettive: nel caso del tracciamento per mezzo
dell’indirizzo IP, può capitare infatti che - grazie all’assegnamento di IP
dinamici da parte di server DHCP - utenti diversi si colleghino in successione
con lo stesso IP oppure il medesimo utente si colleghi più volte di seguito con un
IP diverso. In entrambi i casi il numero di visitatori unici registrato
risulta non veritiero.
Allo stesso modo, il rilevamento degli utenti unici può essere falsato
quando il tracciamento avviene per mezzo di cookie ed una stessa persona si
collega più volte ad uno stesso sito:
- con un browser che è impostato per rifiutare i cookie;
- alternativamente con browser differenti;
- da computer diversi.
-
- Visit (visita)
- Tutte le richieste ricevute in successione ininterrotta da un server web,
provenienti da un
medesimo indirizzo IP. Si considera terminata una
visita da parte di un utente identificato se tra due successive richieste di
pagina intercorre un tempo superiore al timeout di sessione impostato: se
questo, ad esempio, è impostato su 30 minuti, una richiesta di pagina da parte
dello stesso utente che arrivi oltre 30 minuti dopo la precedente richiesta,
sarà considerata come la prima pagina vista di una nuova visita al sito.
Il totale delle visite che si ricava in tal modo dall’analisi dei
file di log
per un dato periodo di tempo rappresenta evidentemente un’approssimazione
statistica, il cui indice di affidabilità rimane imprecisato, dal momento che
non esistono mezzi per sapere - tramite la sola analisi dei log - né quanto
siano durate in realtà le singole visite ricevute né se con un medesimo
indirizzo IP si sia collegata sempre la stessa persona oppure una serie di persone
differenti.
- Visitors Gained since Previous Period (Nuovi visitatori)
- Si tratta di
visitatori mai registrati nei precedenti periodi di rilevazione statistica,
ovvero di nuovi visitatori.
-
- Visitors Lost since Previous Period (Visitatori perduti)
- È l’elenco dei
visitatori registrati nel corso di precedenti periodi di osservazione e
mancanti, invece, dalle rilevazioni per il periodo corrente: si tratta cioè di
visitatori perduti.
-
- Visitors Returning from Previous Period (Visitatori di ritorno)
- Si tratta di
visitatori che hanno già visitato un sito in un precedente intervallo di
tempo. Per la significatività di questa classifica è importante tarare con
intelligenza i periodi presi in considerazione (non si può considerare, ad
esempio, come un visitatore abituale di un sito un utente la cui precedente
visita è stata registrata tre anni prima).
Profilazione degli
utenti e concetti collegati
- Clickstream analysis
- È l’analisi della serie registrata di clic del mouse, ovvero di
scelte di navigazione effettuate dagli utenti di un sito. Costituisce uno
degli elementi fondamentali del processo di profilazione
degli utenti.
- Data mart
- È un database contenente dati raccolti in vista di un uso specifico.
Può essere un sottoinsieme di un data warehouse,
ma, rispetto al carattere generico di quest’ultimo, l’accento - in un data
mart - è posto sulla capacità di venire incontro alle esigenze di
particolari gruppi di utenti in termini di dati raccolti, presentazione delle
informazioni, semplicità d’uso.
- Data mining
- È l’esame complessivo dei dati raccolti sull’attività dei propri
utenti/clienti, tendente a trovare nei loro comportamenti correlazioni
significative da un punto di vista commerciale. Costituisce pertanto una
parte del complesso procedimento di profilazione
degli utenti. I risultati a cui può giungere l’attività di data mining sono
molteplici:
-
associazioni – due eventi si verificano spesso insieme (ad
esempio chi compra delle scarpe tende ad acquistare anche dei calzini);
- sequenze – due eventi successivi sembrano legati da una
relazione di causa-effetto (chi compra un mouse su Internet, tempo dopo acquista
anche un tappetino);
- classificazioni – il riconoscimento di un ordine in una serie
di eventi, con la conseguente riorganizzazione dei dati in proprio possesso;
- raggruppamenti – la ricerca e la presentazione di gruppi di
fatti non precedentemente noti;
- previsioni – lo studio della probabile evoluzione futura
della propria attività in base alle risultanze dei dati raccolti.
- Data warehouse
- Si definisce così la base dati centrale di un’azienda o di un suo settore
di attività. È il serbatoio in cui confluiscono, spesso da numerose e
differenti fonti, tutti i dati grezzi suscettibili di future elaborazioni. La
massa di dati in esso contenuta rimane poco significativa, ai fini ad esempio
della pianificazione commerciale dell’attività, finché questo insieme “bruto”
di dati non viene filtrato ed analizzato da apposite applicazioni, per mezzo
di una specifica attività di data mining.
- OLAP, online analytical processing
- Si tratta di applicazioni che, agendo su una base dati preesistente,
consentono agli analisti di estrarre e correlare i dati in modo da generare
una grande varietà di punti di vista e di associazioni. L’attività di
data
mining, descritta al punto precedente di questo glossario, è resa possibile
appunto da applicazioni di tipo OLAP, le quali conservano i propri dati in
database multidimensionali, così detti per distinguerli dai più comuni
database relazionali. Mentre questi ultimi possono essere descritti come
strutture bidimensionali, cioè piatte, nelle quali l’organizzazione delle
informazioni sta nello schema di righe e colonne delle tabelle che li
compongono, i database multidimensionali vanno associati piuttosto
all’immagine di un solido, tipicamente un cubo, che simboleggia il fatto che
ogni tipo di informazione presente in simili database può divenire il perno,
ovvero la dimensione di riferimento, per una serie di associazioni con altri
dati.
- Profiling (profilazione)
- È l’attività per mezzo della quale una serie complessa di dati relativi ad
utenti/clienti viene elaborata da specifici programmi – come ad esempio
l’Observation Management Server del notissimo Vignette – per generare alla fine la
segmentazione della propria utenza in gruppi omogenei di comportamento. I dati
che possono essere presi in considerazione per la profilazione sono
molteplici. Tra questi citiamo:
-
la serie delle scelte di navigazione effettuate sul sito in esame dagli utenti
unici identificati;
- la dichiarazione esplicita di preferenze e interessi ottenuta tramite
procedure di registrazione o sondaggi;
- la raccolta di dati demografici;
- la risposta degli utenti identificati a promozioni o a contenuti particolari.
I sistemi di profilazione più avanzati mettono a disposizione del settore
commerciale di un’azienda la possibilità di segmentare in gruppi la propria
utenza sia manualmente, scegliendo i parametri da prendere in considerazione,
sia automaticamente, in base alle capacità native del software utilizzato. In
entrambi i casi, il valore aggiunto è dato dalle molteplici correlazioni che è
possibile istituire tra i dati raccolti, al fine di ricavarne informazioni
commercialmente utili. Ecco a titolo esemplificativo alcune di queste
correlazioni:
-
Content affinities (affinità di contenuto) – gli insiemi di contenuti che
tendono ad essere visti insieme dagli utenti del sito esaminato;
- Content effectiveness (efficacia dei contenuti) – per i siti di commercio
in Rete, i contenuti che tendono ad essere visti in sessioni-utente che si
concludono con un acquisto;
- Product affinities (affinità di prodotto) – sempre per i siti di commercio
in Rete, l’elenco dei prodotti che sono più spesso acquistati insieme.
- Profiling esplicito
- Si ottiene per mezzo di un’apposita procedura di registrazione, che
implica l’invio tramite un modulo di dati personali da parte dell’utente. I dati
inviati, archiviati in un' apposita base dati, forniranno una serie di parametri
utili a segmentare in gruppi omogenei la totalità degli utenti registrati.
- Profiling implicito
- È il tracciamento del comportamento di utenti anonimi nel corso delle loro
visite ad un sito. Il tracciamento può avvenire sia tramite IP sia tramite
cookie. L’insieme delle scelte di navigazione effettuate alimenta una
base dati,
da cui appositi programmi possono estrarre associazioni e correlazioni, in
grado di segmentare la totalità degli utenti tracciati in gruppi omogenei.
Metodi per la
rilevazione dei dati di traffico
- BBM, browser-based measurement (misurazione
basata sul browser)
- Questo tipo di misurazione avviene sempre sulla base di dati registrati in
file di log, ma la generazione dei log non è più determinata dall’attività del
server web bensì dal caricamento nel browser dell’utente di un apposito
frammento di codice, denominato page tag. Si tratta in genere di alcune righe
contenenti un javascript, il cui compito è di inviare una richiesta HTTP al
server addetto alla registrazione del traffico-web, per informarlo che è stata
generata una page impression (5).
Questo metodo di rilevazione offre alcuni indubbi vantaggi:
-
Consente ad esempio di superare il problema – tipico delle
misurazioni site-centric - di definire dei filtri omogenei per separare i tipi di file
associabili ad una page view (HTML, ASP, ecc.) dai tipi di file
non
associabili (JPG, GIF, PNG, ecc.). Con il sistema dei page tag, infatti, solo
i file che contengono l’apposito frammento di codice javascript sono in grado
di generare una page impression. I responsabili tecnici del sito potranno così
di volta in volta valutare se e dove inserire il codice in questione
(6).
- Consente di eliminare l’incertezza legata alla non quantificabile interfenza
di strumenti di caching interposti
tra il server web ed i visitatori del sito.
Infatti anche le pagine recuperate da cache locali, se dotate dell’opportuno
page tag, invieranno al server deputato della registrazione dei log le
chiamate necessarie a generare una page impression.
Per contro, la misurazione basata sul browser presenta anche degli svantaggi:
-
In primo luogo, va tenuto presente che le statistiche di traffico generate con
questo sistema riguardano solo ed esclusivamente le pagine in cui è stato
inserito, e nel modo corretto, l’apposito page tag. Ciò significa che, laddove
vi sia una realtà aziendale molto complessa - con molti siti da monitorare,
moltissime pagine pubblicate e numerose persone addette al processo produttivo
–, sarà molto difficile (per non dire impossibile) avere la certezza che la
totalità delle pagine da sottoporre ad analisi statistica sia stata
effettivamente modificata con l’inserimento dell’opportuno codice javascript.
Si rischia cioè, con l’andar del tempo, di trovarsi di fronte ad un nuovo tipo
di incertezza: di non sapere, cioè, se le rilevazioni del traffico
browser-based di cui si è in possesso coprano la totalità degli accessi
effettuati ai propri siti e siano perciò davvero attendibili
(7).
- La presenza – per quanto minima e tendenzialmente non avvertibile – di un
ritardo nel caricamento della pagina, dovuto alle chiamate HTTP aggiuntive
presenti nel codice del page tag, indirizzate – nel caso che il servizio sia
fornito da terzi – ad un server differente da quello che ospita il sito.
Esistono molti società che offrono servizi di rilevazione statistica
basati sul browser, sia gratuiti sia a pagamento. Spesso la formula prevede
un’offerta base gratuita ed una, più completa, a pagamento. Tra i fornitori di
statistiche di tipo BBM citiamo
FreeStats,
Sitetracker, SuperStats di
MyComputer.com,
ShinyStat,
Site Stats. Una menzione particolare
merita RedSheriff, con sedi in oltre 30
nazioni, che sta assumendo un ruolo di primo piano a livello internazionale
nella fornitura di servizi professionali BBM.
- Site-centric measurement (misurazione
centrata sul sito)
- La fonte principale per questo tipo di rilevazione sono i file di log che
registrano l’attività del server web. Il limite maggiore di tale metodo è da
ricercarsi nella scarsa corrispondenza tra le registrazioni dei log e
l’effettiva attività dei visitatori del sito. Vi sono infatti molti fattori
che generano incertezza. Tra questi:
-
la difficoltà di definire univocamente quali tipi di file sono da considerare
“pagine” e quali no;
- il caching delle pagine effettuato da
proxy server, motori di ricerca, browser
utente, ecc. Non vi è modo di sapere il rapporto esatto tra le page view
registrate nei log e le pagine fornite dai vari sistemi di caching interposti
tra server web ed utente finale;
- l’assegnazione di IP dinamici agli utenti da parte di server
DHCP: non è
possibile sapere né se visite successive eseguite da uno stesso IP provengano
da una stessa persona né se visite successive, eseguite da IP differenti,
provengano da persone diverse o da un medesimo utente a cui sia stato
assegnato dinamicamente un nuovo IP.
Tra i vantaggi offerti dalle misurazioni site-centric c’è la possibilità di
sottoporre i propri log file all’analisi di una società terza, avente funzioni
di ente certificatore dei dati di traffico registrati
(8). La certificazione
riguarda essenzialmente due punti:
-
l’autenticità delle registrazioni dell’attività del web server;
- l’accuratezza delle statistiche da esse derivate.
L’utilità commerciale di simili certificazioni è notevole, in quanto,
conferendo un valore “quasi” oggettivo alle statistiche di traffico di un
sito, aumenta di conseguenza la forza di contrattazione nella vendita di spazi
pubblicitari: la certificazione infatti accresce la fiducia dell’acquirente
nella possibilità di ottenere un numero di ad impression realmente commisurato
al numero di page view dichiarato.
- User-centric measurement (misurazione
centrata sull’utente)
- Questo tipo di misurazione è completamente differente dalle altre due. Non
si tratta, infatti, di un’elaborazione statistica effettuata a partire dai
dati registrati nei file di log; si tratta piuttosto di una vera e propria
indagine di mercato, basata su elementi tipici del settore:
-
un campione di popolazione significativo del tipo di utenza che si
vuole misurare;
- uno strumento per la rilevazione del comportamento degli individui che
compongono il campione, applicato ai loro computer ed in grado di monitorare
attimo per attimo qualsiasi tentativo, riuscito o non riuscito, di navigazione
su Internet;
- strumenti statistici studiati per effettuare proiezioni più o meno
attendibili, che estendono alla totalità della popolazione i dati ricavati
dall’analisi del campione.
La validità delle proiezioni di traffico ricavate per mezzo di indagini di
mercato è strettamente dipendente dalla significatività del campione
selezionato – che è evidentemente una variabile difficilmente quantificabile –
e dalla raffinatezza ed affidabilità degli strumenti statistici adoperati.
Esistono diverse società che effettuano ricerche di questo tipo. Tra esse
citiamo Nielsen//NetRatings,
Jupiter MMXI,
NetValue.
Conclusioni
Al termine della lettura di questo glossario, dovrebbe essere ormai chiaro
che la rilevazione del traffico web è una "scienza" giovane, che si scontra con
una serie di ostacoli oggettivi, che influiscono per ora piuttosto seriamente
sull'affidabilità dei dati registrati.
Tra i tre sistemi di rilevazione analizzati nel capitolo
precedente è difficile dire quale sia il più attendibile, dal momento che
ognuno di essi presenta vantaggi e svantaggi. Nel caso di siti con un numero non
eccessivamente ampio di pagine, o di siti con una gestione centrale ben
organizzata, la rilevazione di tipo BBM sembra
essere la soluzione migliore, dal momento che permette di superare in buona
parte le notevoli incertezze legate, nel caso della rilevazione site-centric,
all'impossibilità di quantificare l'influenza di fattori quali caching,
DHCP, NAT, ecc.
Al contrario, nel caso di domini contenenti una notevole quantità di siti,
forse la soluzione migliore rimane la rilevazione site-centric, basata
sull'analisi dei file di registro, magari certificata da una società
specializzata. Quando infatti le pagine da monitorare sono migliaia - e se ne
aggiungono di nuove ogni giorno, e le persone coinvolte nell'aggiornamento sono
numerose e disperse, non esistendo un gestione centralizzata - diventa un
fattore critico avere la certezza che i dati statistici registrati riguardino la
totalità delle pagine esistenti e non una percentuale indefinibile delle stesse.
I file di registro, conservando la totalità delle transazioni HTTP effettuate
dai server web del dominio, consentono appunto di avere questa certezza. Anche
se non bisogna dimenticare che tali registrazioni sono soprattutto uno strumento
per la diagnosi dell'attività del server piuttosto che una fotografia
oggettiva del numero degli utenti connessi e dei loro comportamenti di navigazione.
Per quanto riguarda il terzo sistema, cioè l'analisi a campione delle
navigazioni effettuate dagli utenti, bisogna dire che il ricorso a questo
strumento di inferenza statistica - essendo notevolmente costoso - non è alla
portata di tutte le società presenti su Internet. La stessa affidabilità dei
dati prodotti dall'analisi dipende fortemente dalla rappresentatività del
campione selezionato e dalla validità degli strumenti tecnico-matematici
utilizzati.
In definitiva, si potrebbe concludere che le rilevazioni statistiche del
traffico generato da un sito, più che essere prese in se stesse come numeri
assoluti, dovrebbero essere prese in senso relativo, cioè come
rapporto proporzionale esistente tra le visite ricevute dalle differenti
pagine di un sito. Voglio dire che, se il sistema di rilevazione adoperato ci
dice che due pagine di uno stesso sito ricevono l'una 1000 visite al mese e
l'altra 200, è sì molto probabile che il numero effettivo di volte in cui qualcuno
ha caricato le due pagine sia più o meno differente da quello registrato dalle
statistiche, ma è altresì molto probabile che il rapporto tra le volte
in cui la prima pagina è stata caricata e le volte in cui è stata caricata la
seconda sia prossimo a quel 5:1 rilevato dal sistema di misurazione in uso. Ciò
pur con tutte le precauzioni del caso, dovute alla possibile influenza di
diversi fattori non precisamente quantificabili.
Dall'analisi di simili informazioni, i gestori di un sito possono trarre una
serie di conclusioni utili a migliorare la struttura e i contenuti delle proprie
pagine web, anche se rimane relativamente inconoscibile il numero reale di visitatori
in un certo arco di tempo.
(1) Spesso i sistemi di reportistica offrono entrambe le viste.
(2) Sembra che il 97-98% degli accessi totali ai principali siti italiani e
internazionali avvengano tramite sistemi PC-Microsoft: questo finisce
con il penalizzare purtroppo gli utenti di sistemi meno diffusi -
soprattutto Macintosh - i quali si scontrano spesso con siti non
ottimizzati per gli strumenti in loro possesso.
(3) Un file in formato PDF, tanto per fare un esempio, è contato nei log
come un’unica pagina vista, anche se può contenere un documento composto da
centinaia di pagine stampabili.
(4) Ad esempio, una pagina HTML suddivisa in quattro
frame, cioè composta da quattro finestre che richiamano ciascuna un
differente file HTML, può generare per ogni chiamata ricevuta dal frameset
(cioè dalla pagina HTML che contiene i quattro sottoelementi) cinque
page view registrate nei file di log. È facile comprendere, allora, che comparare il numero
di page view registrato da un sito che contiene pagine con frame
con l’analogo numero registrato da un sito con pagine senza frame è
un’operazione priva di attendibilità, a meno che non si siano impostati
complessi filtri in grado di eliminare dal conteggio tutte le page view
in sovrannumero generate dall’uso dei frame. Analoghe ambiguità di
conteggio sorgono quando delle pagine HTML sono associate a delle finestre
pop-up aperte automaticamente al caricamento della pagina principale:
l’effetto è di raddoppiare il numero di page view registrato,
senza che ciò coincida con un effettivo raddoppio delle richieste volontarie
di pagine da parte degli utenti collegati.
(5) Si parla in questo caso di page
impression e non di page view per analogia con il meccanismo di registrazione di
un ad impression: la presenza cioè nella pagina HTML di un frammento di codice
specificamente destinato a generare la registrazione di un accesso in un
file di log.
(6) I filtri applicabili ai file di
log di un web server di solito includono o escludono dalla registrazione
un’intera categoria di file, anche se è comunque possibile personalizzare i
filtri, in modo tale da creare per ogni categoria le opportune eccezioni. In
ogni caso, agire tramite filtri sulle registrazioni dei log, allo scopo di tener
conto quotidianamente della mutevole struttura delle pagine e dei contenuti di
un sito, richiede sicuramente più attenzione e lavoro che non decidere, caso per
caso, di includere oppure no in una nuova pagina il codice javascript che
determina la registrazione di una page impression.
(7) Si potrebbe pensare di fugare i
dubbi incrociando i dati di traffico browser-based con i dati ricavati dai
normali file di log. Va tenuto presente, però, che tale comparazione è
estremamente difficile e tutto sommato poco attendibile: infatti i dati relativi
all’attività del web server sono influenzati in una misura non quantificabile da
una serie di fattori di incertezza (proxy, caching, IP dinamici), che si
riverberano inevitabilmente sulla possibilità di confrontare in modo utile i
dati statistici provenienti dalle due fonti.
(8) Per la Gran Bretagna e l’Irlanda
questa funzione è svolta da ABC Electronic.
Le sue certificazioni avvengono sulla base di una serie di standard definiti da
un consorzio volontario di aziende, lo IFABC (International Federation of Audit
Bureaux of Circulations). Le definizioni dei dati standard soggetti a
rilevazione sono consultabili in Rete alla pagina
http://www.ifabc.org/web/index.html.
Vai al
sommario
Scrivi a
info@diodati.org
Aggiornato Wednesday, 11-Sep-2002 11:45:16 CEST
3097 visite
dal 11/09/2002
inizio
pagina