PRIMA PAGINA

Capire le statistiche di accesso ai siti Internet

 L'interpretazione dei dati di traffico non è una scienza esatta 

Abbiamo assistito negli ultimi anni ad una crescita esponenziale dell’importanza attribuita alle analisi statistiche dei dati di traffico relativi ai siti Internet. Il motivo di questo crescente interesse è semplice: i dati di traffico, opportunamente letti, danno il «polso» del successo di un sito o di una sua sezione. Andare a leggere per mezzo di appositi programmi il numero di accessi o di page view è - per i gestori di un portale, di un quotidiano in linea o di un'azienda che vende prodotti - né più né meno che come consultare i dati dell’Auditel per i responsabili di una trasmissione televisiva. Non solo. I percorsi di visita seguiti dagli utenti collegati, insieme ad altre variabili quali i tempi di permanenza sulle singole pagine, rappresentano informazioni estremamente utili:

Purtroppo, però, la rilevazione e soprattutto l’interpretazione dei dati di traffico di un sito Internet sono processi che non producono per nulla dati inequivocabili e certi. Così come la determinazione del numero di spettatori di un programma televisivo da parte dell’Auditel è, in fin dei conti, un’inferenza statistica, cioè una presunzione più o meno attendibile, strettamente dipendente dalla scelta di un campione e dai metodi di rilevazione adoperati, allo stesso modo la determinazione del numero di persone che hanno visitato un sito Internet in un certo arco di tempo è un’inferenza statistica, una presunzione legata alla definizione di determinati parametri ed ai metodi scelti per la rilevazione di quei parametri.

Per poter comprendere appieno i limiti specifici dei sistemi di rilevazione dei dati di traffico usati attualmente sul Web, occorre in via preliminare esaminare nel complesso quali sono i metodi disponibili per la rilevazione e l’analisi del traffico. Occorre però, prima di ogni cosa, definire chiaramente la terminologia adoperata, che basta da sé sola a creare equivoci e confusioni.

 Un glossario articolato su quattro categorie di dati 

La maggior parte dei software e della letteratura sulle statistiche relative al traffico Web sono in lingua inglese. Così anche i termini che descrivono i dati di traffico sono conosciuti per la maggior parte nella loro versione anglosassone. Per questo motivo il seguente glossario riporta in primo luogo i termini in lingua inglese e tra parentesi, quando presenti, i loro equivalenti in lingua italiana. Alcune tra le parole e le locuzioni definite non riguardano direttamente la rilevazione del traffico su un sito (il termine “DNS” ad esempio), ma la conoscenza del loro significato è tuttavia importante ai fini di una miglior comprensione del funzionamento dei sistemi di rilevazione esistenti. Per ciascuno degli elementi definiti in questo glossario viene infine messa in luce, dove necessario, la potenziale ambiguità e l’incertezza da essi introdotta nei dati statistici relativi al traffico generato da un sito Internet.

I termini definiti non pretendono in alcun modo di esaurire il discorso in materia di statistiche-web. Si è cercato comunque di inserire con attenzione le parole e i concetti più importanti per la definizione e la rilevazione dei dati di traffico. Tutti i termini sono stati raggruppati, per maggiore chiarezza, in quattro categorie:

  1. termini tecnici generali di riferimento
  2. tipi di informazioni ricavabili dalle statistiche di traffico
  3. profilazione degli utenti e concetti collegati
  4. metodi per la rilevazione dei dati di traffico

 Termini tecnici generali di riferimento 

Caching
È l’operazione eseguita da un server (un proxy, ad esempio) o da un computer cliente, consistente nel memorizzare una copia locale di una risorsa recuperata da Internet, con lo scopo di servire all'utente che ne fa richiesta quella copia locale, in luogo del documento originale presente su Internet.
L’attività di caching può contribuire a falsare in notevole misura la veridicità dei dati di traffico rilevati dai log file di un  server web. (Secondo Martin Filz di Red Sheriff, la percentuale delle page view mancanti, dovuta all’attività di caching, può raggiungere il 60% del traffico totale che interessa un sito.) È possibile però prevenire questa perdita di traffico, inserendo nel codice delle pagine del sito sottoposto a rilevazione statistica un comando che, definendo la scadenza immediata della validità di ogni pagina, costringa l’utente interessato a collegarsi effettivamente alla risorsa richiesta, non potendola più recuperare dalla cache. Questa soluzione ha però degli svantaggi: in primo luogo una maggiore occupazione di banda, in secondo luogo un’attesa più lunga per il caricamento delle pagine (rispetto all'attesa per quelle recuperate direttamente dalla memoria del proxy) da parte dell’utente, il quale potrebbe essere negativamente influenzato – per quanto riguarda future visite - da un simile inconveniente.
 
Cookie
Letteralmente “biscotto”. Si tratta di un file di testo che viene generato dal browser dell’utente in seguito ad un messaggio inviato dal server web in risposta alla richiesta di collegamento ricevuta. Il cookie viene memorizzato sul computer cliente. Esso contiene delle informazioni che identificano univocamente quell’utente rispetto al sito Internet che lo ha generato. Ad ogni successiva connessione, il server web richiederà al browser il cookie precedentemente memorizzato. Se questo viene trovato, il server potrà utilizzare le informazioni in esso contenute per vari scopi:
  Tutte le rilevazioni statistiche di traffico-web originate dall’uso di cookie sono soggette principalmente a due variabili: a) che l’utente collegato abbia abilitato nel proprio browser il supporto per i cookie; b) che effettui i successivi collegamenti per mezzo dello stesso browser.
 
DHCP, Dynamic Host Configuration Protocol
È un protocollo di comunicazione che, installato su un server di rete, consente di governare automaticamente e centralmente l’assegnazione degli indirizzi IP a ciascuna macchina connessa ad Internet all’interno della rete. DHCP è in grado sia di assegnare IP statici, cioè indirizzi sempre uguali nel tempo, sia IP dinamici, cioè indirizzi con scadenza a breve termine (generalmente la durata di una sessione di connessione ad Internet). L’uso di DHCP con assegnazione di IP dinamici è particolarmente utile per quegli enti, quali università e provider, che hanno a disposizione un numero di indirizzi IP da distribuire inferiore al numero delle macchine che potenzialmente possono accedere ad Internet tramite i loro server.
Il fatto che moltissimi utenti si colleghino alla Rete per mezzo di IP dinamici ricevuti automaticamente via server DHCP è un’ulteriore fonte di incertezza per le rilevazioni statistiche del traffico generato da un sito. Infatti l’indirizzo IP soggetto ad assegnazione dinamica è un’informazione insufficiente per identificare nel tempo in modo non ambiguo un singolo visitatore del sito (lo stesso IP potrebbe essere assegnato in successione ad x utenti di una stessa rete).
 
DNS, domain name system
È il sistema che traduce i nomi di dominio in indirizzi IP. Un nome di dominio è un nome letterale, associato in modo univoco ad un indirizzo IP numerico, per identificare una risorsa su Internet. Ogni volta che un utente invia tramite il proprio browser una richiesta di collegamento specificando un nome di dominio (ad es. www.diodati.org), il server DNS competente intercetta la richiesta e trasforma la stringa letterale nel corrispondente indirizzo IP. Se quest’ultimo non è contenuto nella propria tabella di corrispondenze, la richiesta viene inoltrata ad un altro server DNS, e così via finché il nome letterale non viene risolto nella stringa numerica corrispondente. A questo punto, tutti i DNS interpellati si aggiornano automaticamente, inserendo nei rispettivi database la nuova corrispondenza trovata. Questo sistema di chiamate e aggiornamenti incrociati tra una serie di server DNS decentrati è più veloce, pratico e sicuro di un sistema basato su un unico server DNS centralizzato.
 
IP address (indirizzo IP)
La sigla IP sta per Internet Protocol. È un numero di 32 bit che rappresenta univocamente ogni mittente o ricevente di pacchetti di dati attraverso Internet. Nella sua forma più comune l’IP address è espresso come una serie di quattro numeri, separati tra loro da un punto. Ognuno dei quattro numeri può variare (con alcune limitazioni) tra 0 e 255. Qualsiasi comunicazione che avviene su reti appartenenti ad Internet deve comprendere necessariamente l’indirizzo IP del mittente e quello del destinatario, allo scopo di poter essere istradata correttamente.
 
Log file (file di registro)
Buona parte delle rilevazioni statistiche sul traffico generato dai siti Internet sono effettuate da programmi che analizzano e presentano, in forma comprensibile al lettore umano, i dati memorizzati momento per momento dai server web nei propri file di log.
Usati originariamente come fonte primaria di informazioni per determinare i carichi di lavoro dei server e studiare possibili migliorie nella distribuzione di quei carichi, oggi i dati ricavati dai file di registro sono considerati principalmente come strumenti commerciali, cioè:
  È importante però tener presente che i dati ricavati dall’analisi dei log non sono altro che registrazioni dell’attività del server web e, solo in modo indiretto e con molta cautela, possono essere considerati strumenti per conoscere il numero degli utenti collegati e le loro abitudini di navigazione. Su questo equivoco poggiano molte cattive interpretazioni dei dati di traffico generati dai server web.
I file di log possono assumere, a seconda dei sistemi, nomi e struttura differenti. Pur nella variabilità delle configurazioni, possiamo suddividere comunque i file di registro in quattro categorie principali:
 
  1. Transfer (o access) log – Registra tutte le richieste di trasferimento file pervenute ad un server tramite protocollo HTTP dagli utenti collegati via Internet. I dati in esso raccolti sono una buona misura del carico di lavoro a cui è sottoposto un server web.
  2. Error log – Memorizza tutte le richieste HTTP che non hanno prodotto il risultato atteso dall’utente. Rientrano in questa categoria il ben noto errore ‘404 File not found’, gli errori di timeout (= scadenza del tempo di attesa), le connessioni rifiutate, quelle interrotte, i messaggi di server ‘too busy’ (= troppo occupato), ed altri ancora. L’analisi degli errori riportati in questo file di registro è utile per correggere possibili squilibri nella struttura di un sito, per scoprire la presenza di collegamenti interrotti, per verificare se la potenza di elaborazione della CPU o la banda di connessione ad Internet siano sufficienti rispetto al volume di traffico generato.
  3. Referrer log – Tiene traccia della provenienza delle richieste di trasferimento di file ricevute dal server. È in genere meno usato dei due log precedenti.
  4. Agent (o user agent) log – Registra il tipo di software che invia una richiesta HTTP al server web. Le informazioni fornite da questo file di registro riguardano il tipo e la versione di browser utilizzato dall’utente, il sistema operativo usato, la risoluzione video. Altri dati importanti sono quelli relativi agli accessi effettuati da spider e robot utilizzati da motori di ricerca per indicizzare le pagine di un sito (se ne conoscono oltre una ventina).
    Va detto a questo proposito che le visite effettuate dai software di indicizzazione dei motori di ricerca dovrebbero essere sottratte al numero complessivo di visite al sito risultante dai file di registro. Questo è un altro degli equivoci che possono nascere da un esame superficiale dei dati di traffico forniti dai file di log.
     
NAT, Network Address Translation
Letteralmente: traslazione dell’indirizzo di rete. È un meccanismo che consente, tramite appositi sistemi hardware e software, di far corrispondere una serie di indirizzi IP usati solo in rete locale ad una serie, generalmente meno numerosa, di indirizzi IP pubblici. Si ottengono così molteplici vantaggi:
  L’uso di questa traslazione degli indirizzi IP da parte di molte reti rappresenta una perdita d’informazioni per la rilevazione statistica degli accessi ad un sito. Se, infatti, non si dispone della tabella di traduzione usata da un server NAT, non è possibile sapere se le richieste giunte da un certo IP fanno capo ad una o più macchine, né tantomeno a quali.
 
Proxy server
È un server che agisce da filtro tra le richieste di connessione a siti Internet, provenienti in genere dall’interno della rete LAN o WAN a cui il proxy appartiene, ed i siti stessi. La richiesta di accedere ad una risorsa su Internet, proveniente da un computer appartenente ad una LAN o ad una WAN, viene intercettata dal proxy di rete in modo del tutto trasparente per l’utente. Se la pagina richiesta non è presente nella cache (= memoria tampone) del proxy, la richiesta viene inoltrata al sito che ospita la risorsa, così da recuperare la pagina ed inviarla all’utente. Se, viceversa, la pagina è già presente nella cache del proxy, questa viene inoltrata direttamente all’utente, senza che occorra inviare alcuna richiesta al sito Internet che ospita la risorsa. L’uso di un proxy server fornisce essenzialmente due vantaggi:
  Come si può comprendere, il fatto che molti accessi ad un sito provengano da proxy di reti più o meno ampie può falsare grandemente la valutazione del numero di pagine effettivamente viste (page views), numero che potrebbe essere ben superiore a quello rilevato tramite l’analisi dei file di log. Si pensi ad esempio a quanti utenti potrebbero essere serviti da un’unica pagina prelevata da un proxy di America On Line e conservata nella sua cache.
 
Redirect (reindirizzamento)
È un meccanismo per mezzo del quale un utente che ha richiesto di collegarsi ad un certo indirizzo Internet viene reindirizzato automaticamente ad un indirizzo differente. Càpita spesso, così, che una medesima pagina web possa essere raggiunta, in virtù di appositi reindirizzamenti, da un certo numero di indirizzi diversi. Ai fini della rilevazione del numero effettivo di page view ottenuto in un certo periodo, occorre perciò tenere conto di tutti i redirect effettuati dal web server nel periodo considerato.
 
Reverse DNS lookup
Mentre la trasformazione da un indirizzo letterale al corrispondente indirizzo numerico è detta forward DNS lookup, l’operazione contraria – cioè il risalire da un indirizzo IP noto al corrispondente nome di dominio – è detta reverse DNS lookup. Appositi software sono in grado, interrogando dei server DNS, di ottenere il nome di dominio a partire dall’IP numerico. Un sistema di rilevazione dei dati di traffico ha più valore se è in grado di effettuare il reverse DNS lookup, dal momento che per l’interprete umano la lettura di una serie di IP numerici dice poco o nulla, mentre molto più utile risulta la corrispondente serie di indirizzi letterali: solo questa è in grado, infatti, di informare effettivamente gli amministratori di un sito sulla provenienza degli accessi registrati.
 
Spider, o crawler o web bot
Si tratta di programmi che automaticamente effettuano, in base a determinati criteri, una serie di richieste di file ad un server web, allo scopo di indicizzare i contenuti di quel sito per conto di un motore di ricerca.
Le richieste provenienti da spider possono incidere fortemente sulla rilevazione del traffico generato da un sito. Per tale motivo, gli accessi prodotti da spider vengono in genere evidenziati dai sistemi di misurazione statistica, in modo che se ne possa tener conto e non risultino così falsati i valori relativi alle visite ricevute da parte di utenti umani.
 
Session timeout
È la durata massima predefinita di una visita ad un sito da parte di un utente unico. Non esiste uno standard per questa durata e neppure un consistente accordo in proposito. La lunghezza di una sessione può variare da un minimo di 10-15 minuti ad un massimo di un’ora. Nella maggior parte dei casi essa è impostata su 20 o 30 minuti. Se dura 20 minuti, ciò significa che ad un utente unico - riconosciuto come tale perché ha il medesimo indirizzo IP - vengono attribuite due visite al sito, nel caso in cui una sua richiesta di pagina giunga oltre 20 minuti dopo la precedente richiesta registrata. Viceversa, se l’intervallo trascorso tra questi due eventi è inferiore a 20 minuti, allora viene conteggiata per quell’utente un’unica visita.
Come è facile comprendere, la durata di sessione è un parametro del tutto arbitrario, che nulla ha a che vedere con l’effettivo comportamento degli utenti collegati ad un sito e che può tuttavia influenzare le valutazioni del settore commerciale di un’azienda, circa la misura della fedeltà degli utenti ai siti presi in considerazione. Poniamo ad esempio che un sito, avendo un timeout di sessione impostato su 20 minuti, registri molte visite di utenti unici nell’arco di un mese di rilevazione: se ne potrebbe ricavare l’idea che dietro quelle visite ripetute si celino utenti fidelizzati. Basterebbe però probabilmente aumentare di soli dieci minuti il timeout di sessione, per scoprire che il numero di visite al sito da parte di utenti unici è nettamente diminuito! Ancora una volta è la conoscenza del significato e della reale portata dei numeri offerti dalle statistiche di traffico che aiuta a non commettere pericolosi errori di valutazione.
 
URL, Uniform Resource Locator
È l’indirizzo, unico e inequivocabile, di una risorsa su Internet. Qualsiasi documento - sia esso un file immagine, un file di testo, una risorsa multimediale, ecc. – è localizzabile precisamente per mezzo della URL. Questa comprende:
  Nel linguaggio tecnico delle Specifiche HTML 4, non si parla più di URL ma di URI (Uniform Resource Identifier = Identificatore Uniforme di Risorsa). Nel linguaggio comune di autori ed appassionati di Internet, però, l'uso della sigla URL è di fatto ancora largamente prevalente.

 Tipi di informazioni ricavabili dalle statistiche di traffico 

Ad impression
Nel linguaggio della pubblicità in Rete, si conta una impression ogni volta che un banner viene caricato in una pagina web. Poiché in una singola pagina può essere contenuto più di un banner, il numero di impression – registrato in un apposito file - è in genere superiore al numero delle pagine servite. Tuttavia è erroneo associare alla registrazione di una impression l’idea che il banner corrispondente sia stato effettivamente visto dall’utente che ha richiesto la pagina: non esiste infatti un modo per sapere se, ad esempio, l’utente ha attivato la visualizzazione delle immagini nel proprio browser oppure se ha scorso la pagina fino alla fine (nel caso che il banner si trovi al di sotto di ciò che lo schermo gli mostra inizialmente).
 
Average page view duration
È il tempo medio speso da un utente unico su una singola pagina del sito. Può essere calcolato in due modi:
 
 
Average page views per visit (o per user session, numero medio di pagine viste per visita)
Il valore si ottiene dividendo il numero complessivo di pagine richieste da un utente unico per il numero di visite effettuate da quell’utente nell’arco di tempo considerato. Incrociando i dati ottenuti per questo parametro con quelli relativi al tempo medio per visita, è possibile ipotizzare il comportamento-tipo degli utenti del sito. Ad esempio, una media di poche pagine viste per utente, accoppiata ad una lunga durata media delle visite registrate, potrebbe indicare che i visitatori del sito trovano con relativa facilità ciò che stanno cercando e leggono a fondo i contenuti reperiti. Viceversa, una media di molte pagine viste in rapida successione nel corso di poche e brevi visite potrebbe indicare che la struttura del sito è caotica, che gli utenti non riescono a trovare ciò che stanno cercando e che perciò non sono invogliati a ritornare.
Naturalmente queste supposizioni devono essere avanzate a ragion veduta: cioè facendo la tara di tutti i possibili fattori di incertezza dei dati statistici rilevati.
 
Average time per visit (o average session duration)
È il tempo medio speso da un utente unico per una visita al sito. Il valore si ottiene dividendo il tempo complessivo speso dall’utente sulle pagine del sito nel periodo considerato per il numero di visite che ha effettuato nello stesso periodo di tempo.
Poiché il numero di visite effettato da un utente unico in un certo arco di tempo dipende dal parametro arbitrario della durata di sessione (cfr. la voce session timeout), è evidente che anche la durata media di una visita risulta influenzata dal valore assunto da questo parametro.
 
Browser used (Browser usati)
È la classifica espressa in valori percentuali dei browser utilizzati dagli utenti che si collegano ad un sito. Questa informazione è utile soprattutto ai responsabili tecnici, per tarare al meglio la struttura delle pagine e la presentazione dei contenuti, in modo che siano navigabili per mezzo di ciascuno dei vari tipi di browser che risultano presenti in questa classifica. Se, ad esempio, analizzando l’elenco dei browser utilizzati, si scopre che una discreta percentuale di visitatori utilizza un browser non compatibile con alcune soluzioni tecniche implementate sul sito, sarebbe opportuno ricalibrare le pagine in modo da renderle accessibili anche alla fetta di utenza penalizzata dalle precedenti scelte tecniche.
Va comunque precisato che la verifica pratica di quali tipi di browser si colleghino alle pagine di un sito non dovrebbe aver alcuna importanza, se quelle pagine sono state codificate fin dall'inizio nel rispetto dei linguaggi standard per il Web definiti dal W3C.
 
Click rate
È il rapporto percentuale tra il numero di volte che un utente ha fatto clic su un banner presente su una pagina web ed il numero di volte che quel banner è stato caricato. È cioè il rapporto percentuale tra click-through ed impression. Un click rate del 5% significa, ad esempio, che un banner ha ricevuto 5 clic per ogni 100 richieste di caricamento registrate.
 
Click-through
È il numero di volte in cui un utente fa clic su un banner pubblicitario presente su una pagina web, collegandosi in tal modo al sito dell’azienda che vende il prodotto o il servizio reclamizzato dal banner.
 
Hit (richiesta di accesso)
Costituisce un hit qualsiasi richiesta di file pervenuta ad un server web. Così, se una pagina web è costituita da un file HTML e da sei immagini, la visualizzazione completa all’interno della finestra di un browser sia della pagina sia delle immagini in essa contenute corrisponderà alla registrazione di sette hit nell’apposito file di log del server. Un equivoco comune, soprattutto in passato, consisteva nel confondere le richieste di accesso con le pagine realmente caricate: un numero, quest’ultimo, che è in realtà quasi sempre nettamente inferiore al numero di hit registrato.
 
Hourly (daily, weekly, monthly, yearly) pages count
Un grafico o una tabella (1) che mostra la distribuzione oraria delle page view registrate nell’arco di una giornata (o la distribuzione giornaliera nell’arco di una settimana oppure di un mese, o la distribuzione mensile nell’arco di un anno solare).
 
Least requested, o popular, pages (pagine meno richieste)
È il complemento del parametro most requested pages, è cioè la classifica delle pagine meno richieste di un sito in un certo arco di tempo. Lo studio di questa classifica è utile per cercare di capire se i pochi accessi registrati per alcune pagine dipendono da contenuti non interessanti o dalla scarsa visibilità di quelle risorse nell’economia generale del sito.
 
Most common countries
È l’elenco in ordine decrescente delle nazioni da cui proviene il maggior numero di accessi ad un sito.
Most common operating systems
È la classifica espressa in valori percentuali dei sistemi operativi più utilizzati. Scorrendo i risultati forniti da questi resoconti si ha di solito la riprova di quanto sia schiacciante il monopolio ormai raggiunto dalla Microsoft (2).
Most requested pages (pagine più richieste)
È la classifica, in ordine decrescente, delle pagine che hanno ricevuto più contatti in un determinato arco di tempo. In base ai filtri impostati, possono essere considerati in questo elenco alcuni tipi di file – ad es. HTML e ASP – e non altri. È utile comunque, per i tecnici e per i responsabili editoriali di un sito, considerare attentamente la classifica delle pagine più richieste, sia per correggere eventuali problemi di natura tecnica - come un sovraccarico del server web dovuto ad errori di programmazione – sia per correggere problemi di struttura logica del sito: alcune pagine, ad esempio, potrebbero essere al vertice della classifica delle più richieste non per i loro contenuti, ma perché sono delle strettoie obbligate da cui passare per raggiungere determinati altri contenuti; altre pagine, al contrario, potrebbero ricevere pochi contatti soltanto perché non sono state rese sufficientemente visibili agli utenti (vedi least requested pages).
 
Page views (pagine viste)
Il numero di pagine viste su un sito è forse l’informazione più importante che le statistiche web possano fornire, ma è anche l’informazione di gran lunga più ambigua e difficile da determinare, sia per la difficoltà di definire univocamente cosa sia una pagina sia per l’impossibilità oggettiva di conoscere il rapporto preciso tra pagine servite e pagine caricate da un utente umano (a causa dell’interferenza di numerose variabili quali proxy, NAT, cache locali, spider, ecc.).
L’oggetto principale registrato da un server web come una pagina è il file HTML, che contiene le chiamate a tutti gli altri oggetti – immagini, suoni, elementi multimediali, ecc. – che servono a completare quell’entità piuttosto astratta che è la “pagina”. Ma non solo i file HTML hanno diritto ad essere considerati “pagine”: anche i file cosiddetti “dinamici”, cioè quelli che contengono elementi di programmazione in grado di generare contenuti differenti a seconda dei casi, sono a buon diritto da considerarsi “pagine”. Rientrano in questa categoria i file con estensione ASP, PHP, PHP3, PL e simili. Ma possono rientrarvi – ed è una scelta dell’amministratore di rete impostare di conseguenza opportuni filtri sul server – anche i file TXT, i file RTF, i file DOC, i PDF ed altri ancora.
Insomma: non è per niente semplice creare una categoria astratta chiamata “pagina”, che comprenda alcuni tipi di file e ne escluda altri e che fornisca, allo stesso tempo, un parametro attendibile per la valutazione del numero di pagine viste da utenti umani (3).
Tale ambiguità, unita all’impossibilità di determinare quanti esseri umani vi siano effettivamente dietro ciascuna chiamata di pagina ricevuta da un server web, dovrebbe far comprendere quanto siano aleatorie le valutazioni effettuate sulla base del numero di page view riportato dai programmi che analizzano i file di log.
Soprattutto va tenuto presente che la comparazione delle page view registrate per due o più siti differenti può essere un’operazione dai risultati molto poco attendibili: infatti, pur ponendo come uguali gli strumenti di rilevazione del dato e i filtri impostati, la struttura dei siti - in termini di composizione delle pagine e di oggetti in esse presenti o da esse richiamati – può essere motivo sufficiente per generare, nel numero di page view rilevato, uno scarto nettamente superiore (o nettamente inferiore) alla reale differenza nella quantità di pagine viste da visitatori umani su ciascuno di essi (4).
In definitiva, per dare sostanza ai meri dati numerici dei log relativi alle page view, occorre, più che in altre circostanze, lo studio approfondito di ogni singolo caso: non basta leggere la nuda serie dei numeri, ed è erronea la supposizione – ammesso che qualcuno la abbia - di avere a che fare con informazioni precise ed affidabili sui visitatori umani del proprio sito.
Infine una notazione che ha a che fare con l'accessibilità: il fatto che i sistemi di rilevazione statistica parlino comunemente di pagine viste piuttosto che di pagine caricate, fa comprendere quanto sia ancora forte e radicato il preconcetto che una pagina, per essere fruita da un utente, debba essere necessariamente esplorata con gli occhi.
 
Request By Organization Type
È la classifica in valori percentuali delle richieste di accesso ad un sito, ordinate in base al tipo di dominio da cui parte la richiesta (COM, NET, ORG, MIL, EDU, GOV, identificativi nazionali).
 
Single access pages
È la classifica delle pagine uniche più richieste, visitate in un certo intervallo di tempo. Si tratta cioè di quelle pagine che, per motivi che i responsabili di un sito dovrebbero studiare a fondo, suscitano l’interesse degli utenti, ma allo stesso tempo non li invogliano a proseguire la visita appena iniziata. Potrebbe trattarsi di pagine con contenuti chiusi in se stessi (ad esempio una serie di collegamenti o una recensione), referenziate da altri siti. In questo caso andrebbe studiato il modo per indurre il visitatore a continuare la navigazione all’interno del sito, ad esempio inserendo nelle pagine “incriminate” dei collegamenti ad altre sezioni con contenuti affini.
 
Top directories
È l’elenco in ordine decrescente delle directory (in genere solo quelle di primo livello) che hanno ricevuto complessivamente più richieste di accesso dagli utenti collegati. Questa classifica tende a dare un’idea dell’importanza reciproca delle sezioni in cui è suddiviso un sito. Perché questo resoconto abbia un qualche valore conoscitivo, occorre che la struttura logica del sito sia stata progettata in modo razionale, raggruppando i vari contenuti, in base alla loro omogeneità, sotto apposite directory.
 
Top entry pages
È la classifica in ordine decrescente delle pagine iniziali più richieste per ciascuna visita al sito registrata in un certo arco di tempo. Normalmente al vertice di questa classifica c’è la home page. Se così non è, diventa importante identificare i motivi per cui altre pagine funzionano meglio della home page come ingressi al sito. Ciò può essere fatto, ad esempio, analizzando i referrer log, cioè i dati sulla provenienza delle visite, per capire se e da quali altri siti sono referenziate le pagine che si trovano al vertice della classifica delle top entry.
 
Top exit pages
È la classifica in ordine decrescente delle pagine più richieste in un certo arco di tempo come pagine finali di una visita ad un sito. È, in altre parole, l’elenco delle pagine che sembrano più di tutte invogliare l’utente ad interrompere una visita in corso. Anche qui è importante uno studio approfondito, allo scopo di capire cosa c’è in quelle pagine che spinge i visitatori a lasciare il sito. Molto spesso la causa è da ricercarsi in una serie di collegamenti diretti ad altri siti; altre volte può trattarsi di un cattivo sviluppo dell’albero di navigazione, che finisce con il condurre gli utenti verso pagine-imbuto prive sia di informazioni utili sia di collegamenti verso altre sezioni del sito.
 
Top paths
È la classifica dei più comuni percorsi di navigazione seguiti dagli utenti nel corso delle loro visite ad un sito. Per ogni elemento della classifica vengono forniti di solito:

 
Top referring pages (o URLs)
È la classifica in ordine decrescente delle singole pagine che hanno reindirizzato degli utenti verso un sito. È utile che il servizio di rilevazione statistica adoperato permetta di aggregare i reindirizzamenti, in modo tale da separare quelli provenienti dall'interno del dominio di appartenenza del sito da quelli provenienti dall'esterno.
 
Top referring sites
È la classifica in ordine decrescente dei siti che hanno reindirizzato il maggior numero di contatti a file presenti su un sito. Spesso un’elevata percentuale di contatti è accoppiata in questa classifica all’etichetta “no referrer”: ciò significa che un utente si è collegato direttamente ad una risorsa su un sito, senza esserci arrivato per via di collegamenti. Questo caso si verifica, ad esempio, quando un visitatore, conoscendo l’indirizzo della pagina richiesta sul sito di destinazione, inserisce manualmente la URL nella barra degli indirizzi del proprio browser.
 
Top Search Engines (Motori di ricerca)
È l’elenco in ordine decrescente dei motori di ricerca che hanno generato più contatti al sito. Se il numero complessivo di contatti generato da motori di ricerca è basso rispetto al numero complessivo di contatti registrato per un sito, allora se ne può dedurre che le pagine e i contenuti di questo sito non sono sufficientemente indicizzati dai motori di ricerca. Occorrerebbe in questo caso effettuare le apposite procedure – spesso a pagamento e ottenibili in blocco rivolgendosi a società specializzate – per migliorare l’indicizzazione dei contenuti messi in linea. Essere ai vertici delle classifiche generate dai principali motori di ricerca può essere, infatti, un formidabile strumento per incrementare il numero di visite ricevute.
 
Top Search Keywords (Parole chiave)
È l’elenco in ordine decrescente delle parole chiave con più frequenza utilizzate dai visitatori di un sito nell’interrogare i motori di ricerca; parole chiave che hanno prodotto, come risultato dell’interrogazione, dei collegamenti e delle conseguenti visite al sito.
È importante che un sistema di rilevazione del traffico sia in grado di fornire la classifica delle parole chiave più utilizzate dagli utenti. Studiare con attenzione questa classifica è infatti molto utile al fine di comprendere che tipo di contenuti gli utenti riescono a trovare sul proprio sito grazie ai motori di ricerca. Per via di esclusione si può poi cercare di definire quali altri contenuti, pur presenti sul sito, non generano contatti tramite i motori di ricerca, e perché.
 
Unique visitor (visitatore unico)
Viene conteggiato come visitatore unico di un sito quel visitatore che – identificato principalmente per mezzo dell’indirizzo IP, ma anche per mezzo di cookie o di un’esplicita procedura di registrazione – effettua due o più visite ad un sito in un dato arco di tempo. È una misura considerata indicativa del traffico generato da un sito, ma anche del livello di fidelizzazione degli utenti. Anche in questo caso, però, le aspettative di conoscenza legate ai valori numerici rilevati si scontrano purtroppo con difficoltà oggettive: nel caso del tracciamento per mezzo dell’indirizzo IP, può capitare infatti che - grazie all’assegnamento di IP dinamici da parte di server DHCP - utenti diversi si colleghino in successione con lo stesso IP oppure il medesimo utente si colleghi più volte di seguito con un IP diverso. In entrambi i casi il numero di visitatori unici registrato risulta non veritiero.
Allo stesso modo, il rilevamento degli utenti unici può essere falsato quando il tracciamento avviene per mezzo di cookie ed una stessa persona si collega più volte ad uno stesso sito:

 
Visit (visita)
Tutte le richieste ricevute in successione ininterrotta da un server web, provenienti da un medesimo indirizzo IP. Si considera terminata una visita da parte di un utente identificato se tra due successive richieste di pagina intercorre un tempo superiore al timeout di sessione impostato: se questo, ad esempio, è impostato su 30 minuti, una richiesta di pagina da parte dello stesso utente che arrivi oltre 30 minuti dopo la precedente richiesta, sarà considerata come la prima pagina vista di una nuova visita al sito.
Il totale delle visite che si ricava in tal modo dall’analisi dei file di log per un dato periodo di tempo rappresenta evidentemente un’approssimazione statistica, il cui indice di affidabilità rimane imprecisato, dal momento che non esistono mezzi per sapere - tramite la sola analisi dei log - né quanto siano durate in realtà le singole visite ricevute né se con un medesimo indirizzo IP si sia collegata sempre la stessa persona oppure una serie di persone differenti.
 
Visitors Gained since Previous Period (Nuovi visitatori)
Si tratta di visitatori mai registrati nei precedenti periodi di rilevazione statistica, ovvero di nuovi visitatori.
 
Visitors Lost since Previous Period (Visitatori perduti)
È l’elenco dei visitatori registrati nel corso di precedenti periodi di osservazione e mancanti, invece, dalle rilevazioni per il periodo corrente: si tratta cioè di visitatori perduti.
 
Visitors Returning from Previous Period (Visitatori di ritorno)
Si tratta di visitatori che hanno già visitato un sito in un precedente intervallo di tempo. Per la significatività di questa classifica è importante tarare con intelligenza i periodi presi in considerazione (non si può considerare, ad esempio, come un visitatore abituale di un sito un utente la cui precedente visita è stata registrata tre anni prima).

 Profilazione degli utenti e concetti collegati 

Clickstream analysis
È l’analisi della serie registrata di clic del mouse, ovvero di scelte di navigazione effettuate dagli utenti di un sito. Costituisce uno degli elementi fondamentali del processo di profilazione degli utenti.
 
Data mart
È un database contenente dati raccolti in vista di un uso specifico. Può essere un sottoinsieme di un data warehouse, ma, rispetto al carattere generico di quest’ultimo, l’accento - in un data mart - è posto sulla capacità di venire incontro alle esigenze di particolari gruppi di utenti in termini di dati raccolti, presentazione delle informazioni, semplicità d’uso.
 
Data mining
È l’esame complessivo dei dati raccolti sull’attività dei propri utenti/clienti, tendente a trovare nei loro comportamenti correlazioni significative da un punto di vista commerciale. Costituisce pertanto una parte del complesso procedimento di profilazione degli utenti. I risultati a cui può giungere l’attività di data mining sono molteplici:

Data warehouse
Si definisce così la base dati centrale di un’azienda o di un suo settore di attività. È il serbatoio in cui confluiscono, spesso da numerose e differenti fonti, tutti i dati grezzi suscettibili di future elaborazioni. La massa di dati in esso contenuta rimane poco significativa, ai fini ad esempio della pianificazione commerciale dell’attività, finché questo insieme “bruto” di dati non viene filtrato ed analizzato da apposite applicazioni, per mezzo di una specifica attività di data mining.
 
OLAP, online analytical processing
Si tratta di applicazioni che, agendo su una base dati preesistente, consentono agli analisti di estrarre e correlare i dati in modo da generare una grande varietà di punti di vista e di associazioni. L’attività di data mining, descritta al punto precedente di questo glossario, è resa possibile appunto da applicazioni di tipo OLAP, le quali conservano i propri dati in database multidimensionali, così detti per distinguerli dai più comuni database relazionali. Mentre questi ultimi possono essere descritti come strutture bidimensionali, cioè piatte, nelle quali l’organizzazione delle informazioni sta nello schema di righe e colonne delle tabelle che li compongono, i database multidimensionali vanno associati piuttosto all’immagine di un solido, tipicamente un cubo, che simboleggia il fatto che ogni tipo di informazione presente in simili database può divenire il perno, ovvero la dimensione di riferimento, per una serie di associazioni con altri dati.
 
Profiling (profilazione)
È l’attività per mezzo della quale una serie complessa di dati relativi ad utenti/clienti viene elaborata da specifici programmi – come ad esempio l’Observation Management Server del notissimo Vignette – per generare alla fine la segmentazione della propria utenza in gruppi omogenei di comportamento. I dati che possono essere presi in considerazione per la profilazione sono molteplici. Tra questi citiamo:


I sistemi di profilazione più avanzati mettono a disposizione del settore commerciale di un’azienda la possibilità di segmentare in gruppi la propria utenza sia manualmente, scegliendo i parametri da prendere in considerazione, sia automaticamente, in base alle capacità native del software utilizzato. In entrambi i casi, il valore aggiunto è dato dalle molteplici correlazioni che è possibile istituire tra i dati raccolti, al fine di ricavarne informazioni commercialmente utili. Ecco a titolo esemplificativo alcune di queste correlazioni:

 
Profiling esplicito
Si ottiene per mezzo di un’apposita procedura di registrazione, che implica l’invio tramite un modulo di dati personali da parte dell’utente. I dati inviati, archiviati in un' apposita base dati, forniranno una serie di parametri utili a segmentare in gruppi omogenei la totalità degli utenti registrati.
 
Profiling implicito
È il tracciamento del comportamento di utenti anonimi nel corso delle loro visite ad un sito. Il tracciamento può avvenire sia tramite IP sia tramite cookie. L’insieme delle scelte di navigazione effettuate alimenta una base dati, da cui appositi programmi possono estrarre associazioni e correlazioni, in grado di segmentare la totalità degli utenti tracciati in gruppi omogenei.

 Metodi per la rilevazione dei dati di traffico 

BBM, browser-based measurement (misurazione basata sul browser)
Questo tipo di misurazione avviene sempre sulla base di dati registrati in file di log, ma la generazione dei log non è più determinata dall’attività del server web bensì dal caricamento nel browser dell’utente di un apposito frammento di codice, denominato page tag. Si tratta in genere di alcune righe contenenti un javascript, il cui compito è di inviare una richiesta HTTP al server addetto alla registrazione del traffico-web, per informarlo che è stata generata una page impression (5).
Questo metodo di rilevazione offre alcuni indubbi vantaggi:


Per contro, la misurazione basata sul browser presenta anche degli svantaggi:


Esistono molti società che offrono servizi di rilevazione statistica basati sul browser, sia gratuiti sia a pagamento. Spesso la formula prevede un’offerta base gratuita ed una, più completa, a pagamento. Tra i fornitori di statistiche di tipo BBM citiamo FreeStats, Sitetracker, SuperStats di MyComputer.com, ShinyStat, Site Stats. Una menzione particolare merita RedSheriff, con sedi in oltre 30 nazioni, che sta assumendo un ruolo di primo piano a livello internazionale nella fornitura di servizi professionali BBM.
 
Site-centric measurement (misurazione centrata sul sito)
La fonte principale per questo tipo di rilevazione sono i file di log che registrano l’attività del server web. Il limite maggiore di tale metodo è da ricercarsi nella scarsa corrispondenza tra le registrazioni dei log e l’effettiva attività dei visitatori del sito. Vi sono infatti molti fattori che generano incertezza. Tra questi:


Tra i vantaggi offerti dalle misurazioni site-centric c’è la possibilità di sottoporre i propri log file all’analisi di una società terza, avente funzioni di ente certificatore dei dati di traffico registrati (8). La certificazione riguarda essenzialmente due punti:


L’utilità commerciale di simili certificazioni è notevole, in quanto, conferendo un valore “quasi” oggettivo alle statistiche di traffico di un sito, aumenta di conseguenza la forza di contrattazione nella vendita di spazi pubblicitari: la certificazione infatti accresce la fiducia dell’acquirente nella possibilità di ottenere un numero di ad impression realmente commisurato al numero di page view dichiarato.
 
User-centric measurement (misurazione centrata sull’utente)
Questo tipo di misurazione è completamente differente dalle altre due. Non si tratta, infatti, di un’elaborazione statistica effettuata a partire dai dati registrati nei file di log; si tratta piuttosto di una vera e propria indagine di mercato, basata su elementi tipici del settore:


La validità delle proiezioni di traffico ricavate per mezzo di indagini di mercato è strettamente dipendente dalla significatività del campione selezionato – che è evidentemente una variabile difficilmente quantificabile – e dalla raffinatezza ed affidabilità degli strumenti statistici adoperati.
Esistono diverse società che effettuano ricerche di questo tipo. Tra esse citiamo Nielsen//NetRatings, Jupiter MMXI, NetValue.

 Conclusioni 

Al termine della lettura di questo glossario, dovrebbe essere ormai chiaro che la rilevazione del traffico web è una "scienza" giovane, che si scontra con una serie di ostacoli oggettivi, che influiscono per ora piuttosto seriamente sull'affidabilità dei dati registrati.

Tra i tre sistemi di rilevazione analizzati nel capitolo precedente è difficile dire quale sia il più attendibile, dal momento che ognuno di essi presenta vantaggi e svantaggi. Nel caso di siti con un numero non eccessivamente ampio di pagine, o di siti con una gestione centrale ben organizzata, la rilevazione di tipo BBM sembra essere la soluzione migliore, dal momento che permette di superare in buona parte le notevoli incertezze legate, nel caso della rilevazione site-centric, all'impossibilità di quantificare l'influenza di fattori quali caching, DHCP, NAT, ecc.

Al contrario, nel caso di domini contenenti una notevole quantità di siti, forse la soluzione migliore rimane la rilevazione site-centric, basata sull'analisi dei file di registro, magari certificata da una società specializzata. Quando infatti le pagine da monitorare sono migliaia - e se ne aggiungono di nuove ogni giorno, e le persone coinvolte nell'aggiornamento sono numerose e disperse, non esistendo un gestione centralizzata - diventa un fattore critico avere la certezza che i dati statistici registrati riguardino la totalità delle pagine esistenti e non una percentuale indefinibile delle stesse. I file di registro, conservando la totalità delle transazioni HTTP effettuate dai server web del dominio, consentono appunto di avere questa certezza. Anche se non bisogna dimenticare che tali registrazioni sono soprattutto uno strumento per la diagnosi dell'attività del server piuttosto che una fotografia oggettiva del numero degli utenti connessi e dei loro comportamenti di navigazione.

Per quanto riguarda il terzo sistema, cioè l'analisi a campione delle navigazioni effettuate dagli utenti, bisogna dire che il ricorso a questo strumento di inferenza statistica - essendo notevolmente costoso - non è alla portata di tutte le società presenti su Internet. La stessa affidabilità dei dati prodotti dall'analisi dipende fortemente dalla rappresentatività del campione selezionato e dalla validità degli strumenti tecnico-matematici utilizzati.

In definitiva, si potrebbe concludere che le rilevazioni statistiche del traffico generato da un sito, più che essere prese in se stesse come numeri assoluti, dovrebbero essere prese in senso relativo, cioè come rapporto proporzionale esistente tra le visite ricevute dalle differenti pagine di un sito. Voglio dire che, se il sistema di rilevazione adoperato ci dice che due pagine di uno stesso sito ricevono l'una 1000 visite al mese e l'altra 200, è sì molto probabile che il numero effettivo di volte in cui qualcuno ha caricato le due pagine sia più o meno differente da quello registrato dalle statistiche, ma è altresì molto probabile che il rapporto tra le volte in cui la prima pagina è stata caricata e le volte in cui è stata caricata la seconda sia prossimo a quel 5:1 rilevato dal sistema di misurazione in uso. Ciò pur con tutte le precauzioni del caso, dovute alla possibile influenza di diversi fattori non precisamente quantificabili.

Dall'analisi di simili informazioni, i gestori di un sito possono trarre una serie di conclusioni utili a migliorare la struttura e i contenuti delle proprie pagine web, anche se rimane relativamente inconoscibile il numero reale di visitatori in un certo arco di tempo.


(1) Spesso i sistemi di reportistica offrono entrambe le viste.

(2) Sembra che il 97-98% degli accessi totali ai principali siti italiani e internazionali avvengano tramite sistemi PC-Microsoft: questo finisce con il penalizzare purtroppo gli utenti di sistemi meno diffusi - soprattutto Macintosh - i quali si scontrano spesso con siti non ottimizzati per gli strumenti in loro possesso.

(3) Un file in formato PDF, tanto per fare un esempio, è contato nei log come un’unica pagina vista, anche se può contenere un documento composto da centinaia di pagine stampabili.

(4) Ad esempio, una pagina HTML suddivisa in quattro frame, cioè composta da quattro finestre che richiamano ciascuna un differente file HTML, può generare per ogni chiamata ricevuta dal frameset (cioè dalla pagina HTML che contiene i quattro sottoelementi) cinque page view registrate nei file di log. È facile comprendere, allora, che comparare il numero di page view registrato da un sito che contiene pagine con frame con l’analogo numero registrato da un sito con pagine senza frame è un’operazione priva di attendibilità, a meno che non si siano impostati complessi filtri in grado di eliminare dal conteggio tutte le page view in sovrannumero generate dall’uso dei frame. Analoghe ambiguità di conteggio sorgono quando delle pagine HTML sono associate a delle finestre pop-up aperte automaticamente al caricamento della pagina principale: l’effetto è di raddoppiare il numero di page view registrato, senza che ciò coincida con un effettivo raddoppio delle richieste volontarie di pagine da parte degli utenti collegati.

(5) Si parla in questo caso di page impression e non di page view per analogia con il meccanismo di registrazione di un ad impression: la presenza cioè nella pagina HTML di un frammento di codice specificamente destinato a generare la registrazione di un accesso in un file di log.

(6) I filtri applicabili ai file di log di un web server di solito includono o escludono dalla registrazione un’intera categoria di file, anche se è comunque possibile personalizzare i filtri, in modo tale da creare per ogni categoria le opportune eccezioni. In ogni caso, agire tramite filtri sulle registrazioni dei log, allo scopo di tener conto quotidianamente della mutevole struttura delle pagine e dei contenuti di un sito, richiede sicuramente più attenzione e lavoro che non decidere, caso per caso, di includere oppure no in una nuova pagina il codice javascript che determina la registrazione di una page impression.

(7) Si potrebbe pensare di fugare i dubbi incrociando i dati di traffico browser-based con i dati ricavati dai normali file di log. Va tenuto presente, però, che tale comparazione è estremamente difficile e tutto sommato poco attendibile: infatti i dati relativi all’attività del web server sono influenzati in una misura non quantificabile da una serie di fattori di incertezza (proxy, caching, IP dinamici), che si riverberano inevitabilmente sulla possibilità di confrontare in modo utile i dati statistici provenienti dalle due fonti.

(8) Per la Gran Bretagna e l’Irlanda questa funzione è svolta da ABC Electronic. Le sue certificazioni avvengono sulla base di una serie di standard definiti da un consorzio volontario di aziende, lo IFABC (International Federation of Audit Bureaux of Circulations). Le definizioni dei dati standard soggetti a rilevazione sono consultabili in Rete alla pagina http://www.ifabc.org/web/index.html.

Vai al sommario
Scrivi a info@diodati.org
Aggiornato Wednesday, 11-Sep-2002 11:45:16 CEST
3097 visite dal 11/09/2002

inizio pagina