Termini tecnici generali di riferimento

03 Termini tecnici generali di riferimento

[Salta il menu]
Caching
Cookie
DHCP, Dynamic Host Configuration Protocol
DNS, domain name system
IP address (indirizzo IP)
Log file (file di registro)
NAT, Network Address Translation
Proxy server
Redirect (reindirizzamento)
Reverse DNS lookup
Spider, o crawler o web bot
Session timeout
URL, Uniform Resource Locator

È l’operazione eseguita da un server (un proxy, ad esempio) o da un computer cliente, consistente nel memorizzare una copia locale di una risorsa recuperata da Internet, con lo scopo di servire all'utente che ne fa richiesta quella copia locale, in luogo del documento originale presente su Internet.
L’attività di caching può contribuire a falsare in notevole misura la veridicità dei dati di traffico rilevati dai log file di un server web. (Secondo Martin Filz di Red Sheriff, la percentuale delle page view mancanti, dovuta all’attività di caching, può raggiungere il 60% del traffico totale che interessa un sito.) È possibile però prevenire questa perdita di traffico, inserendo nel codice delle pagine del sito sottoposto a rilevazione statistica un comando che, definendo la scadenza immediata della validità di ogni pagina, costringa l’utente interessato a collegarsi effettivamente alla risorsa richiesta, non potendola più recuperare dalla cache. Questa soluzione ha però degli svantaggi: in primo luogo una maggiore occupazione di banda, in secondo luogo un’attesa più lunga per il caricamento delle pagine (rispetto all'attesa per quelle recuperate direttamente dalla memoria del proxy) da parte dell’utente, il quale potrebbe essere negativamente influenzato – per quanto riguarda future visite - da un simile inconveniente.

Cookie

Letteralmente “biscotto”. Si tratta di un file di testo che viene generato dal browser dell’utente in seguito ad un messaggio inviato dal server web in risposta alla richiesta di collegamento ricevuta. Il cookie viene memorizzato sul computer cliente. Esso contiene delle informazioni che identificano univocamente quell’utente rispetto al sito Internet che lo ha generato. Ad ogni successiva connessione, il server web richiederà al browser il cookie precedentemente memorizzato. Se questo viene trovato, il server potrà utilizzare le informazioni in esso contenute per vari scopi:

per offrire contenuti personalizzati a quell’utente (ad esempio una pagina di benvenuto con il suo nome);
per tracciare dei profili di comportamento basati sui percorsi di navigazione seguiti nel corso delle visite effettuate al sito;
per aggiornare le statistiche che registrano le visite ricevute da utenti unici.

Tutte le rilevazioni statistiche di traffico-web originate dall’uso di cookie sono soggette principalmente a due variabili: a) che l’utente collegato abbia abilitato nel proprio browser il supporto per i cookie; b) che effettui i successivi collegamenti per mezzo dello stesso browser.

DHCP, Dynamic Host Configuration Protocol

È un protocollo di comunicazione che, installato su un server di rete, consente di governare automaticamente e centralmente l’assegnazione degli indirizzi IP a ciascuna macchina connessa ad Internet all’interno della rete. DHCP è in grado sia di assegnare IP statici, cioè indirizzi sempre uguali nel tempo, sia IP dinamici, cioè indirizzi con scadenza a breve termine (generalmente la durata di una sessione di connessione ad Internet). L’uso di DHCP con assegnazione di IP dinamici è particolarmente utile per quegli enti, quali università e provider, che hanno a disposizione un numero di indirizzi IP da distribuire inferiore al numero delle macchine che potenzialmente possono accedere ad Internet tramite i loro server.
Il fatto che moltissimi utenti si colleghino alla Rete per mezzo di IP dinamici ricevuti automaticamente via server DHCP è un’ulteriore fonte di incertezza per le rilevazioni statistiche del traffico generato da un sito. Infatti l’indirizzo IP soggetto ad assegnazione dinamica è un’informazione insufficiente per identificare nel tempo in modo non ambiguo un singolo visitatore del sito (lo stesso IP potrebbe essere assegnato in successione ad x utenti di una stessa rete).

DNS, domain name system

È il sistema che traduce i nomi di dominio in indirizzi IP. Un nome di dominio è un nome letterale, associato in modo univoco ad un indirizzo IP numerico, per identificare una risorsa su Internet. Ogni volta che un utente invia tramite il proprio browser una richiesta di collegamento specificando un nome di dominio (ad es. www.diodati.org), il server DNS competente intercetta la richiesta e trasforma la stringa letterale nel corrispondente indirizzo IP. Se quest’ultimo non è contenuto nella propria tabella di corrispondenze, la richiesta viene inoltrata ad un altro server DNS, e così via finché il nome letterale non viene risolto nella stringa numerica corrispondente. A questo punto, tutti i DNS interpellati si aggiornano automaticamente, inserendo nei rispettivi database la nuova corrispondenza trovata. Questo sistema di chiamate e aggiornamenti incrociati tra una serie di server DNS decentrati è più veloce, pratico e sicuro di un sistema basato su un unico server DNS centralizzato.

IP address (indirizzo IP)

La sigla IP sta per Internet Protocol. È un numero di 32 bit che rappresenta univocamente ogni mittente o ricevente di pacchetti di dati attraverso Internet. Nella sua forma più comune l’IP address è espresso come una serie di quattro numeri, separati tra loro da un punto. Ognuno dei quattro numeri può variare (con alcune limitazioni) tra 0 e 255. Qualsiasi comunicazione che avviene su reti appartenenti ad Internet deve comprendere necessariamente l’indirizzo IP del mittente e quello del destinatario, allo scopo di poter essere istradata correttamente.

Log file (file di registro)

Buona parte delle rilevazioni statistiche sul traffico generato dai siti Internet sono effettuate da programmi che analizzano e presentano, in forma comprensibile al lettore umano, i dati memorizzati momento per momento dai server web nei propri file di log.
Usati originariamente come fonte primaria di informazioni per determinare i carichi di lavoro dei server e studiare possibili migliorie nella distribuzione di quei carichi, oggi i dati ricavati dai file di registro sono considerati principalmente come strumenti commerciali, cioè:

come informazioni sul successo di un sito Internet o di una sua parte,
come mezzi per conoscere abitudini e preferenze di navigazione degli utenti che si collegano ad un sito,
come credenziali per vendere servizi (ad esempio spazi pubblicitari).

È importante però tener presente che i dati ricavati dall’analisi dei log non sono altro che registrazioni dell’attività del server web e, solo in modo indiretto e con molta cautela, possono essere considerati strumenti per conoscere il numero degli utenti collegati e le loro abitudini di navigazione. Su questo equivoco poggiano molte cattive interpretazioni dei dati di traffico generati dai server web.
I file di log possono assumere, a seconda dei sistemi, nomi e struttura differenti. Pur nella variabilità delle configurazioni, possiamo suddividere comunque i file di registro in quattro categorie principali:

Transfer (o access) log – Registra tutte le richieste di trasferimento file pervenute ad un server tramite protocollo HTTP dagli utenti collegati via Internet. I dati in esso raccolti sono una buona misura del carico di lavoro a cui è sottoposto un server web.
Error log – Memorizza tutte le richieste HTTP che non hanno prodotto il risultato atteso dall’utente. Rientrano in questa categoria il ben noto errore ‘404 File not found’, gli errori di timeout (= scadenza del tempo di attesa), le connessioni rifiutate, quelle interrotte, i messaggi di server ‘too busy’ (= troppo occupato), ed altri ancora. L’analisi degli errori riportati in questo file di registro è utile per correggere possibili squilibri nella struttura di un sito, per scoprire la presenza di collegamenti interrotti, per verificare se la potenza di elaborazione della CPU o la banda di connessione ad Internet siano sufficienti rispetto al volume di traffico generato.
Referrer log – Tiene traccia della provenienza delle richieste di trasferimento di file ricevute dal server. È in genere meno usato dei due log precedenti.
Agent (o user agent) log – Registra il tipo di software che invia una richiesta HTTP al server web. Le informazioni fornite da questo file di registro riguardano il tipo e la versione di browser utilizzato dall’utente, il sistema operativo usato, la risoluzione video. Altri dati importanti sono quelli relativi agli accessi effettuati da spider e robot utilizzati da motori di ricerca per indicizzare le pagine di un sito (se ne conoscono oltre una ventina).
Va detto a questo proposito che le visite effettuate dai software di indicizzazione dei motori di ricerca dovrebbero essere sottratte al numero complessivo di visite al sito risultante dai file di registro. Questo è un altro degli equivoci che possono nascere da un esame superficiale dei dati di traffico forniti dai file di log.

NAT, Network Address Translation

Letteralmente: traslazione dell’indirizzo di rete. È un meccanismo che consente, tramite appositi sistemi hardware e software, di far corrispondere una serie di indirizzi IP usati solo in rete locale ad una serie, generalmente meno numerosa, di indirizzi IP pubblici. Si ottengono così molteplici vantaggi:

l’uso in rete locale di indirizzi IP già assegnati su Internet (la cosa non crea conflitto per il fatto, appunto, che tali IP sono usati solo per identificare i computer all’interno di una LAN);
la possibilità di mascherare l’IP delle singole macchine agli utenti esterni, i quali “vedono” unicamente gli IP pubblici attribuiti al gateway di rete (in questo senso il natting, interponendosi tra l’interno e l’esterno della rete locale agisce anche da firewall)
la possibilità di gestire in concreto una quantità di IP maggiore di quelli che sono stati acquistati come IP pubblici

L’uso di questa traslazione degli indirizzi IP da parte di molte reti rappresenta una perdita d’informazioni per la rilevazione statistica degli accessi ad un sito. Se, infatti, non si dispone della tabella di traduzione usata da un server NAT, non è possibile sapere se le richieste giunte da un certo IP fanno capo ad una o più macchine, né tantomeno a quali.

Proxy server

È un server che agisce da filtro tra le richieste di connessione a siti Internet, provenienti in genere dall’interno della rete LAN o WAN a cui il proxy appartiene, ed i siti stessi. La richiesta di accedere ad una risorsa su Internet, proveniente da un computer appartenente ad una LAN o ad una WAN, viene intercettata dal proxy di rete in modo del tutto trasparente per l’utente. Se la pagina richiesta non è presente nella cache (= memoria tampone) del proxy, la richiesta viene inoltrata al sito che ospita la risorsa, così da recuperare la pagina ed inviarla all’utente. Se, viceversa, la pagina è già presente nella cache del proxy, questa viene inoltrata direttamente all’utente, senza che occorra inviare alcuna richiesta al sito Internet che ospita la risorsa. L’uso di un proxy server fornisce essenzialmente due vantaggi:

La possibilità di filtrare le richieste provenienti dall’interno della propria rete, in modo da evitare, ad esempio, di soddisfare le richieste di connessione a determinati siti proibiti dalle regole aziendali.
La possibilità di aumentare notevolmente le prestazioni, risparmiando tempo e banda di connessione: ciò avviene quando una stessa pagina, già presente nella cache del proxy, viene richiesta da più utenti e quindi inviata loro direttamente dal proxy stesso, che evita così di connettersi nuovamente al server remoto che ospita la risorsa.

Come si può comprendere, il fatto che molti accessi ad un sito provengano da proxy di reti più o meno ampie può falsare grandemente la valutazione del numero di pagine effettivamente viste (page views), numero che potrebbe essere ben superiore a quello rilevato tramite l’analisi dei file di log. Si pensi ad esempio a quanti utenti potrebbero essere serviti da un’unica pagina prelevata da un proxy di America On Line e conservata nella sua cache.

Redirect (reindirizzamento)

È un meccanismo per mezzo del quale un utente che ha richiesto di collegarsi ad un certo indirizzo Internet viene reindirizzato automaticamente ad un indirizzo differente. Càpita spesso, così, che una medesima pagina web possa essere raggiunta, in virtù di appositi reindirizzamenti, da un certo numero di indirizzi diversi. Ai fini della rilevazione del numero effettivo di page view ottenuto in un certo periodo, occorre perciò tenere conto di tutti i redirect effettuati dal web server nel periodo considerato.

Reverse DNS lookup

Mentre la trasformazione da un indirizzo letterale al corrispondente indirizzo numerico è detta forward DNS lookup, l’operazione contraria – cioè il risalire da un indirizzo IP noto al corrispondente nome di dominio – è detta reverse DNS lookup. Appositi software sono in grado, interrogando dei server DNS, di ottenere il nome di dominio a partire dall’IP numerico. Un sistema di rilevazione dei dati di traffico ha più valore se è in grado di effettuare il reverse DNS lookup, dal momento che per l’interprete umano la lettura di una serie di IP numerici dice poco o nulla, mentre molto più utile risulta la corrispondente serie di indirizzi letterali: solo questa è in grado, infatti, di informare effettivamente gli amministratori di un sito sulla provenienza degli accessi registrati.

Spider, o crawler o web bot

Si tratta di programmi che automaticamente effettuano, in base a determinati criteri, una serie di richieste di file ad un server web, allo scopo di indicizzare i contenuti di quel sito per conto di un motore di ricerca.
Le richieste provenienti da spider possono incidere fortemente sulla rilevazione del traffico generato da un sito. Per tale motivo, gli accessi prodotti da spider vengono in genere evidenziati dai sistemi di misurazione statistica, in modo che se ne possa tener conto e non risultino così falsati i valori relativi alle visite ricevute da parte di utenti umani.

Session timeout

È la durata massima predefinita di una visita ad un sito da parte di un utente unico. Non esiste uno standard per questa durata e neppure un consistente accordo in proposito. La lunghezza di una sessione può variare da un minimo di 10-15 minuti ad un massimo di un’ora. Nella maggior parte dei casi essa è impostata su 20 o 30 minuti. Se dura 20 minuti, ciò significa che ad un utente unico - riconosciuto come tale perché ha il medesimo indirizzo IP - vengono attribuite due visite al sito, nel caso in cui una sua richiesta di pagina giunga oltre 20 minuti dopo la precedente richiesta registrata. Viceversa, se l’intervallo trascorso tra questi due eventi è inferiore a 20 minuti, allora viene conteggiata per quell’utente un’unica visita.
Come è facile comprendere, la durata di sessione è un parametro del tutto arbitrario, che nulla ha a che vedere con l’effettivo comportamento degli utenti collegati ad un sito e che può tuttavia influenzare le valutazioni del settore commerciale di un’azienda, circa la misura della fedeltà degli utenti ai siti presi in considerazione. Poniamo ad esempio che un sito, avendo un timeout di sessione impostato su 20 minuti, registri molte visite di utenti unici nell’arco di un mese di rilevazione: se ne potrebbe ricavare l’idea che dietro quelle visite ripetute si celino utenti fidelizzati. Basterebbe però probabilmente aumentare di soli dieci minuti il timeout di sessione, per scoprire che il numero di visite al sito da parte di utenti unici è nettamente diminuito! Ancora una volta è la conoscenza del significato e della reale portata dei numeri offerti dalle statistiche di traffico che aiuta a non commettere pericolosi errori di valutazione.

URL, Uniform Resource Locator

È l’indirizzo, unico e inequivocabile, di una risorsa su Internet. Qualsiasi documento - sia esso un file immagine, un file di testo, una risorsa multimediale, ecc. – è localizzabile precisamente per mezzo della URL. Questa comprende:

una parte relativa al protocollo di comunicazione invocato (es.: http://);
una parte più generale, che identifica l’host, ovvero il computer su cui è archiviata la risorsa (es.: www.diodati.org);
una parte di dettaglio, che specifica il percorso e il nome del file da recuperare (es.: /scritti/2002/g_stat/index.htm).

Nel linguaggio tecnico delle Specifiche HTML 4, non si parla più di URL ma di URI (Uniform Resource Identifier = Identificatore Uniforme di Risorsa). Nel linguaggio comune di autori ed appassionati di Internet, però, l'uso della sigla URL è di fatto ancora largamente prevalente.

Leggi Tipi di informazioni ricavabili dalle statistiche di traffico
Vai al sommario
Scrivi a info@diodati.org
Aggiornato

inizio pagina