Modelli statistici lineari

Anche per Modelli statistici, come per Statistica multivariata, ho provato a tradurre in R quello che è stato illustrato nel corso. Negli appunti uso comunque anche il SAS.

In sostanza, ho usato sia SAS che R per le analisi ANOVA e di regressione, solo R (che si presta meglio di SAS a essere usato come "calcolatrice") per mostrare da quali calcoli vengono fuori i numeri (devianza totale, spiegata e residua; valori delle statistiche test sia F che t e dei relativi p-value, ecc.).

Appunti: ModStat.pdf

Dato l'esame (25/1/2010), devo pensare al prossimo. Gli appunti restano quindi così come sono, nonostante ci sarebbe qualcosa (molto) da aggiungere e qualcosa da correggere. Lascio comunque la sintetica cronologia delle modifiche, seguita da un errata corrige:

15/12/09		Ho rivisto (secondo le indicazioni della prof) la descrizione generale del disegno sperimentale e la formalizzazione del modello lineare normale.
		Ho illustrato il teorema di Cochran e la sua applicazione in un modo che mi pare più coerente con gli esempi visti a lezione (variabili non centrate oltre che centrate).
		Ho aggiunto un'appendice matematica (inversa destra e sinistra, inversa generalizzata, pseudoinversa, matrici di proiezione).
23/12/09		Capitolo 1: ho aggiunto alla fine i valori attesi della varianza spiegata e residua (pag. 6 degli appunti della prof sulle forme quadratiche) cercando di spiegarne il senso.
		Capitolo 2: ho aggiunto i test di ipotesi sui parametri per il modello a un solo fattore, cercando di mostrare perché si eseguono test t invece che F e come vengono svolti i calcoli. Ho aggiunto anche il calcolo degli intervalli di confidenza per i parametri.
		Appendice matematica: ho aggiunto un esempio di calcolo di una pseudoinversa mediante scomposizione ai valori singolari.
28/12/09		Capitolo 1: modifiche minori.
		Capitolo 2: ho aggiungo il modello a due fattori per esperimenti completi e bilanciati (dietepec). Principali aspetti trattati (tra parentesi gli appunti della prof che ho considerato): – come si calcolano gli effetti dei singoli fattori e quello interattivo; – perché non conviene usare la riparametrizzazione corner point e conviene invece quella "classica" (dietepec.pdf); – come si usa il comando `estimate` per la stima (e i test di ipotesi) dei parametri con la riparametrizzazione "classica" (appunti_25_11_B.pdf); – come si fa l'analisi della varianza non solo per il modello, ma anche per i singoli parametri (dietepec.pdf); – come si procede se l'effetto interattivo non risulta significativo, come succede per dietepec (esempio_anova.pdf).
3/1/10		Capitolo 2: l'ho terminato (per ora) aggiungendo: – i modelli a tre o più fattori, nei quali la stima dei parametri rischia di complicarsi e si tratta di capire quali effetti interattivi possono essere esclusi; – gli esperimenti a blocchi randomizzati, mettendo in evidenza il loro scopo, che è quello di depurare la varianza residua della quota di variabilità attribuibile al fattore di blocco, rendendo più affidabile il test di ipotesi sul modello.
		Capitolo 3: ho iniziato il capitolo sulla regressione lineare, per ora limitato alla regressione semplice (una sola variabile esplicativa). Ho voluto approfondire, per mio interesse, i test di ipotesi sui coefficienti di regressione e i relativi intervalli di confidenza, e anche le bande di confidenza, viste solo di sfuggita a lezione, ma il bello (più variabili esplicative) deve ancora venire...
7/1/10		Capitolo 2: Ho corretto la matrice di riparametrizzazione della figura 2.6 a pag. 51 e il testo dell'Osservazione a pag. 57.
		Capitolo 3: ho aggiunto la regressione multipla, mostrando cosa sono le devianze di tipo I, II e III e come si usano per i test sui coefficienti di regressione; ci sono poi la multicollinearità (su cui conto di tornare), gli effetti interattivi, la regressione plinomiale e quella con variabili esplicative qualitative.
8/1/10		Capitolo 3: l'ho terminato aggiungendo una sezione sulla scelta delle variabili esplicative, quindi sui criteri (Cp, PRESS ecc.), sugli algoritmi di selezione di un numero ristretto di modelli "buoni", sugli algoritmi "passo passo" per la scelta di un unico modello "migliore" (stepwise, forward, backward).
19/1/10		Capitolo 2: ho aggiunto una sezione sugli esperimenti non bilanciati. In pratica, basta ricordarsi di badare alla "type III SS", ma ho cercato di far vedere perché e che tipo di conti ci sono dietro.
		Capitolo 4: ho scritto buona parte del capitolo sull'analisi diagnostica. Direi che manca solo qualcosa sulla rilevazione della multicollinearità e sulle relative azioni correttive.

Errata corrige

pag. 119 "Gli algoritmi stepwise". Non è un errore, ma un'omissione. SAS usa slentry=0.50 come default per l'opzione forward, slstay=0.10 come default per l'opzione backward, ma avevo dimenticato il motivo, quindi non l'ho scritto. Come aveva detto la prof a lezione, in forward, dato che si aggiunge una variabile alla volta, la devianza residua è "viziata" dal fatto che in essa è compresa anche la devianza che può essere spiegata dalle variabili non ancora aggiunte; è quindi opportuna una rete a maglie larghe. In backward, invece, si parte da un modello che comprende tutte le possibili variabili esplicative e, quindi, da una situazione in cui la devianza residua è ridotta all'osso; è questo il motivo per cui si deve essere più restrittivi nella scelta delle variabili da lasciare nel modello.

pag. 120

Subito prima dell'esempio 3.34 avevo scritto che, essendo le variabili x7 e x8 la codifica di un'unica variabile, le due andrebbero escluse o incluse insieme. In realtà, quando più variabili sono il risultato della codifica di una variabile qualitativa, includerle o includerle insieme ha senso pieno solo se il carattere è sconnesso. Nel caso di x7 e x8, invece, x7 risulta difficilmente interpretabile in quanto rappresenta un livello "medio" di uso di alcool compreso tra "nessuno" e "eccessivo". Ciò si vede bene se si pensa al significato del relativo coefficiente di regressione:

β₈: variazione del tempo di sopravvivenza y se l'uso di alcool passa da "nessuno o moderato" a "eccessivo";
β₇: variazione di y se l'uso di alcool passa da "nessuno o eccessivo" a "moderato" (?)

Vi sono quindi due soluzioni possibili:

lasciare che x7 venga esclusa dal modello (come suggerito dagli algoritmi);
codificare diversamente la variabile "uso di alcool", ad esempio con (0,0,1) per "uso eccessivo" e (0,1,1) per "uso non nullo".

pag. 127 Sez. 4.2.4 "Verifica della normalità", lettera b): «sembrerebbe di poter calcolare, per ogni i, i reciproci di Φ(i/n), ma così per l'ultimo termine si avrebbe Φ(1)=inf» è ovviamente sbagliato e va letto: «sembrerebbe di poter calcolare, per ogni i, i valori di Φ^-1(i/n), ma così per l'ultimo termine di avrebbe Φ^-1(1)=inf» ecc.

Mi sono basato su:

gli appunti presi a lezione;
gli appunti inviati dalla prof via e-mail;
le dispense del prof. D'Arcangelo;
l'appendice A del Di Fonzo - Lisi per la regressione;
il testo consigliato dalla prof.ssa Vitiello (meglio: la quinta edizione, del 2005, di quel testo del 1980 che aveva consigliato):

Michael H. Kutner, Christopher J. Nachtsheim, John Neter e William Li,
Applied Linear Statistical Models,
McGraw-Hill International Edition, 2005
www.amazon.co.uk
un testo trovato su books.google:

Debasis Sengupta e Sreenivasa Rao Jammalamadaka,
Linear Models: An Integrated Approach,
World Scientific, Singapore, 2003

Gli appunti sono qui: ModStat.pdf.

L'indice:

Disegni sperimentali e modelli statistici parametrici

Il disegno sperimentale

Le componenti di un esperimento
Disegni sperimentali standard

Dalla matrice dei dati al modello statistico
Modelli di riparametrizzazione
Modelli statistici lineari

Stima dei parametri
Valori teorici
Variabile aleatoria "residuo"
Il teorema di Cochran e l'analisi della varianza

Il modello ANOVA

Esperimenti con un solo fattore

La stima dei parametri
L'analisi della varianza
Il test di ipotesi sul modello
Confronti tra medie
Il modello a effetti dei fattori
I test di ipotesi sui parametri
Intervalli di confidenza dei parametri

Esperimenti completi e bilanciati con due fattori

Effetti interattivi
Il modello a effetti dei fattori
La stima dei parametri
L'analisi della varianza
I test di ipotesi sui parametri
Se l'effetto interattivo risulta non significativo
Se vi è una sola osservazione per trattamento

Esperimenti completi e bilanciati con tre o più fattori

La stima dei parametri
L'analisi della varianza

Esperimenti non bilanciati

Costruzione di un modello regressivo e test di ipotesi
Stima e intervalli di confidenza dei parametri

La regressione lineare

Regressione lineare semplice

La stima dei coefficienti di regressione e dei valori teorici
Il test di ipotesi sul modello e il coefficiente di determinazione
I test di ipotesi sui coefficienti di regressione
Le bande di confidenza

Regressione lineare multipla

Devianze di tipo I, II e III
I coefficienti di determinazione parziali
I test di ipotesi sui coefficienti di regressione
La multicollinearità
Effetti interattivi
La regressione polinomiale
La regressione con variabili esplicative qualitative
Scelta delle variabili esplicative

L'analisi diagnostica

La variabile aleatoria "residuo"
Adeguatezza del modello

Verifica della linearità
Verifica della costanza della varianza
Verifica dell'indipendenza
Verifica della normalità
Azioni correttive

Qualità dei dati

Individuazione di valori anomali della variabile risposta
Individuazione di valori anomali delle variabili esplicative
Individuazione dei casi influenti
Azioni correttive

Complementi di algebra lineare

Matrici inverse e inverse generalizzate
Operatori di proiezione
Immagine di una matrice
Proiezione ortogonale sull'immagine di una matrice

File di dati

bodyfat.csv (4/1/10)		matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 7, tabella 7.1, pag. 257
caffeina.csv (19/10/09)		i dati usati in CAFFEINA.SAS
dietepec.csv (26/11/09)		i dati usati in DIETEPEC1.SAS (quello con 40 unità sperimentali)
dietetop.csv (26/11/09)		i dati usati in DIETETOP.SAS
dwainestudios.csv (4/1/10)		matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 6, figura 6.5, pag. 237
inquina.csv (5/1/10)		i dati usati in INQUINA.SAS
insurinn.csv (7/1/10)		matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 8, tabella 8.2, pag. 317
musclemass.csv (5/1/10)		matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 1, problema 1.27, pag. 36
perfectcorr.csv (5/1/10)		matrice di dati adattata da Kutner, Nachtsheim, Neter e Li, cap. 7, tabella 7.8, pag. 281
plasma.csv (13/1/10)		matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 3, tabella 3.8, pag. 133
plutonio.csv (13/1/10)		matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 3, tabella 3.10, pag. 141
salestraining.csv (13/1/10)		matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 3, tabella 3.7, pag. 130
surgunit.csv (7/1/10)		matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 9, tabella 9.1, pag. 351 (NB: contiene più colonne di quella usata in SURGICAL.SAS)
surr.csv (30/12/09)		i dati usati in SURR1.SAS
toluca.csv (1/1/10)		matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 1, tabella 1.1, pag. 19
transit.csv (11/1/10)		matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 3, tabella 3.1, pag. 105
workcrew.csv (5/1/10)		matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 7, tabella 7.6, pag. 279