Modelli statistici lineari

Anche per Modelli statistici, come per Statistica multivariata, ho provato a tradurre in R quello che è stato illustrato nel corso. Negli appunti uso comunque anche il SAS.

In sostanza, ho usato sia SAS che R per le analisi ANOVA e di regressione, solo R (che si presta meglio di SAS a essere usato come "calcolatrice") per mostrare da quali calcoli vengono fuori i numeri (devianza totale, spiegata e residua; valori delle statistiche test sia F che t e dei relativi p-value, ecc.).

Appunti: ModStat.pdf

Dato l'esame (25/1/2010), devo pensare al prossimo. Gli appunti restano quindi così come sono, nonostante ci sarebbe qualcosa (molto) da aggiungere e qualcosa da correggere. Lascio comunque la sintetica cronologia delle modifiche, seguita da un errata corrige:

15/12/09   Ho rivisto (secondo le indicazioni della prof) la descrizione generale del disegno sperimentale e la formalizzazione del modello lineare normale.
  Ho illustrato il teorema di Cochran e la sua applicazione in un modo che mi pare più coerente con gli esempi visti a lezione (variabili non centrate oltre che centrate).
  Ho aggiunto un'appendice matematica (inversa destra e sinistra, inversa generalizzata, pseudoinversa, matrici di proiezione).
23/12/09   Capitolo 1: ho aggiunto alla fine i valori attesi della varianza spiegata e residua (pag. 6 degli appunti della prof sulle forme quadratiche) cercando di spiegarne il senso.
  Capitolo 2: ho aggiunto i test di ipotesi sui parametri per il modello a un solo fattore, cercando di mostrare perché si eseguono test t invece che F e come vengono svolti i calcoli. Ho aggiunto anche il calcolo degli intervalli di confidenza per i parametri.
  Appendice matematica: ho aggiunto un esempio di calcolo di una pseudoinversa mediante scomposizione ai valori singolari.
28/12/09   Capitolo 1: modifiche minori.
    Capitolo 2: ho aggiungo il modello a due fattori per esperimenti completi e bilanciati (dietepec). Principali aspetti trattati (tra parentesi gli appunti della prof che ho considerato):
– come si calcolano gli effetti dei singoli fattori e quello interattivo;
– perché non conviene usare la riparametrizzazione corner point e conviene invece quella "classica" (dietepec.pdf);
– come si usa il comando estimate per la stima (e i test di ipotesi) dei parametri con la riparametrizzazione "classica" (appunti_25_11_B.pdf);
– come si fa l'analisi della varianza non solo per il modello, ma anche per i singoli parametri (dietepec.pdf);
– come si procede se l'effetto interattivo non risulta significativo, come succede per dietepec (esempio_anova.pdf).
3/1/10   Capitolo 2: l'ho terminato (per ora) aggiungendo:
– i modelli a tre o più fattori, nei quali la stima dei parametri rischia di complicarsi e si tratta di capire quali effetti interattivi possono essere esclusi;
– gli esperimenti a blocchi randomizzati, mettendo in evidenza il loro scopo, che è quello di depurare la varianza residua della quota di variabilità attribuibile al fattore di blocco, rendendo più affidabile il test di ipotesi sul modello.
  Capitolo 3: ho iniziato il capitolo sulla regressione lineare, per ora limitato alla regressione semplice (una sola variabile esplicativa). Ho voluto approfondire, per mio interesse, i test di ipotesi sui coefficienti di regressione e i relativi intervalli di confidenza, e anche le bande di confidenza, viste solo di sfuggita a lezione, ma il bello (più variabili esplicative) deve ancora venire...
7/1/10   Capitolo 2: Ho corretto la matrice di riparametrizzazione della figura 2.6 a pag. 51 e il testo dell'Osservazione a pag. 57.
  Capitolo 3: ho aggiunto la regressione multipla, mostrando cosa sono le devianze di tipo I, II e III e come si usano per i test sui coefficienti di regressione; ci sono poi la multicollinearità (su cui conto di tornare), gli effetti interattivi, la regressione plinomiale e quella con variabili esplicative qualitative.
8/1/10   Capitolo 3: l'ho terminato aggiungendo una sezione sulla scelta delle variabili esplicative, quindi sui criteri (Cp, PRESS ecc.), sugli algoritmi di selezione di un numero ristretto di modelli "buoni", sugli algoritmi "passo passo" per la scelta di un unico modello "migliore" (stepwise, forward, backward).
19/1/10   Capitolo 2: ho aggiunto una sezione sugli esperimenti non bilanciati. In pratica, basta ricordarsi di badare alla "type III SS", ma ho cercato di far vedere perché e che tipo di conti ci sono dietro.
  Capitolo 4: ho scritto buona parte del capitolo sull'analisi diagnostica. Direi che manca solo qualcosa sulla rilevazione della multicollinearità e sulle relative azioni correttive.

Errata corrige

pag. 119   "Gli algoritmi stepwise". Non è un errore, ma un'omissione. SAS usa slentry=0.50 come default per l'opzione forward, slstay=0.10 come default per l'opzione backward, ma avevo dimenticato il motivo, quindi non l'ho scritto. Come aveva detto la prof a lezione, in forward, dato che si aggiunge una variabile alla volta, la devianza residua è "viziata" dal fatto che in essa è compresa anche la devianza che può essere spiegata dalle variabili non ancora aggiunte; è quindi opportuna una rete a maglie larghe. In backward, invece, si parte da un modello che comprende tutte le possibili variabili esplicative e, quindi, da una situazione in cui la devianza residua è ridotta all'osso; è questo il motivo per cui si deve essere più restrittivi nella scelta delle variabili da lasciare nel modello.
pag. 120   Subito prima dell'esempio 3.34 avevo scritto che, essendo le variabili x7 e x8 la codifica di un'unica variabile, le due andrebbero escluse o incluse insieme. In realtà, quando più variabili sono il risultato della codifica di una variabile qualitativa, includerle o includerle insieme ha senso pieno solo se il carattere è sconnesso. Nel caso di x7 e x8, invece, x7 risulta difficilmente interpretabile in quanto rappresenta un livello "medio" di uso di alcool compreso tra "nessuno" e "eccessivo". Ciò si vede bene se si pensa al significato del relativo coefficiente di regressione:
  • β8: variazione del tempo di sopravvivenza y se l'uso di alcool passa da "nessuno o moderato" a "eccessivo";
  • β7: variazione di y se l'uso di alcool passa da "nessuno o eccessivo" a "moderato" (?)
Vi sono quindi due soluzioni possibili:
  • lasciare che x7 venga esclusa dal modello (come suggerito dagli algoritmi);
  • codificare diversamente la variabile "uso di alcool", ad esempio con (0,0,1) per "uso eccessivo" e (0,1,1) per "uso non nullo".
pag. 127   Sez. 4.2.4 "Verifica della normalità", lettera b): «sembrerebbe di poter calcolare, per ogni i, i reciproci di Φ(i/n), ma così per l'ultimo termine si avrebbe Φ(1)=inf» è ovviamente sbagliato e va letto: «sembrerebbe di poter calcolare, per ogni i, i valori di Φ-1(i/n), ma così per l'ultimo termine di avrebbe Φ-1(1)=inf» ecc.

Mi sono basato su:

Gli appunti sono qui: ModStat.pdf.

L'indice:

  1. Disegni sperimentali e modelli statistici parametrici
    1. Il disegno sperimentale
      1. Le componenti di un esperimento
      2. Disegni sperimentali standard
    2. Dalla matrice dei dati al modello statistico
    3. Modelli di riparametrizzazione
    4. Modelli statistici lineari
      1. Stima dei parametri
      2. Valori teorici
      3. Variabile aleatoria "residuo"
      4. Il teorema di Cochran e l'analisi della varianza
  2. Il modello ANOVA
    1. Esperimenti con un solo fattore
      1. La stima dei parametri
      2. L'analisi della varianza
      3. Il test di ipotesi sul modello
      4. Confronti tra medie
      5. Il modello a effetti dei fattori
      6. I test di ipotesi sui parametri
      7. Intervalli di confidenza dei parametri
    2. Esperimenti completi e bilanciati con due fattori
      1. Effetti interattivi
      2. Il modello a effetti dei fattori
      3. La stima dei parametri
      4. L'analisi della varianza
      5. I test di ipotesi sui parametri
      6. Se l'effetto interattivo risulta non significativo
      7. Se vi è una sola osservazione per trattamento
    3. Esperimenti completi e bilanciati con tre o più fattori
      1. La stima dei parametri
      2. L'analisi della varianza
    4. Esperimenti non bilanciati
      1. Costruzione di un modello regressivo e test di ipotesi
      2. Stima e intervalli di confidenza dei parametri
  3. La regressione lineare
    1. Regressione lineare semplice
      1. La stima dei coefficienti di regressione e dei valori teorici
      2. Il test di ipotesi sul modello e il coefficiente di determinazione
      3. I test di ipotesi sui coefficienti di regressione
      4. Le bande di confidenza
    2. Regressione lineare multipla
      1. Devianze di tipo I, II e III
      2. I coefficienti di determinazione parziali
      3. I test di ipotesi sui coefficienti di regressione
      4. La multicollinearità
      5. Effetti interattivi
      6. La regressione polinomiale
      7. La regressione con variabili esplicative qualitative
      8. Scelta delle variabili esplicative
  4. L'analisi diagnostica
    1. La variabile aleatoria "residuo"
    2. Adeguatezza del modello
      1. Verifica della linearità
      2. Verifica della costanza della varianza
      3. Verifica dell'indipendenza
      4. Verifica della normalità
      5. Azioni correttive
    3. Qualità dei dati
      1. Individuazione di valori anomali della variabile risposta
      2. Individuazione di valori anomali delle variabili esplicative
      3. Individuazione dei casi influenti
      4. Azioni correttive
  5. Complementi di algebra lineare
    1. Matrici inverse e inverse generalizzate
    2. Operatori di proiezione
    3. Immagine di una matrice
    4. Proiezione ortogonale sull'immagine di una matrice

File di dati

bodyfat.csv (4/1/10)   matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 7, tabella 7.1, pag. 257
caffeina.csv (19/10/09)   i dati usati in CAFFEINA.SAS
dietepec.csv (26/11/09)   i dati usati in DIETEPEC1.SAS (quello con 40 unità sperimentali)
dietetop.csv (26/11/09)   i dati usati in DIETETOP.SAS
dwainestudios.csv (4/1/10)   matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 6, figura 6.5, pag. 237
inquina.csv (5/1/10)   i dati usati in INQUINA.SAS
insurinn.csv (7/1/10)   matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 8, tabella 8.2, pag. 317
musclemass.csv (5/1/10)   matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 1, problema 1.27, pag. 36
perfectcorr.csv (5/1/10)   matrice di dati adattata da Kutner, Nachtsheim, Neter e Li, cap. 7, tabella 7.8, pag. 281
plasma.csv (13/1/10)   matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 3, tabella 3.8, pag. 133
plutonio.csv (13/1/10)   matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 3, tabella 3.10, pag. 141
salestraining.csv (13/1/10)   matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 3, tabella 3.7, pag. 130
surgunit.csv (7/1/10)   matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 9, tabella 9.1, pag. 351 (NB: contiene più colonne di quella usata in SURGICAL.SAS)
surr.csv (30/12/09)   i dati usati in SURR1.SAS
toluca.csv (1/1/10)   matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 1, tabella 1.1, pag. 19
transit.csv (11/1/10)   matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 3, tabella 3.1, pag. 105
workcrew.csv (5/1/10)   matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 7, tabella 7.6, pag. 279