Anche per Modelli statistici, come per Statistica multivariata, ho provato a tradurre in R quello che è stato illustrato nel corso. Negli appunti uso comunque anche il SAS.
In sostanza, ho usato sia SAS che R per le analisi ANOVA e di regressione, solo R (che si presta meglio di SAS a essere usato come "calcolatrice") per mostrare da quali calcoli vengono fuori i numeri (devianza totale, spiegata e residua; valori delle statistiche test sia F che t e dei relativi p-value, ecc.).
Dato l'esame (25/1/2010), devo pensare al prossimo. Gli appunti restano quindi così come sono, nonostante ci sarebbe qualcosa (molto) da aggiungere e qualcosa da correggere. Lascio comunque la sintetica cronologia delle modifiche, seguita da un errata corrige:
15/12/09 | Ho rivisto (secondo le indicazioni della prof) la descrizione generale del disegno sperimentale e la formalizzazione del modello lineare normale. | |
Ho illustrato il teorema di Cochran e la sua applicazione in un modo che mi pare più coerente con gli esempi visti a lezione (variabili non centrate oltre che centrate). | ||
Ho aggiunto un'appendice matematica (inversa destra e sinistra, inversa generalizzata, pseudoinversa, matrici di proiezione). | ||
23/12/09 | Capitolo 1: ho aggiunto alla fine i valori attesi della varianza spiegata e residua (pag. 6 degli appunti della prof sulle forme quadratiche) cercando di spiegarne il senso. | |
Capitolo 2: ho aggiunto i test di ipotesi sui parametri per il modello a un solo fattore, cercando di mostrare perché si eseguono test t invece che F e come vengono svolti i calcoli. Ho aggiunto anche il calcolo degli intervalli di confidenza per i parametri. | ||
Appendice matematica: ho aggiunto un esempio di calcolo di una pseudoinversa mediante scomposizione ai valori singolari. | ||
28/12/09 | Capitolo 1: modifiche minori. | |
Capitolo 2: ho aggiungo il modello a due fattori per esperimenti completi
e bilanciati (dietepec). Principali aspetti trattati (tra parentesi gli
appunti della prof che ho considerato): – come si calcolano gli effetti dei singoli fattori e quello interattivo; – perché non conviene usare la riparametrizzazione corner point e conviene invece quella "classica" (dietepec.pdf); – come si usa il comando estimate per la stima (e i test di ipotesi) dei parametri con la riparametrizzazione "classica" (appunti_25_11_B.pdf); – come si fa l'analisi della varianza non solo per il modello, ma anche per i singoli parametri (dietepec.pdf); – come si procede se l'effetto interattivo non risulta significativo, come succede per dietepec (esempio_anova.pdf). |
||
3/1/10 | Capitolo 2: l'ho terminato (per ora) aggiungendo: – i modelli a tre o più fattori, nei quali la stima dei parametri rischia di complicarsi e si tratta di capire quali effetti interattivi possono essere esclusi; – gli esperimenti a blocchi randomizzati, mettendo in evidenza il loro scopo, che è quello di depurare la varianza residua della quota di variabilità attribuibile al fattore di blocco, rendendo più affidabile il test di ipotesi sul modello. |
|
Capitolo 3: ho iniziato il capitolo sulla regressione lineare, per ora limitato alla regressione semplice (una sola variabile esplicativa). Ho voluto approfondire, per mio interesse, i test di ipotesi sui coefficienti di regressione e i relativi intervalli di confidenza, e anche le bande di confidenza, viste solo di sfuggita a lezione, ma il bello (più variabili esplicative) deve ancora venire... | ||
7/1/10 | Capitolo 2: Ho corretto la matrice di riparametrizzazione della figura 2.6 a pag. 51 e il testo dell'Osservazione a pag. 57. | |
Capitolo 3: ho aggiunto la regressione multipla, mostrando cosa sono le devianze di tipo I, II e III e come si usano per i test sui coefficienti di regressione; ci sono poi la multicollinearità (su cui conto di tornare), gli effetti interattivi, la regressione plinomiale e quella con variabili esplicative qualitative. | ||
8/1/10 | Capitolo 3: l'ho terminato aggiungendo una sezione sulla scelta delle variabili esplicative, quindi sui criteri (Cp, PRESS ecc.), sugli algoritmi di selezione di un numero ristretto di modelli "buoni", sugli algoritmi "passo passo" per la scelta di un unico modello "migliore" (stepwise, forward, backward). | |
19/1/10 | Capitolo 2: ho aggiunto una sezione sugli esperimenti non bilanciati. In pratica, basta ricordarsi di badare alla "type III SS", ma ho cercato di far vedere perché e che tipo di conti ci sono dietro. | |
Capitolo 4: ho scritto buona parte del capitolo sull'analisi diagnostica. Direi che manca solo qualcosa sulla rilevazione della multicollinearità e sulle relative azioni correttive. |
Errata corrige
pag. 119 | "Gli algoritmi stepwise". Non è un errore, ma un'omissione. SAS usa slentry=0.50 come default per l'opzione forward, slstay=0.10 come default per l'opzione backward, ma avevo dimenticato il motivo, quindi non l'ho scritto. Come aveva detto la prof a lezione, in forward, dato che si aggiunge una variabile alla volta, la devianza residua è "viziata" dal fatto che in essa è compresa anche la devianza che può essere spiegata dalle variabili non ancora aggiunte; è quindi opportuna una rete a maglie larghe. In backward, invece, si parte da un modello che comprende tutte le possibili variabili esplicative e, quindi, da una situazione in cui la devianza residua è ridotta all'osso; è questo il motivo per cui si deve essere più restrittivi nella scelta delle variabili da lasciare nel modello. | |
pag. 120 | Subito prima dell'esempio 3.34 avevo scritto che, essendo le
variabili x7 e x8 la codifica di un'unica variabile, le
due andrebbero escluse o incluse insieme. In realtà, quando
più variabili sono il risultato della codifica di una variabile
qualitativa, includerle o includerle insieme ha senso pieno solo se il
carattere è sconnesso. Nel caso di x7 e x8,
invece, x7 risulta difficilmente interpretabile in quanto
rappresenta un livello "medio" di uso di alcool compreso tra "nessuno" e
"eccessivo". Ciò si vede bene se si pensa al significato del relativo
coefficiente di regressione:
|
|
pag. 127 | Sez. 4.2.4 "Verifica della normalità", lettera b): «sembrerebbe di poter calcolare, per ogni i, i reciproci di Φ(i/n), ma così per l'ultimo termine si avrebbe Φ(1)=inf» è ovviamente sbagliato e va letto: «sembrerebbe di poter calcolare, per ogni i, i valori di Φ-1(i/n), ma così per l'ultimo termine di avrebbe Φ-1(1)=inf» ecc. |
Mi sono basato su:
Gli appunti sono qui: ModStat.pdf.
L'indice:
bodyfat.csv (4/1/10) | matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 7, tabella 7.1, pag. 257 | |
caffeina.csv (19/10/09) | i dati usati in CAFFEINA.SAS | |
dietepec.csv (26/11/09) | i dati usati in DIETEPEC1.SAS (quello con 40 unità sperimentali) | |
dietetop.csv (26/11/09) | i dati usati in DIETETOP.SAS | |
dwainestudios.csv (4/1/10) | matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 6, figura 6.5, pag. 237 | |
inquina.csv (5/1/10) | i dati usati in INQUINA.SAS | |
insurinn.csv (7/1/10) | matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 8, tabella 8.2, pag. 317 | |
musclemass.csv (5/1/10) | matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 1, problema 1.27, pag. 36 | |
perfectcorr.csv (5/1/10) | matrice di dati adattata da Kutner, Nachtsheim, Neter e Li, cap. 7, tabella 7.8, pag. 281 | |
plasma.csv (13/1/10) | matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 3, tabella 3.8, pag. 133 | |
plutonio.csv (13/1/10) | matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 3, tabella 3.10, pag. 141 | |
salestraining.csv (13/1/10) | matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 3, tabella 3.7, pag. 130 | |
surgunit.csv (7/1/10) | matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 9, tabella 9.1, pag. 351 (NB: contiene più colonne di quella usata in SURGICAL.SAS) | |
surr.csv (30/12/09) | i dati usati in SURR1.SAS | |
toluca.csv (1/1/10) | matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 1, tabella 1.1, pag. 19 | |
transit.csv (11/1/10) | matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 3, tabella 3.1, pag. 105 | |
workcrew.csv (5/1/10) | matrice di dati da Kutner, Nachtsheim, Neter e Li, cap. 7, tabella 7.6, pag. 279 |