Corso di Probabilità Statistica e Teoria degli Errori: 4 Statistica Inferenziale
Statistica Inferenziale
Obiettivi: capire come trarre conclusioni su una popolazione a partire da un campione e introdurre la significatività statistica.
1. Obiettivi formativi
Questo modulo mira a far comprendere il rapporto tra campione e popolazione, l’uso delle distribuzioni di probabilità (cenni alla binomiale e alla normale), come costruire intervalli di confidenza e come effettuare test di ipotesi con valutazione del p-value, distinguendo gli errori di I e II tipo. L’approccio combina teoria, esempi numerici e attività pratiche di simulazione.
2. Concetti fondamentali
Popolazione: insieme completo di unità di interesse. Campione: sottoinsieme osservato, usato per inferire proprietà della popolazione. Il passaggio dal campione alla popolazione si basa su modelli probabilistici e su assunzioni (random sampling, indipendenza).
La statistica inferenziale risponde a domande del tipo: «Qual è la media della popolazione?» oppure «Qual è la proporzione di successi?» partendo da un campione casuale.
3. Distribuzioni utili (cenni)
Distribuzione binomiale: utile per conteggi di successi in n prove indipendenti con probabilità p di successo: \(X\sim \mathrm{Bin}(n,p)\), \(P(X=k)=\binom{n}{k} p^k (1-p)^{n-k}\).
Distribuzione normale: \(X\sim N(\mu,\sigma^2)\). Per campioni grandi, la legge dei grandi numeri e il teorema centrale del limite spiegano perché la media campionaria tende a una normale anche se la popolazione non è normale.
4. Intervalli di confidenza (cenni e formula pratica)
Un intervallo di confidenza al (1 − α)·100% fornisce un intervallo plausibile per un parametro incognito. Per la media con σ noto (o n grande), l’intervallo è:
\(\displaystyle \bar{x}\pm z_{1-\alpha/2}\,\frac{\sigma}{\sqrt{n}}\)
Se σ non è noto e n è piccolo, si usa la t di Student:
\(\displaystyle \bar{x}\pm t_{1-\alpha/2,\,n-1}\,\frac{s}{\sqrt{n}}\)
Per una proporzione p, l’approssimazione normale dà:
\(\displaystyle \hat p \pm z_{1-\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}{n}}\)
5. Test d’ipotesi e p-value (cenni)
Un test confronta l’ipotesi nulla \(H_0\) con un’alternativa \(H_1\). Si definisce una statistica test T e una regione critica; il p-value è la probabilità, sotto \(H_0\), di osservare un valore di T almeno così estremo come quello osservato. Se il p-value < α, si rifiuta \(H_0\).
Esempio (media): testare \(H_0:\mu=\mu_0\) vs \(H_1:\mu\neq\mu_0\). Statistica z (σ noto):
\(\displaystyle z=\frac{\bar x-\mu_0}{\sigma/\sqrt{n}}\), p-value = \(2\cdot P(Z\ge |z|)\).
6. Errori di I e II tipo
L’errore di I tipo (α) è rifiutare \(H_0\) quando è vera. L’errore di II tipo (β) è non rifiutare \(H_0\) quando \(H_1\) è vera. La potenza del test è \(1-β\). C’è un trade-off: ridurre α spesso aumenta β, a parità di campione.
7. Esempi numerici svolti
7.1 Intervallo di confidenza per la media (σ noto, approssimazione)
Campione n=100, media campionaria \(\bar x=50\), σ stimato (o noto) = 10. Intervallo al 95% (z_{0.975}=1.96):
\(\displaystyle 50 \pm 1.96\frac{10}{\sqrt{100}} = 50 \pm 1.96\cdot1 = (48.04,\;51.96).\)
7.2 Test di ipotesi su proporzione (esempio binomiale approssimato)
Campione n=200, successi observed = 30 → \(\hat p=0.15\). Test H0: p=0.10 vs H1: p>0.10. z = (0.15−0.10)/sqrt(0.1·0.9/200)=?
Calcolo: var ≈ 0.00045, sd≈0.0212 → z≈0.05/0.0212≈2.36 → p-value ≈ 0.0091 (unilaterale). Con α=0.05 rifiutiamo H0.
8. Attività pratiche e simulazioni (interattive)
Qui hai strumenti per simulare campionamenti da una popolazione (normale o binomiale), calcolare intervalli di confidenza e p-value per media o proporzione. Utile per comprendere la variabilità campionaria e la potenza dei test.
Imposta la popolazione e il campionamento
Test ed intervalli
Grafico: distribuzione delle medie campionarie (semplice)
9. Esercizi guidati (con soluzioni)
Esercizio 1 — Intervallo di confidenza
Hai un campione n=36 con media 100 e deviazione campionaria s=12. Calcola un intervallo di confidenza al 95% per la media (usa t di Student: t_{0.975,35}≈2.03).
Soluzione: errore standard = 12/√36 = 2. CI = 100 ± 2.03·2 = (95.94, 104.06).
Esercizio 2 — Test su proporzione
In un sondaggio, 120 su 400 persone preferiscono il prodotto A. Testa H0: p=0.25 vs H1: p≠0.25 con α=0.05.
Soluzione sintetica: \(\hat p=0.30\). z = (0.30−0.25)/sqrt(0.25·0.75/400)=0.05/0.02165≈2.31. p≈0.021 (bilaterale) → rifiuto H0.
10. Spunti avanzati e approfondimenti
Argomenti successivi: stima puntuale ed efficiente, metodi di massima verosimiglianza, test non parametrici, valutazione della potenza e dimensionamento del campione, inferenza bayesiana completa (posteriori, prior). Per attività pratiche avanzate: simulazioni Monte Carlo in Python, bootstrap per CI e test, analisi di power e design sperimentale.
11. Bibliografia e risorse consigliate
- Casella & Berger, Statistical Inference
- Agresti & Finlay, Statistical Methods for the Social Sciences
- Ross, Introduction to Probability and Statistics for Engineers and Scientists
- Risorse online: StatQuest, Khan Academy, MIT OpenCourseWare

Commenti
Posta un commento