Corso di Probabilità Statistica e Teoria degli Errori: 4 Statistica Inferenziale

Statistica Inferenziale

Obiettivi: capire come trarre conclusioni su una popolazione a partire da un campione e introdurre la significatività statistica.

1. Obiettivi formativi

Questo modulo mira a far comprendere il rapporto tra campione e popolazione, l’uso delle distribuzioni di probabilità (cenni alla binomiale e alla normale), come costruire intervalli di confidenza e come effettuare test di ipotesi con valutazione del p-value, distinguendo gli errori di I e II tipo. L’approccio combina teoria, esempi numerici e attività pratiche di simulazione.

2. Concetti fondamentali

Popolazione: insieme completo di unità di interesse. Campione: sottoinsieme osservato, usato per inferire proprietà della popolazione. Il passaggio dal campione alla popolazione si basa su modelli probabilistici e su assunzioni (random sampling, indipendenza).

La statistica inferenziale risponde a domande del tipo: «Qual è la media della popolazione?» oppure «Qual è la proporzione di successi?» partendo da un campione casuale.

3. Distribuzioni utili (cenni)

Distribuzione binomiale: utile per conteggi di successi in n prove indipendenti con probabilità p di successo: \(X\sim \mathrm{Bin}(n,p)\), \(P(X=k)=\binom{n}{k} p^k (1-p)^{n-k}\).

Distribuzione normale: \(X\sim N(\mu,\sigma^2)\). Per campioni grandi, la legge dei grandi numeri e il teorema centrale del limite spiegano perché la media campionaria tende a una normale anche se la popolazione non è normale.

4. Intervalli di confidenza (cenni e formula pratica)

Un intervallo di confidenza al (1 − α)·100% fornisce un intervallo plausibile per un parametro incognito. Per la media con σ noto (o n grande), l’intervallo è:

\(\displaystyle \bar{x}\pm z_{1-\alpha/2}\,\frac{\sigma}{\sqrt{n}}\)

Se σ non è noto e n è piccolo, si usa la t di Student:

\(\displaystyle \bar{x}\pm t_{1-\alpha/2,\,n-1}\,\frac{s}{\sqrt{n}}\)

Per una proporzione p, l’approssimazione normale dà:

\(\displaystyle \hat p \pm z_{1-\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}{n}}\)

5. Test d’ipotesi e p-value (cenni)

Un test confronta l’ipotesi nulla \(H_0\) con un’alternativa \(H_1\). Si definisce una statistica test T e una regione critica; il p-value è la probabilità, sotto \(H_0\), di osservare un valore di T almeno così estremo come quello osservato. Se il p-value < α, si rifiuta \(H_0\).

Esempio (media): testare \(H_0:\mu=\mu_0\) vs \(H_1:\mu\neq\mu_0\). Statistica z (σ noto):

\(\displaystyle z=\frac{\bar x-\mu_0}{\sigma/\sqrt{n}}\), p-value = \(2\cdot P(Z\ge |z|)\).

6. Errori di I e II tipo

L’errore di I tipo (α) è rifiutare \(H_0\) quando è vera. L’errore di II tipo (β) è non rifiutare \(H_0\) quando \(H_1\) è vera. La potenza del test è \(1-β\). C’è un trade-off: ridurre α spesso aumenta β, a parità di campione.

7. Esempi numerici svolti

7.1 Intervallo di confidenza per la media (σ noto, approssimazione)

Campione n=100, media campionaria \(\bar x=50\), σ stimato (o noto) = 10. Intervallo al 95% (z_{0.975}=1.96):

\(\displaystyle 50 \pm 1.96\frac{10}{\sqrt{100}} = 50 \pm 1.96\cdot1 = (48.04,\;51.96).\)

7.2 Test di ipotesi su proporzione (esempio binomiale approssimato)

Campione n=200, successi observed = 30 → \(\hat p=0.15\). Test H0: p=0.10 vs H1: p>0.10. z = (0.15−0.10)/sqrt(0.1·0.9/200)=?

Calcolo: var ≈ 0.00045, sd≈0.0212 → z≈0.05/0.0212≈2.36 → p-value ≈ 0.0091 (unilaterale). Con α=0.05 rifiutiamo H0.

8. Attività pratiche e simulazioni (interattive)

Qui hai strumenti per simulare campionamenti da una popolazione (normale o binomiale), calcolare intervalli di confidenza e p-value per media o proporzione. Utile per comprendere la variabilità campionaria e la potenza dei test.

Imposta la popolazione e il campionamento

Risultati: -

Test ed intervalli

Risultato test: -

Grafico: distribuzione delle medie campionarie (semplice)

Verrà mostrata l’istogramma delle medie campionarie dalle simulazioni.

9. Esercizi guidati (con soluzioni)

Esercizio 1 — Intervallo di confidenza

Hai un campione n=36 con media 100 e deviazione campionaria s=12. Calcola un intervallo di confidenza al 95% per la media (usa t di Student: t_{0.975,35}≈2.03).

Soluzione: errore standard = 12/√36 = 2. CI = 100 ± 2.03·2 = (95.94, 104.06).

Esercizio 2 — Test su proporzione

In un sondaggio, 120 su 400 persone preferiscono il prodotto A. Testa H0: p=0.25 vs H1: p≠0.25 con α=0.05.

Soluzione sintetica: \(\hat p=0.30\). z = (0.30−0.25)/sqrt(0.25·0.75/400)=0.05/0.02165≈2.31. p≈0.021 (bilaterale) → rifiuto H0.

10. Spunti avanzati e approfondimenti

Argomenti successivi: stima puntuale ed efficiente, metodi di massima verosimiglianza, test non parametrici, valutazione della potenza e dimensionamento del campione, inferenza bayesiana completa (posteriori, prior). Per attività pratiche avanzate: simulazioni Monte Carlo in Python, bootstrap per CI e test, analisi di power e design sperimentale.

11. Bibliografia e risorse consigliate

  • Casella & Berger, Statistical Inference
  • Agresti & Finlay, Statistical Methods for the Social Sciences
  • Ross, Introduction to Probability and Statistics for Engineers and Scientists
  • Risorse online: StatQuest, Khan Academy, MIT OpenCourseWare


Commenti

Post popolari in questo blog

Corso di Geometria e Trigonometria: 1 Geometria Euclidea Fondamenti

Corso di matematica propedeutica alla fisica: 7 Studio di Funzione

Corso di Fondamenti di Matematica e Logica: 3 Insiemi Relazioni e Funzioni