La parte più difficile di un problema di teoria della probabilità è, spesso, l’assegnazione di una distribuzione di probabilità a fronte di ciascuna informazione. Una volta fatto questo non resta che usare le regole della teoria per calcolare le altre distribuzioni, quelle per le quali non abbiamo informazioni o che sono troppo difficili da assegnare direttamente.
Le distribuzioni che assegniamo dipendono, ovviamente, dalle informazioni che abbiamo ma possono anche dipendere da altre informazioni non in nostro possesso: ciò che bisogna fare di queste ultime è l’argomento di questo topic.
È abbastanza facile assegnare una probabilità per l'estrazione delle palline se il contenuto dell’urna è noto. Perciò noi ipotizziamo di conoscerlo: sia $W$ il numero di palline bianche contenute (prima delle estrazioni) nell’urna, $R$ il numero delle palline non-bianche (il cui colore, come qualcuno ha fatto notare, è irrilevante: a noi interessano le palline bianche), e siano state pescate $w$ palline bianche e (per farvi contenti) $r$ non-bianche.
Con queste informazioni vogliamo assegnare $p \left( w\, \middle|\, r\, W\, R\, I\right)$, la probabilità di estrarre le palline bianche condizionata alle altre informazioni.
Possiamo estrarre la prima pallina bianca in $W$ modi, la seconda in $W - 1$ ecc.: in totale sono
$\displaystyle W \left( W - 1 \right) \left( W - 2 \right) \cdots \left( W - w + 1 \right) = \frac{W!}{\left( W - w \right)!}$
Ovviamente lo stesso vale, mutatis mutandis, le palline non-bianche
$\displaystyle R\left(R - 1\right)\left(R - 2\right)\cdots\left(R - r + 1\right)=\frac{R!}{\left(R - r\right)!}$
e per le palline senza distinzione di colore
$\displaystyle \left(W + R\right)\left(W + R - 1\right)\left(W + R - 2\right)\cdots\left(W + R - w - r + 1\right)=\frac{\left(W + R\right)!}{\left(W + R - w - r\right)!}$
Inoltre bisogna inserire un termine che tenga conto dell’ordine con cui vengono pescate le palline, $\textstyle {w + r \choose w}$. Mettiamo tutto insieme ed abbiamo
$\displaystyle p\left(w\,\middle|\,r\,W\,R\,I\right)={w + r \choose w}\frac{\frac{W!}{\left(W - w\right)!}\times\frac{R!}{\left(R - r\right)!}}{\frac{\left(W + R\right)!}{\left(W + R - w - r\right)!}}=\frac{{W \choose w}{R \choose r}}{{W + R} \choose {w + r}}$
una distribuzione ipergeometrica.
Ora poniamo (per far contento me) $r = 0$ e inglobiamo questa informazione nelle informazioni generali $I$; inoltre poniamo $W + R = N$ e otteniamo
$\displaystyle p \left( w\, \middle|\, W\, N\, I \right) = \frac{{W \choose w}} {N \choose w}$
A questo punto non ci resta che trovare la strada per passare, secondo le regole della teoria della probabilità, da
$p \left( w\, \middle|\, W\, N\, I \right)$
la probabilità di estrarre $w$ palline bianche dall'urna, a
$p \left( w + 1\, \middle|\, w\, I \right)$
la probabilità di estrarre un’altra pallina bianca dall’urna dopo che ne sono già state estratte $w$.
Ha ragione delfo52 quando paragona l’estrazione dell’urna ad un esperimento scientifico: estraendo le palline dall’urna impariamo qualcosa circa il suo contenuto, parametrizzato da $W$ e $N$.
Dalla formulazione del problema sappiamo già che deve essere $0\leq w\leq W\leq N$ e il nostro primo passo sarà passare da $p \left( w\, \middle|\, W\, N\, I \right)$ a $p \left( W\, \middle|\, w\, N\, I \right)$, cioè capire cosa impariamo su $W$ conoscendo $w$.
Per operare questa inversione ci serviamo il Teorema di Bayes $p \left( B\, \middle|\, A\, I \right) = \frac{p \left( B\, \middle|\, I \right)\,p \left( A\, \middle|\, B\, I \right)}{p \left( A\, \middle|\, I \right)}$ che deriva direttamente dalla regola del prodotto
$\displaystyle p \left( A\, B\, \middle|\, I \right) = p \left( B\, \middle|\, I \right)\, p \left( A\, \middle|\, B\, I \right) = p \left( A\, \middle|\, I \right)\, p \left( B\, \middle|\, A\, I \right)$
e, nel nostro caso recita
$\displaystyle p \left( W\, \middle|\, w\, N\, I \right) = \frac{p \left( W\, \middle|\, N\, I \right)\, p \left( w\, \middle|\, W\, N\, I \right)} {p \left( w\, \middle|\, N\, I \right)}$
La distribuzione che abbiamo assegnato prima, $p \left( w\, \middle|\, W\, N\, I \right)$, prende il nome tecnico di “likelihood”; la distribuzione $p \left( W\, \middle|\, N\, I \right)$, che non dipende da $w$ e rappresenta quindi quello che sappiamo su $W$ prima di fare l’esperimento, prende il nome tecnico di “prior” mentre la distribuzione $p \left( W\, \middle|\, w\, N\, I \right)$ prende il nome tecnico di “posterior” e rappresenta l’aggiornamento della “prior” alla luce della nuova informazione $w$. Anche $p \left( w\, \middle|\, N\, I \right)$ ha un nome tecnico: “evidence”; questa distribuzione non dipende da $W$ ed è quindi una costante di normalizzazione.
Infatti deve essere
$\displaystyle \sum_{\small W} p \left( W\, \middle|\, w\, N\, I \right) = \frac {\sum_{\small W} p \left( W\, \middle|\, N\, I \right) p \left( w\, \,\middle|\, W\, N\, I \right)} {p \left( w\, \middle|\, N\, I \right)} = 1$
e quindi
$p \left( w\, \middle|\, N\, I \right) = \sum_{\small W} p \left( W\, \middle|\, N\, I \right)\, p \left( w\, \middle|\, W\, N\, I \right)$
Per poter calcolare $p \left( w\, \middle|\, N\, I \right)$ è necessario assegnare la “prior”, $p \left( W\, \middle|\, N\, I \right)$: l’unica cosa che sappiamo di $W$ è che deve essere $0 \leq W \leq N$ quindi assegniamo una distribuzione uniforme in questo intervallo
$\displaystyle p \left( W\, \middle|\, N\, I \right) = \frac 1 {N + 1}\qquad 0 \leq W \leq N$
Passiamo ora a calcolare
$\displaystyle p \left( w\, \middle|\, N\, I \right) = \sum_{\small W = 0}^{\small N} \frac { W \choose w }{\left( N + 1 \right) {N \choose w}}$
il denominatore del termine della sommatoria è indipendente da $W$ quindi possiamo scrivere
$\displaystyle p \left( w\, \middle|\, N\, I \right) = \frac 1 {\left( w + 1 \right) {{ N + 1 } \choose { w + 1 }}}\sum_{\small W = 0}^{\small N} { W \choose w }$
dove il cambio al denominatore è giustificato dall'identità
$\displaystyle {{ N + 1 } \choose { w + 1 }} = \frac { N + 1 } { w + 1 } { W \choose w }$
Ma quanto vale $\textstyle \sum_{\small W = 0}^{\small N} { W \choose w }$?
Scriviamo il triangolo di Pascal-Tartaglia in forma tabellare ($n$ in riga e $k$ in colonna) con l’usuale convenzione che $\textstyle { n \choose k }$ solo per $0 \leq k \leq n$ e focalizziamo la nostra attenzione, per esempio, su $\textstyle { 6 \choose 3 }$
$\begin{array}{c|ccccccccC}
n,k & 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 \\
\hline \\
0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\
1 & 1 & 1 & 0 & 0 & 0 & 0 & 0 & 0 \\
2 & 1 & 2 & 1 & 0 & 0 & 0 & 0 & 0 \\
3 & 1 & 3 & 3 & 1 & 0 & 0 & 0 & 0 \\
4 & 1 & 4 & 6 & 4 & 1 & 0 & 0 & 0 \\
5 & 1 & 5 & \mathbf{10} & \mathbf{10} & 5 & 1 & 0 & 0 \\
6 & 1 & 6 & 15 & \mathbf{20} & 0 & 0 & 0 & 0
\end{array}$
Il coefficiente è la somma dei due che lo sovrastano, $\textstyle { 5 \choose 2 }$ e $\textstyle { 5 \choose 3 }$.
$\begin{array}{c|ccccccccC}
n,k & 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 \\
\hline \\
0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\
1 & 1 & 1 & 0 & 0 & 0 & 0 & 0 & 0 \\
2 & 1 & 2 & 1 & 0 & 0 & 0 & 0 & 0 \\
3 & 1 & 3 & 3 & 1 & 0 & 0 & 0 & 0 \\
4 & 1 & 4 & \mathbf{6} & \mathbf{4} & 1 & 0 & 0 & 0 \\
5 & 1 & 5 & \mathbf{10} & \scriptsize{10} & 5 & 1 & 0 & 0 \\
6 & 1 & 6 & 15 & \mathbf{20} & 0 & 0 & 0 & 0
\end{array}$
Il coefficiente $\textstyle { 5 \choose 3 }$ è a sua volta la somma dei due che lo sovrastano, $\textstyle { 4 \choose 1 }$ e c$\textstyle { 4 \choose 3 }$.
Continuiamo così fino al coefficiente $\textstyle { 1 \choose 3 }$.
$\begin{array}{c|ccccccccC}
n,k & 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 \\
\hline \\
0 & 1 & 0 & \mathbf{0} & \mathbf{0} & 0 & 0 & 0 & 0 \\
1 & 1 & 1 & \mathbf{0} & \scriptsize{0} & 0 & 0 & 0 & 0 \\
2 & 1 & 2 & \mathbf{1} & \scriptsize{0} & 0 & 0 & 0 & 0 \\
3 & 1 & 3 & \mathbf{3} & \scriptsize{1} & 0 & 0 & 0 & 0 \\
4 & 1 & 4 & \mathbf{6} & \scriptsize{4} & 1 & 0 & 0 & 0 \\
5 & 1 & 5 & \mathbf{10} & \scriptsize{10} & 5 & 1 & 0 & 0 \\
6 & 1 & 6 & 15 & \mathbf{20} & 0 & 0 & 0 & 0
\end{array}$
e vediamo che $\textstyle { 6 \choose 3 } = \sum_{\small n = 0}^{\small 5} { n \choose 2 }$. Siccome questo risultato dipende dalla relazione ricorsiva con cui è costruito il triangolo di Pascal-Tartaglia, $\textstyle { n \choose k } = {{ n - 1} \choose k } + {{ n - 1 } \choose { k - 1 }}$, esso è valido per qualsiasi coefficiente binomiale.
Lo possiamo dimostrare anche algebricamente: prendiamo la relazione
$\displaystyle {{ N + 1 } \choose { w + 1 }} = { N \choose { w + 1 }} + { N \choose w }$
Sostituiamo il primo termine al secondo membro con i suoi generatori
$\displaystyle {{ N + 1 } \choose { w + 1 }} = {{ N - 1 } \choose { w + 1 }} + {{ N - 1 } \choose w } + { N \choose w }$
ripetiamo la sostituzione
$\displaystyle {{ N + 1 } \choose { w + 1 }} = {{ N - 2 } \choose { w + 1 }} + {{ N - 2 } \choose w } + {{ N - 1 } \choose w } + { N \choose w }$
e ancora fino alla fine ottenendo
$\displaystyle {{ N + 1 } \choose { w + 1 }} = \cdots + {{ N - 3 } \choose w } + {{ N - 2 } \choose w } + {{ N - 1 } \choose w } + { N \choose w } = \sum_{ \small W = 0 }^{ \small N } { W \choose w }$
cioè
$\displaystyle \sum_{\small W = 0}^{\small N} { W \choose w } = {{ N + 1 } \choose { w + 1 }}$
e
$\displaystyle p \left( w\; \middle|\, N\, I \right) = \frac 1 { w + 1 }$
Notiamo che (a parte la necessità che sia $N > w$) questo risultato è indipendente da $N$ oltre che da $W$.
Mettiamo ora tutto insieme per calcolare
$\displaystyle p \left( W\, \middle|\, w\, N\, I \right) = \frac {\frac 1 { N + 1 } \times \frac {W \choose w } { N \choose w }} {\frac 1 { w + 1 }} = \frac { W \choose w } {\frac { N + 1} {w + 1} { N \choose w }} = \frac { W \choose w } {{ N + 1} \choose { w + 1 }}$
Adesso assegniamo facilmente
$\displaystyle p \left( w + 1\, \middle|\, W\, w\, N\, I \right) = \frac { W - w } { N - w }$
la probabilità di estrarre un'ulteriore pallina bianca nota la composizione dell'urna ($W$ e $N$) e il numero di palline bianche estratte ($w$).
Calcoliamo, con la regola del prodotto
$\displaystyle p \left( W\, w + 1\, \middle|\, w\, N\, I \right) = p \left( W\, \middle|\, w\, N\, I \right) p \left( w + 1\, \middle|\, W\, w\, N\, I \right) = \frac { \left( W - w \right) { W \choose w }} { \left( N - w \right) {{ N + 1 } \choose { w + 1 }}}$
la probabilità che l'urna contenga in totale $W$ palline bianche
e che la prossima pallina pescata sia bianca (condizionata a $w$ e $N$).
Utilizziamo l'identità $\textstyle \left( n – k \right) { n \choose k } = \left( k + 1 \right) { n \choose {k + 1}}$, sia al numeratore sia al denominatore, ottenendo
$\displaystyle p \left( W\, w + 1\, \middle|\, w\, N\, I \right) = \frac { w + 1 } { w + 2 } \times \frac { W \choose { w + 1 }} { N \choose { w + 2 }}$
e applichiamo il teorema di marginalizzazione $\textstyle p \left( A\, \middle|\, I \right) = \sum_{\small B} p \left( A\, B\, \middle|\, I \right)$: nel caso specifico
$\displaystyle p \left( w + 1\, \middle|\, w\, N\, I \right) = \sum_{\small W} p \left( W\, w + 1\, \middle|\, w\, N\, I \right) = \frac { w + 1 } { w + 2 } \times \frac 1 { N \choose { w + 2 }} \sum_{\small W = 0 }^{\small N } { W \choose { w + 1 }}$
Ma abbiamo visto prima che vale l'identità
$\displaystyle \sum_{\small W = 0}^{\small N} { W \choose { w + 1 }} = {{ N + 1 } \choose { w + 2 }}$
per cui otteniamo
$\displaystyle p \left( w + 1\, \middle|\, w\, N\, I \right) = \frac { w + 1 } { w + 2 }$
che è proprio la risposta che volevamo perché il risultato è chiaramente indipendente da $N$, cioè
$\displaystyle p \left( w + 1\, \middle|\, w\, I \right) = p \left( w + 1\, \middle|\, w\, N\, I \right) = \frac { w + 1 } { w + 2 }$
Vi faccio notare che questa soluzione è basata solamente sulle informazioni che realmente possediamo: al crescere del numero di palline bianche estratte diveniamo via via più sicuri che la prossima pallina sarà bianca (o, che è lo stesso, che ci sono solo palline bianche nell’urna); all'altro estremo, prima di pescare la prima pallina ($w = 0$) assegniamo una probabilità pari a $1/2$, e ciò è dovuto al fatto che identifichiamo solo due possibilità, bianco e non-bianco. Naturalmente non vi è nulla di strano se la risposta che otteniamo è influenzata dalla domanda che facciamo.
In conclusione, quando le informazioni sono insufficienti per assegnare le distribuzioni di probabilità possiamo sempre introdurre uno o più parametri, assegnare a ciascuno la sua distribuzione (prior) ed eliminarlo mediante il teorema di marginalizzazione: $W$ e $N$ erano indispensabili per assegnare $\textstyle p \left( w\, \middle|\, W\, N\, I \right)$, la distribuzione che è stata il nostro punto di partenza. Viceversa, il parametro $r$, numero di palline non-bianche estratte, non era necessario e, introducendolo e marginalizzandolo avremmo ottenuto precisamente lo stesso risultato. Solo, a prezzo di uno sforzo più grande per la maggiore complessità delle distribuzioni: e questa doveva essere una Semplice Probabilità.