03-prob.Rmd

# Probabilidade
Muito há para se falar sobre probabilidade desde a troca de correspondências entre Pascal e Fermat em 1654. Segundo Pierre-Simon Laplace[^laplace], 'a teoria das probabilidades é, basicamente, o senso comum reduzido ao cálculo.' Para o matemático italiano Bruno de Finetti[^definetti], 'PROBABILIDADE NÃO EXISTE'. Neste material serão utilizadas as noções axiomática, subjetiva e frequentista de probabilidade, descritas em detalhes na Seção 2.2 de [@press2003subjective].

[^laplace]: "*[L]a théorie des probabilités n'est au fond, que le bon sens réduit au calcul.*", [@laplace1825essai] página 275.

[^definetti]: "*PROBABILITY DOES NOT EXIST.*" [@definetti1974theory] página x.

## Propriedades

### Propriedades fundamentais (Axiomas de Kolmogorov)
Um leitor mais atento pode perceber que foi feita uma combinação entre os axiomas de Kolmolgorov e as propriedades que são consequências destes axiomas. Tal abordagem tem por finalidade simplificar o entendimento neste curso de nível introdutório. Para maiores detalhes, recomenda-se [@james2010probabilidade].

- **P1**  
\begin{equation}
0 \le Pr(A) \le 1 
(\#eq:def-p1)
\end{equation}
- **P2**  
\begin{equation}
Pr(\Omega)=1 
(\#eq:def-p2)
\end{equation}
- **P3** Se $A_1$, $A_2$, ..., $A_k$ são conjuntos disjuntos, então
\begin{equation}
Pr(A_1 \cup A_2 \cup \ldots \cup A_k) = Pr(A_1) + Pr(A_2) + \ldots + Pr(A_k)
(\#eq:def-p3)
\end{equation}

### Propriedades secundárias
Das propriedades fundamentais resultam outras, apresentadas sem demonstração:

- **P4**  
\begin{equation}
Pr(A)=1-Pr(A^c) 
(\#eq:def-p4)
\end{equation} 

- **P5**  
\begin{equation}
Pr(\emptyset)=0 
(\#eq:def-p5)
\end{equation} 

- **P6**  
Se $A_1$ e $A_2$ são dois conjuntos quaisquer, então 
\begin{equation} 
Pr(A \cup B) = Pr(A) + Pr(B) - Pr(A \cap B)
(\#eq:def-p6)
\end{equation} 

- **P7**  
\begin{equation}
Pr(\left[ A \cup B \right]^c) = Pr(A^c \cap B^c) 
(\#eq:def-p7)
\end{equation} 

- **P8**  
\begin{equation}
Pr(\left[ A \cap B \right]^c) = Pr(A^c \cup B^c) 
(\#eq:def-p8)
\end{equation} 


##  R como um conjunto de tabelas estatísticas
[@venables2020introduction] apontam que um uso conveniente de R é fornecer um conjunto abrangente de tabelas estatísticas. Funções são fornecidas para avaliar a função densidade de probabilidade (FDP) $f(x)$, a função distribuição acumulada (FDA) $F(x) = Pr(X \le x)$, a função quantil (dado $q$, o menor $x$ tal que $Pr(X \le x) > q$) e também para simular valores das distribuições. Utiliza-se o prefixo `d` para a densidade, `p` para o FDA, `q` para a função de quantil e `r` para simulação pseudo-aleatória. A seguir são apresentadas as distribuições de probabilidade disponíveis no *base R*. Para mais distribuições podem-se utilizar os pacotes adicionais `mvtnorm` (normal e t multivariadas) e `VGAM` (Dirichlet, multinomial, beta-binomial, entre outras).

<center>
![](img/probsR.png) 
</center>


<!-- https://blog.revolutionanalytics.com/2016/02/multivariate_data_with_r.html -->
## Distribuição Normal

### Normal univariada

A distribuição normal univariada é dada pela expressão

$f(x|\mu, \sigma) = \dfrac{1}{\sqrt{2\pi} \sigma} \exp \bigg\{ -\frac{1}{2} \left(  \frac{x-\mu}{\sigma} \right) ^2 \bigg\}$

```{r}
# gráfico da densidade da normal padrão, N(0,1)
curve(dnorm(x), xlim = c(-3,3))
# distribuição acumulada
pnorm(0)
pnorm(1.645)
pnorm(1.96)
# quantis (separatrizes)
qnorm(0.5)
qnorm(0.95)
qnorm(0.975)
```


### Normal bivariada

No caso bivariado pode-se definir

$f(x_1,x_2|\mu_1, \mu_2, \sigma_1, \sigma_2, \rho) = \dfrac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} \exp \bigg\{ -\frac{1}{2(1-\rho^2)} \left[  \frac{(x_1-\mu_1)^2}{\sigma^2_1} + \frac{(x_2-\mu_2)^2}{\sigma^2_2} - \frac{2 \rho (x_1 - \mu_1) (x_2 - \mu_2)}{\sigma_1 \sigma_2} \right] \bigg\}.$


```{exercise}
Verifique que o produto de duas normais univariadas equivale à definição no caso bivariado quando $\rho=0$.
```

```{r}
library(rgl)

# parâmetros
n <- 100
x1 <- seq(-5, 5, length = n)
x2 <- seq(-5, 5, length = n)
m1 <- 0
m2 <- 0
s1 <- 1  # desvio padrão
s2 <- 2

# produto de normais independentes, \rho = 0
z1 <- outer(x1, x2, function(x,y) dnorm(x,m1,s1) * dnorm(y,m2,s2))

# gráficos
persp3d(x1, x2, z1, col = 'gray')
rglwidget()
```

```{r}
library(rgl)
library(mvtnorm)

# parâmetros
n <- 100
x1 <- seq(-5, 5, length = n)
x2 <- seq(-5, 5, length = n)
m1 <- 0
m2 <- 0
s1 <- 1^2  # variância
s2 <- 2^2

# via mvtnorm::dmvnorm, \rho = 0
m <- c(m1,m2)
s <- diag(c(s1,s2))
z2 <- outer(x1, x2, function(x,y) dmvnorm(cbind(x,y), mean = m, sigma = s))

# gráficos
persp3d(x1, x2, z2, col = 'lightblue')
rglwidget()
```

```{r}
library(rgl)
library(mvtnorm)

# parâmetros
n <- 100
x1 <- seq(-5, 5, length = n)
x2 <- seq(-5, 5, length = n)
m1 <- 0
m2 <- 0
s1 <- 1^2
s2 <- 2^2
r <- 0.9

# via mvtnorm::dmvnorm, \rho = 0.9
m <- c(m1,m2)
s <- matrix(c(s1,r,r,s2), nrow = 2, byrow = T)
z3 <- outer(x1, x2, function(x,y) dmvnorm(cbind(x,y), mean = m, sigma = s))

# gráficos
persp3d(x1, x2, z3, col = 'lightgreen')
rglwidget()
```

As probabilidades podem ser calculadas através da função `pmvnorm` do pacote `mvtnorm`.

```{r}
library(mvtnorm)

# parâmetros
m <- c(0,0)
s <- diag(2)

# Pr(X1 < 0, X2 < 0)
lower <- c(-Inf, -Inf)
upper <- c(0, 0)
pmvnorm(lower, upper, m, s)
```

```{exercise, normal-bi}
Interprete o valor 0.25 calculado no exemplo acima.
```


### Normal multivariada

Para o caso multivariado define-se

$f(\boldsymbol{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma}) = \dfrac{1}{\sqrt{2\pi} |\boldsymbol{\Sigma}|^{1/2}} \exp \bigg\{ -\frac{1}{2} (\boldsymbol{x} - \boldsymbol{\mu})' \boldsymbol{\Sigma}^{1/2} (\boldsymbol{x} - \boldsymbol{\mu}) \bigg\}$,

$\boldsymbol{\mu} = (\mu_1,\mu_2, \ldots, \mu_p)'$, $\boldsymbol{\Sigma} = \begin{bmatrix} \sigma_{1}^2 & \sigma_{12} & \cdots & \sigma_{1p} \\ \sigma_{12} & \sigma_{2}^2 & \cdots & \sigma_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{1p} & \sigma_{2p} & \cdots & \sigma_{p}^2 \end{bmatrix}$.