T E R R A
Rodolfo
T E R R A
Rodolfo
Cientista de Dado - Analista de Informações - Economista
Cientista de Dado - Analista de Informações - Economista
Análise Estatística
Distribuições de Probabilidade Para Variáveis Contínuas
Funções:
- dbinom() < jogar o dados 10 vezes e obter o valor 5
dbinom(x = 1, size = 10, prob = 1/6)
- dnorm() < cria a densidade de um conjunto de dados
numero_vendas_dia = c(3, 5, 2, 3, 3, 6, 3, 10, 5, 5, 5, 7, 8, 7, 1, 5, 5, 4, 4, 7)
dnorm(numero_vendas_dia, mean = 4.9, sd = 2.17)
- dunif() < Probability Density Function
Probabilidade de obter 5 e 2 de um dado
dunif(5, min = 1, max = 6+1)
dunif(2, min = 1, max = 6+1)
library(dice)
- getEventProb(nrolls = 1,
ndicePerRoll = 1,
nsidesPerDie = 6,
eventList = list(5)) < Probabiliade. de jogar uma vez (nrolls) apenas 1 único dado (ndicePerRoll) com 6 face (nsidesPerDie) o número 5 (eventList)
- pbinom() < jogar o dados 10 vezes e obter o valor 5, menos de 03 vezes
pbinom(3, size = 10, prob = 1/6)
- punif() < Cumulative Density Function
Probabilidade de obter 1 ou 2 de um dado
punif(3, min = 1, max = 6 + 1)
runif() < cria uma definição uniforme de valores para uma variável contínua
num_amostras <- 6000
nome <- runif(num_amostras, min = 1, max = 6 + 1)
Distribuição Uniforme Contínua
Uma distribuição uniforme (geralmente chamada de 'retangular') é aquela em que todos os valores estão entre dois limites e ocorrem aproximadamente da mesma forma. Por exemplo, se você rolar um dado de seis lados, você terá 1, 2, 3, 4, 5 ou 6. Se o rolar 6.000 vezes, provavelmente obterá aproximadamente 1.000 de cada resultado ou algo aproximado a isso. Os resultados formariam uma distribuição uniforme de 1 a 6.
A distribuição uniforme é definida em um intervalo [a, b]. A ideia é que qualquer número selecionado no intervalo [a, b] tenha uma chance igual de ser selecionado.
A distribuição uniforme contínua é a distribuição de probabilidade de seleção da variável aleatória a partir do intervalo contínuo entre a e b.
Qual a probabilidade de jogar um dado de 6 faces não viciado e obter o valor 5? E o valor 2?
Parâmetro para o experimento
O Teorema Central do Limite
O Teorema Central do Limite é um importante resultado da estatística e a demonstração de muitos outros teoremas estatísticos dependem dele. Em teoria das probabilidades, esse teorema afirma que quando o tamanho da amostra aumenta, a distribuição amostral da sua média aproxima se cada vez mais de uma distribuição normal. Este resultado é fundamental na teoria da inferência estatística.
Na inferência estatística a utilidade do teorema central do limite vai desde estimar os parâmetros como a média populacional ou o desvio padrão da média populacional, a partir de uma amostra aleatória dessa população, ou seja, da média amostral e do desvio padrão da média amostral até calcular a probabilidade de um parâmetro ocorrer dado um intervalo, sua média amostral e o desvio padrão da média amostral.
O teorema central do limite afirma que a média de uma amostra de n elementos de uma população tende a uma distribuição normal. Pode - se pensar de forma empírica que ao nos distanciarmos da média, a probabilidade de ocorrência diminui, ou seja, é mais provável ocorrer um evento que se encontra próximo da média do que um evento de um dos extremos.
Além disso, uma distribuição pode ganhar a forma de curva normal se possuir diferentes combinações para cada resultado possível do espaço amostral. Isso é válido (em se tratando de amostras discretas), para amostras suficientemente grandes da população. O suficientemente grande, varia de acordo com a população, para populações com distribuição quase simétrica, a amostra pode ser menor do que para populações cuja distribuição seja assimétrica. A curva normal obtida pode então ser convertida em uma curva binomial ou em uma curva de Poisson, e posteriormente pode - se ainda realizar uma correção de continuidade. A precisão da correção de continuidade também pode ser medida.
Assim, é permitido inferir sobre a população através da média amostral e do desvio padrão amostral. Se extraíssemos todos os elementos da população, os dados sobre a amostra seriam exatamente iguais aos da população, mas isso pode ser demasiadamente custoso e/ou lento e/ou impossível (é impossível medir a resistência máxima de qualquer produto para todos os elementos da população).
Distribuição Normal
A Distribuição Normal é uma das mais importantes distribuições da estatística, conhecida também como distribuição de Gauss ou Gaussiana.
Além de descrever uma série de fenômenos físicos e financeiros, possui grande uso na estatística inferencial. É inteiramente descrita por seus parâmetros de média e desvio padrão, ou seja, conhecendo-se estes valores consegue-se determinar qualquer probabilidade em uma distribuição Normal.
Um interessante uso da Distribuição Normal é que ela serve de aproximação para o cálculo de outras distribuições quando o número de observações for muito grande. Essa importante propriedade provém do Teorema Central do Limite que diz que:
"Toda soma de variáveis aleatórias independentes de média finita e variância limitada é aproximadamente Normal, desde que o número de termos da soma seja suficientemente grande."
O Teorema Central do Limite é talvez o conceito mais importante em estatística. Para qualquer distribuição com média finita e desvio padrão, as amostras colhidas nessa população tenderão a uma distribuição normal em torno da média da população à medida que o tamanho da amostra aumenta. Além disso, à medida que o tamanho da amostra aumenta, a variação da média da amostra diminui.
Uma distribuição é a maneira pela qual um conjunto de valores é distribuído por um possível intervalo de valores. Uma maneira comum de visualizar uma distribuição é um histograma que mostra o número de elementos, ou frequência, dentro dos intervalos de valores:
Distribuição Normal
A curva de sino é uma curva de densidade e a área sob a curva de sino entre um conjunto de valores representa a porcentagem de números na distribuição entre esses valores.
Em teoria das probabilidades e estatística, a função densidade de probabilidade, ou densidade de uma variável aleatória contínua, é uma função que descreve a probabilidade relativa de uma variável aleatória tomar um valor dado. A probabilidade da variável aleatória cair em uma faixa particular é dada pela integral da densidade dessa variável sobre tal faixa - isto é, é dada pela área abaixo da função densidade mas acima do eixo horizontal e entre o menor e o maior valor dessa faixa. A função densidade de probabilidade é não negativa sempre, e sua integral sobre todo o espaço é igual a um. A função densidade pode ser obtida a partir da função distribuição acumulada a partir da operação de derivação (quando esta é derivável).
Para variáveis aleatórias contínuas, as probabilidades são representadas pelas áreas sob a curva.
O valor médio de uma distribuição normal é a média, e a largura da curva de sino é definida pelo desvio padrão.
Regra 68-95-99 para a Distribuição Normal
68,2% dos valores estão dentro de 1 desvio padrão da média
95,4% dos valores estão dentro de 2 desvios padrão da média
99,7% dos valores estão dentro de 3 desvios padrão da média
O número de desvios padrão dos quais um valor se afasta da média é chamado de escore z.
O escore z da média é zero. Por exemplo, se a média de uma distribuição for 7 e o desvio padrão for 2, um valor de 4 terá um escore z de -1,5.
Distribuição Exponencial
A distribuição exponencial descreve o tempo de chegada de uma sequência de eventos independentes, aleatoriamente recorrentes.
Suponha que o tempo médio de checkout de um caixa de supermercado seja de 3 minutos. Encontre a probabilidade de uma compra de cliente ser concluída pelo caixa em menos de 2 minutos.
A taxa de processamento de saída é igual a 1 dividido pelo tempo médio de conclusão do checkout. Daí a taxa de processamento é 1/3 checkouts por minuto.
Aplicamos então a função pexp da distribuição exponencial com taxa = 1/3.
A probabilidade de terminar um checkout em menos de dois minutos pelo caixa é de 48,7%
pexp(2, rate = 1/3)
[1] 0.4865829