If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Como calcular o coeficiente de correlação r

Cálculo do coeficiente de correlação r. Raciocínio por trás do cálculo e r.

Quer participar da conversa?

Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA1JV - O que vamos fazer, neste vídeo, é calcular manualmente o coeficiente de correlação para plotar dado bivariados. Quando eu digo dados bivariados, é um jeito chique de dizer que um valor "x" tem um correspondente "y" em um determinado ponto. Mas antes de calcular o coeficiente de correlação, vamos entender alguns dados estatísticos que eles nos deram. Nós estamos assumindo que essas são amostras de uma população em que um valor "x" corresponde a um valor "y". Nós temos a média de "x", nós temos o desvio-padrão de "x". O cálculo da média consiste em somar os valores de "x" e dividir pelo número de amostras. 1 mais 2, mais 2, mais 3, dividido por 4. Esse valor é igual a 8 dividido por 4, que é igual a 2. O desvio-padrão de "x", como nós vimos anteriormente, pode ser calculado da seguinte maneira: vai ser igual à raiz quadrada de cada valor de "x", menos a média, elevada ao quadrado. Isso vai ser (1 - 2)² mais (2 - 2)², mais (2 - 2)², mais (3 - 2)². Tudo isso sobre o número de amostras, -1, que é igual a 3. Podemos simplificar facilmente essa expressão. Isso aqui é zero, isso aqui é zero, isto é 1, isto é 1, então vai ser a raiz quadrada de 2 sobre 3, que é igual a 0,86 aproximadamente. A média de "y" é a mesma coisa que fizemos com a média de "x". Vai ser 1 mais 2, mais 3, mais 6 dividido por 4. Vai ser 12 dividido por 4, que vai ser igual a 3. E o desvio-padrão de "y", você vai calcular da mesma maneira que nós calculamos o desvio-padrão de "x". Vai ser aproximadamente 2,160. Compreendido tudo isso, vamos agora pensar como o coeficiente de correlação é calculado. Nós temos aqui a fórmula que representa o coeficiente de correlação. À primeira vista, ela pode ser um pouco intimidadora, até que você percebe algumas coisas. Percebemos que tudo isso corresponde ao que nós chamamos de "escore-z" para "x". Para esse "x" específico. Tudo isso representa o escore-z desse "y" específico. Nós temos que "z" é igual ao valor de "x" menos a média sobre o desvio-padrão de "x". Esse é o escore-z para esse dado "x" e este é o escore-z para o "y" correspondente. Qual é o desvio-padrão desse ponto "x" para média? No mundo real, você não terá apenas quatro pares de amostras. Com isso, será muito difícil fazer esse cálculo à mão. Mas, geralmente, utilizamos ferramentas de software de computador para isso. Mas é muito válido fazer isso manualmente para entender de forma intuitiva o que está acontecendo aqui. Nesse caso particular, "r" vai ser igual a 1 sobre um número de pares menos 1. O que vai ser 1 sobre 3 vezes, isso vai ser o somatório dos produtos dos escore-z. O escore-z para 1, vai ser 1 menos 2 que é a média de "x" dividido pelo desvio-padrão de "x" que é 0,816 vezes 1. Agora, vamos fazer o escore-z de "y", 1 menos a média, que é 3 sobre o desvio-padrão de "y", que é 2,160. Nós vamos continuar fazendo isso. O próximo vai ser 2 menos 2 sobre 8,16 e é daqui que esse 2 vem. E eu estou subtraindo-o pela média e dividindo pelo desvio-padrão vezes 2. Agora, nós estamos olhando para esse 2 menos 3 sobre 2,160 mais 2 menos 2 sobre 8,16, vezes 3 menos 3 sobre 2,160. Mais o último par que é 3 menos 2 sobre 8,16, vezes 6 menos 3 sobre 2,16. Antes de pegar a calculadora, vamos ver o que dá para simplificar. 2 menos 2 é igual a zero, zero sobre 8,16 é zero. Zero vezes esse valor é zero. 2 menos 2 é igual a zero, 3 menos 3 é igual a zero. Então, podemos simplificar esses dois valores. 1 menos 2 é igual a -1 e 1 menos 3 é igual a -2. "R" vai ser 1 sobre 3 vezes, "menos" com "menos" é "mais", então vai ser 2 sobre 0,816 vezes 2,160. Mais 3 menos 2 é igual a 1 e 6 menos 3 é igual a 3, então, isso vai ser igual a 3 sobre 0,816 vezes 2,160. Tudo isso tem o mesmo denominador. Nós podemos simplesmente somar os numeradores. Então, 2 sobre essa coisa, mais 3 sobre essa coisa, vai ser 5 dessa coisa. Então, vai ser 5 sobre 0,816 vezes 2,160. Agora podemos utilizar a calculadora para saber o resultado disso. Vai ser 1 sobre 3 vezes 5, sobre 0,816 vezes 2,160. Eu vou fechar esse parêntese e vamos ver quanto vai dar. 0,945 o que é aproximadamente 0,946. "R" é aproximadamente 0,946. O coeficiente de correlação é a medida de quanto uma linha pode descrever a relação entre valores "x" e valores "y". "R" sempre será maior ou igual a menos 1, ou menor ou igual a 1. Se "R" é igual a 1, significa que a linha descreve completamente a relação entre os valores "x" e "y" e que essa linha é crescente. Se o "R" é equivale completamente a -1, significa que a linha descreve completamente os dados "x" e "y". Nós vamos ter uma linha decrescente. Se "R" é igual a zero, significa que a linha não descreve em nada a relação entre os valores "x" e "y". Em nossa situação aqui, o valor de "R" é próximo de 1. O que significa que a nossa linha está bem próxima de descrever a relação entre os nossos "x" e os nossos "y". Por exemplo, eu vou tentar desenhar uma reta aqui e essa reta tem que passar no ponto que é a média de "x" e a média de "y". O que significa que é esse ponto aqui onde "y" é 3 e "x" é 2. Parece que essa é uma boa linha. Deixe-me desenhar sobre ela. Você percebe que essa linha não é perfeita, mas ela é bem próxima de cada ponto. Ela permite que você compreenda o que está acontecendo por trás. O meu próximo foco será na compreensão do que está acontecendo aqui. O que está acontecendo com o escore-z? Como esses escores-z nos ajudam a compreender essa propriedade de que quando "R" está próximo de 1 nós temos uma correlação positiva, uma correlação forte positiva. E quando "R" está próxima de -1, nós temos uma correlação forte negativa. Vamos desenhar o que a média significa. A média de "x" é 2 e a média de "y" é 3 e esta é a linha que é igual a 3. Agora nós podemos desenhar o desvio-padrão. O desvio-padrão de "x" vai ser 0,816. Isso significa que se eu for 0,816 a menos de 2, eu vou encontrar o primeiro ponto de desvio-padrão. E se eu for +0,816 de 2, eu vou encontrar o outro ponto de desvio-padrão. Nós vamos fazer o mesmo com o desvio-padrão de "y" que é 2,160. 2,160 é mais ou menos por aqui e menos 2,160 em relação à média de "y" é mais ou menos aqui. Vamos desenhar. Vamos desenhar outro tracejado. Por exemplo, vamos nesse primeiro par. O que nós temos que fazer? O quanto esse ponto desvia da média? Isso vai ser negativo, vai ser -1 sobre 0,816. É por isso que nós calculamos isso. Quanto desvio-padrão da média, esse ponto está da média de "x". E quanto esse ponto está desviado da média de "y". Vai ser -2 sobre 2,160. Por isso, esse valor. Observe que ambos são negativos. Dessa forma, ambos contribuíram para um valor positivo que nos auxiliou a chegar a um valor próximo de 1. Se ambos escore-z forem negativos, significa que existe uma correlação positiva entre as variáveis. Significa que eles são abaixo da média, mas que esse valor é parecido. Vamos para o próximo ponto (2, 2), o que aconteceu aqui? A orientação "x" é o mesmo valor que a média. Isso se tornou zero, significa que o ponto está no ponto zero de "x". Em função do escore-z ser zero, todo esse cálculo foi igual a zero. Isso fez com que esse ponto ficasse um pouco distante do nosso coeficiente de correlação. A razão desse ponto estar afastado e não ser negativo é porque ele não está contribuindo para a soma. Mas ele está dividindo o nosso maior valor por ser incluso como um par extra. Se nós tivéssemos um ponto no qual o valor de "x" é inferior à média de "x", e o valor de "y" fosse superior à média de "y". Se isso fosse um dos pontos, porque o o escore-z de "y" seria positivo, e o escore-x seria negativo. Quando nós colocássemos isso na soma, isso iria afastar nosso valor "R" de 1. Isso faria que o nosso coeficiente "R" fosse menor. Algo parecido com isso aconteceria se nós quiséssemos fazer um valor de "R" ainda menor, por que nós temos um escore-z positivo para "x" e um escore-z negativo para "y". E o produto de positivo com negativo seria negativo.