If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

R² ou coeficiente de determinação

R² ou coeficiente de determinação. Versão original criada por Sal Khan.

Quer participar da conversa?

Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA2 - Então, só fazendo uma pequena lembrança do que a gente estava vendo nos últimos vídeos. A gente viu, vou desenhar um gráfico aqui para ilustrar isso. A gente viu que, quando a gente tem alguns pontos desenhados no gráfico, por exemplo, aqui eu vou ter um ponto (x₁, y₁). E vou ter outro ponto aqui: (x₂, y₂). Aí eu posso ter vários outros pontos separados, jogados aleatoriamente aqui, e até o meu ponto lá em cima, o ponto (xₙ, yₙ). A gente viu que consegue calcular uma reta, que seria, neste caso, mais ou menos assim, acredito eu. A gente consegue calcular uma reta, vamos supor que ela fosse assim. A gente conseguiria calcular essa reta, a inclinação, a equação dessa reta, que teria a equação: y = mx + b. A gente conseguiria calcular a equação dessa reta e descobrir, a partir dela, por exemplo, a reta que melhor caberia entre esses pontos com o menor erro (no caso, a menor distância quadrada) entre o ponto e a reta. Então, aqui, por exemplo, eu teria o erro 1, aqui eu teria o erro 2, aqui eu teria o erro 3, nos outros pontos também teria erros, por exemplo. Só que essa reta estaria colocada em uma posição em que o erro total seria o menor possível. A gente pode montar a equação dessa reta, que nos outros vídeos eu usei como "e²", me referindo a erro quadrado, mas neste vídeo eu vou usar a notação em inglês, que vem de "squared error". Então, eu vou usar aqui SE. Então, o SE da reta (no caso, o erro quadrado da reta) é igual a: y₁, menos, a variação deste erro 1 (a soma de todos os erros, no caso) vai ser, então: y₁, menos o "y" deste ponto da reta, que vai ser justamente esta mesma equação quando este "x" for o x₁. Então, isto aqui menos (mx₁ + b), isto aqui mais y₂ - (mx₂ + b), e isto aqui a gente pode somar, e ir somando todos os pontos que a gente tiver até chegar no ponto yₙ, que vai ser yₙ aqui, menos, e aqui vai ter (mxₙ + b). E isto aqui todos estes termos vão ser quadrados, porque este é o nosso erro quadrado, é o nosso método de comparação, digamos. Então, agora a gente pode fazer a seguinte pergunta: quanto da variação em "x", ou melhor, quanto da variação em "y" é correspondida pela variação em "x"? Então, basicamente, o que a gente está perguntando aqui é: quanto da variação em porcentagem, deixe-me botar aqui. Quanto da variação em porcentagem. Quanto da variação em "y" é correspondida pela variação em "x"? Então, correspondida ou descrita pela variação em "x". A gente vai ter, por exemplo, uma variação em "y" que seria justamente este erro, esta distância aqui entre o nosso ponto "y" e o "y" da reta, só que a gente também vai ter uma variação em "x", o que é justamente o que vai formar essa reta. Então, se a gente quiser saber quanto da variação total, deixe-me colocar aqui, quanto da variação total em "y" é correspondida pela variação em "x", a gente pode começar escrevendo a variação total. Então, a variação total. A variação total de "y". Se a gente fosse pensar em termos de estatística, a melhor forma de a gente fazer isso seria utilizando a média aritmética dos valores de "y" (porque a gente está procurando a variação total dos valores de "y"). Então, imagine que a gente pegasse todos esses valores de "y" que estão aqui no gráfico e pegasse o valor médio deles. Então, a gente teria uma reta, vou desenhar aqui neste gráfico. A gente teria, por exemplo, uma reta, vamos supor que fosse aqui. Uma reta do valor médio de "y", que seria alguma coisa mais ou menos assim. Seria constante esse valor médio. E no caso, a nossa variação total de "y" seria sempre a distância entre o nosso ponto e a nossa reta do valor médio de "y". Então, por exemplo, a nossa distância aqui seria isso tudo, a nossa distância neste ponto aqui seria isto, neste ponto aqui seria isto, neste ponto aqui seria isto, E assim a gente vai fazendo, como se fosse com esta reta aqui, só que no caso a gente está usando uma reta, uma constante do valor médio de "y". E isso seria descrito pela fórmula: (y₁ menos o valor médio de "y")², isto somado com (y₂ menos a média de "y")², e isto aqui vai até chegar ao nosso (yₙ menos o valor médio de "y")². Isso que a gente acabou de fazer aqui, essa variação total de "y", também pode ser chamada de, vou escrever aqui, também pode ser chamada de erro quadrado total da variação "y". Então, a gente acabou de calcular aqui o nosso erro quadrado com o nosso "y" médio. E agora, só buscando cada vez mais responder essa nossa pergunta de quanto da variação em "y" é correspondida pela variação em "x", a gente precisa responder outra pergunta antes. Quanto da variação total não é descrita, não é descrita pela linha, pela regressão linear? Quanto da variação total não é descrita pela linha? Isso a gente tem aqui, estes valores. Quando a gente quer, por exemplo, saber quanto da variação em "y" é correspondida pela variação em "x", nós temos o valor de quanto da variação em "y" não é correspondida pela variação em "x", que é justamente este valor aqui. É este valor do erro quadrado da reta, que nos diz o erro em relação a "x". E também, nós temos agora este valor aqui, que seria o erro quadrado para nosso "y" médio. Então, se a gente quiser saber a porcentagem de quanto da variação total (em porcentagem) não é descrita pela linha, a gente pode simplesmente fazer uma relação entre, vou botar aqui um quociente, vou botar o erro quadrado do valor médio de "y" embaixo, e em cima a gente coloca justamente este nosso valor do erro quadrado da reta. Então, ficaria nosso erro quadrado da reta. E, mesmo assim, isto aqui que a gente acabou de olhar aqui vai nos dar o valor de quanto da variação total não é descrito pela linha. Então, este valor aqui, por exemplo, nunca vai ser maior do que 1. 1 seria 100%, no caso. É uma relação, então seria uma porcentagem do resultado desta fração, se a gente fizesse dessa maneira. Então, a gente pode ter, por exemplo, um número cada vez mais próximo de 1, o que significa que o erro quadrado da reta está cada vez mais próximo desse nosso erro quadrado do "y" médio, ou a gente pode, também, ter um valor muito pequeno aqui, que diz que o erro foi muito pequeno. Então, a reta quase é descrita de uma maneira mais fácil. E agora, a gente pode responder, finalmente, a esta nossa pergunta aqui: quanto da variação em "y" é correspondida pela variação em "x", em porcentagem? Então, se isto aqui descreve quanto da variação em "y" não é descrita pela linha, o que sobra é descrito pela linha. Vamos supor que isto aqui fosse 30%. 30% da variação total não é descrita pela linha. Então, quanto por cento vai ser descrito pela linha? Seria 70%, ou seja, 1 menos 30% (100% - 30%). Então, a gente consegue descobrir que a nossa, o quanto da variação em "y" correspondido pela variação em "x" é igual a: 1 menos o erro quadrado da reta, sobre o erro quadrado do valor médio de "y". E isto aqui, os nossos amigos matemáticos resolveram chamar de: coeficiente de determinação. Ou ainda, vocês já devem ter conhecido, se vocês já viram isto aqui, vocês já devem ter conhecido isto aqui pelo nome r². Então, r² é a relação entre o total e o quanto da variação total não é descrito pela linha. Agora, só vamos imaginar um pouquinho. Se este nosso valor, o nosso erro quadrado da reta, for muito pequeno, eu vou escrever isso aqui, se o erro quadrado da reta for pequeno, o que acontece com o nosso coeficiente de determinação? Se o erro for pequeno, isto aqui vai ser uma fração muito, muito pequena, e este valor vai ser muito próximo de 1, porque 1 menos uma coisa pequena vai ser quase 1. Então, o nosso r² vai ser grande. Vai ser grande, no caso, próximo de 1. E isso significa que a linha coube bem entre os pontos, foi uma boa aproximação. Aquela linha, digamos, é confiável. E, se o valor do nosso erro quadrado da reta for grande, esse valor vai ser cada vez mais próximo do total, que no caso seria cada vez mais próximo de 1, e isto aqui ficaria 1 - 1, por exemplo, ou 1 menos um número muito perto de 1, e o r² seria muito grande. Então, se o nosso erro quadrado da reta for grande, então, o r² vai ser próximo de zero. Então, uma maneira legal de pensar nisto aqui é como se o coeficiente de determinação fosse o quão precisa a reta que a gente acabou de descobrir seria para descrever todos aqueles pontos que estão lá. Então, este foi o vídeo de hoje. Eu sei que isso ficou muito abstrato, mas nos próximos vídeos a gente vai fazer com exemplos, vou deixar um pouco mais fácil de entender. Muito obrigado por ter assistido até aqui, e até os próximos vídeos!