Today I Learned/통계

회귀분석(1) - RSS가 최소가 되도록하는 OLS

하나719 2020. 10. 9. 16:12
반응형

회귀분석은 머신러닝을 배울 때 첫 날 배웠던 개념인데, 통계에서 배우면서 더 깊이 이해하게 되었다.

회귀분석은 지도학습 중 연속된 종속변수를 예측하는 분석이다.

 

[머신러닝 참고]

 

Orange3로 코딩없이 머신러닝 지도학습 실습해보기

이고잉님의 머신러닝 야학을 듣고 이해한 내용을 바탕으로 작성했습니다. 잘못된 부분은 댓글로 알려주세요. 머신러닝 야학 들으러가기 👉🏻 Orange3는 데이터분석을 쉽게 해볼 수 있도록 도와�

hanawithdata.tistory.com

회귀분석이란

회귀분석의 목적은 주어진 독립변수(X) 로 종속변수(y)를 예측하는 것이다.

선형 회귀분석이란 직선형태의 추세선을 구하는 것이고 < y = aX + b > 으로 표현할 수 있다.

출처: 위키백과 - 회귀분석

위 이미지처럼 실제 값(빨간점)이 선형적으로 분포하지 않았을 때, 선형 회귀선 (파란선) 과 오차 값이 발생한다.

선형회귀는 이 오차 값을 최소로 하는 합리적인 추세선을 찾아야한다.

 

오차값의 합을 구할 때 오차값 하나에서 -, + 둘다 발생하기 때문에 다 더했을 경우 서로 상쇄되어 버린다.

이런 현상을 막기위해서 오차를 제곱한 뒤 더해준다.

이렇게 오차의 제곱의 합을 최소로 만드는 방법을 최소제곱법(Least Squared Method)이라고 한다.

 

수식으로 보기

1) 잔차 제곱합 (Residual Sum of Squares)

2) 최소제곱법 (Least Squared Method)

  • RSS 최소가 되게 찾는 방법
  • 가장 단순한 형태의 Ordinary Least Squares를 사용 (평균을 지나는 직선)

 

다음에는 파이썬으로 직접 실습해보고, 결과표를 해석해보자 (R제곱, adj-R제곱, AIC, BIC, 기울기, p value, 신뢰구간 등등!!)

 

반응형