'Today I Learned/통계' 카테고리의 글 목록

회귀분석(2) - Python으로 회귀분석 해보기

1. 라이브러리 Import 여기서 회귀분석을 도와주는 라이브러리는 맨 위에 ols 이다! from statsmodels.formula.api import ols import pandas as pd import matplotlib.pyplot as plt 2. 회귀분석 할 파일 불러오기 speed에따른 제동거리를 선형회귀분석 해보자 - 독립변수: speed - 종속변수: dist df = pd.read_excel('data/speed.xlsx') df.head() 3. Scatter plot으로 분산 그려보기 df.plot.scatter('speed','dist') 4. ols('y ~ x' ,data).fit() 모형 적합시키기 'y ~ x1 + x2 + x3' -> 독립변수가 여러개 일 경우에는 + ..

Today I Learned/통계 2020.10.28

회귀분석(1) - RSS가 최소가 되도록하는 OLS

회귀분석은 머신러닝을 배울 때 첫 날 배웠던 개념인데, 통계에서 배우면서 더 깊이 이해하게 되었다. 회귀분석은 지도학습 중 연속된 종속변수를 예측하는 분석이다. [머신러닝 참고] Orange3로 코딩없이 머신러닝 지도학습 실습해보기 이고잉님의 머신러닝 야학을 듣고 이해한 내용을 바탕으로 작성했습니다. 잘못된 부분은 댓글로 알려주세요. 머신러닝 야학 들으러가기 👉🏻 Orange3는 데이터분석을 쉽게 해볼 수 있도록 도와� hanawithdata.tistory.com 회귀분석이란 회귀분석의 목적은 주어진 독립변수(X) 로 종속변수(y)를 예측하는 것이다. 선형 회귀분석이란 직선형태의 추세선을 구하는 것이고 으로 표현할 수 있다. 위 이미지처럼 실제 값(빨간점)이 선형적으로 분포하지..

Today I Learned/통계 2020.10.09

통계적 가설 검정 - 1종 오류가 더 위험한 이유

귀무가설을 검정하는 과정에서, 오류를 발생시킬 수 있는 경우가 2가지가 있다. 예를들어보자, 상황: 추천시스템 새로 개발 대립가설: 새로 개발한 추천시스템을 통한 클릭율이 기존보다 더 높을 것이다. 귀무가설: 새로 개발한 추천시스템을 통한 클릭율이 기존보다 더 높지 않을 것이다. 1) 귀무가설이 참인데, 기각하고 대립가설 채택: 1종오류 > 새로 개발한 시스템이 더 좋지 않음에도 좋다고 판단해서 업데이트를 해버리는 상황 2) 귀무가설이 거짓인데, 기각하지 않음: 2종오류 > 새로 개발한 시스템이 더 좋은데, 좋지 않다고 판단하고 업데이트 하지 않는 상황 이 때, 새로 개발한 추천시스템이 클릭율이 사실은 1% 더 낮다고 해보자. 1종오류를 범하면 현재보다 더 안좋은 결과를 초래할 수 있고, 2종오류를 범하..

Today I Learned/통계 2020.09.25

P-value 로 두 집단에 차이가 있는지 검증하기

귀무가설, P-value 등 이게 대체 무슨 소리인가 싶었고, 그냥 P-value가 0.05 이하면 된다 이정도로만 이해하고 있었는데 오늘 한 단계 더 이해해보았다. 구체적 상황 설정 상황: 이번에 우리 서비스의 추천 알고리즘을 개선했다. 콘텐츠를 추천했을 때 기존의 알고리즘보다 클릭율이 높은지 검증하려고 한다. 새로 개발한 추천 시스템 -> A, 기존 추천 시스템 -> B 대립가설: A 클릭율이 B 클릭율보다 높다. 귀무가설: A 클릭율이 B 클릭율보다 작거나 같다. 여기서 우리의 목표는 귀무가설을 기각하고, 대립가설을 채택하는 것이다. 이렇게 귀무가설을 세우는 이유는, 대립가설을 증명하는 것보다 귀무가설이 틀렸음을 증명해서 대립가설을 선택하는 것이 더 쉬운 방법이라고 한다. P-value 등장 귀무가..

Today I Learned/통계 2020.09.22

Excel 로 표본 데이터의 신뢰 구간 구하기

강의를 듣고 이해한걸 바탕으로 작성되었습니다. 잘못된 부분이 있으면 댓글로 알려주세요! 표본, 신뢰 구간 등의 관계 스토리 수식을 보기에 앞서 이 친구들의 관계를 보자. 표본은 모집단에서 추출한 샘플이라고 보면되는데, 모집단 전수조사가 어려운 경우가 많기 때문에 표본의 통계량으로 모집단을 추정한다. [과정 요약] 표본 통계량 (표본 평균, 표본 분산, 표본 표준편차 등 ) ----> 추정 -----> 모집단은 이런 특성을 가진 집단이래 이 때 오차범위를 함께 제공하는데 그 범위안에 모수가 들어갈 수 도있고, 아닐수도 있음 (신뢰 수준 0%~100%) 오차범위가 크면 신뢰수준이 커지고, 오차범위가 작으면 신뢰 수준도 낮아지는 관계이므로 신뢰 수준을 95% or 99%로 고정하고 오차범위를 구한다. * 오차..

Today I Learned/통계 2020.09.01

행복 몰빵 vs 잔잔바리 행복

평균으로의 회귀 아주 극단적인 일이 한 번 발생하더라도 원래의 평균 값으로 돌아온다는 이론이다. 극단적으로 키가 큰 196cm 아빠한테 나온 자식의 키가 그 이상으로 나올 확률은 낮으며 평균보다는 크겠지만, 196cm 와 평균 사이의 키로 태어날 확률이 높다! 다른 예로는 로또를 맞은 사람의 행복이 2년이면 원래 그사람이 가지고 있던 행복에 다시 가까워진다는 것이다! 큰 수의 법칙 표본이 작을 때는 특이 값을 가지는 경우가 발생할 확률이 높지만, 표본이 커질 수록 원래의 확률을 따라간다는 법칙 예를 들어 주사위를 던질 때 초반에 10번 중에 갑자기 1이 6번이나 나올 수도 있다. 하지만, 1000번을 던진다면 1이 나올 확률은 1/6 에 가까워질 것이다. 느낀점 이걸 배우고 느낀 점은 평소에 잘하자..!..

Today I Learned/통계 2020.08.31

데이터와 한걸음씩

Today I Learned/통계 6

티스토리툴바