반응형

데이터분석 34

[Python] Strip()은 공백만 제거해주지 않는다.

checkio 문제 참고: https://py.checkio.org/mission/beginning-zeros/solve/ 문제 설명: 숫자로만 구성된 string에서 앞에 연속된 '0'이 몇개인가? EX. '0012' -> 2개 / '1000' -> 0개 / '0300' -> 1개 내 풀이 재귀호출 사용 (재귀호출 공부한 뒤로, 이런문제는 재귀호출로 풀게된다) 참고: 2020/09/18 - 파이썬 재귀호출로 반복문 줄이기 def beginning_zeros(number: str) -> int: # your code here if len(number) == 0 or number[0] != '0': return 0 if number[0] == '0': return 1 + beginning_zeros(num..

[Pandas] any(),all() 사용법과 예시

any(), all() 둘다 boolean(True or False) 값을 return 해주는 pandas의 내장함수이다. 데이터분석을 하다보면, 특정 값을 가진 행이 있는지 판별해야하는 경우가 있다. 그 특정값이 몇개가 있는지가 아니라 단순히 1개라도 있는지, 아니면 전체 행이 그 값을 가졌는지 여부를 판단해줄 때 any() 혹은 all()을 써줄 수 있다. 예시를 통해 확인해보자 1. Student Table 에 'hana'라는 이름을 가진 학생이 있는가? 2. Student Table 에 'zero'라는 이름을 가진 학생이 있는가? 3. Student Table 의 학생들중 남학생이 있는가? 4. Student Table 의 학생들은 전부다 여자인가? 이 함수는 조건문이랑 함께 사용하면 매우 편할 ..

P-value 로 두 집단에 차이가 있는지 검증하기

귀무가설, P-value 등 이게 대체 무슨 소리인가 싶었고, 그냥 P-value가 0.05 이하면 된다 이정도로만 이해하고 있었는데 오늘 한 단계 더 이해해보았다. 구체적 상황 설정 상황: 이번에 우리 서비스의 추천 알고리즘을 개선했다. 콘텐츠를 추천했을 때 기존의 알고리즘보다 클릭율이 높은지 검증하려고 한다. 새로 개발한 추천 시스템 -> A, 기존 추천 시스템 -> B 대립가설: A 클릭율이 B 클릭율보다 높다. 귀무가설: A 클릭율이 B 클릭율보다 작거나 같다. 여기서 우리의 목표는 귀무가설을 기각하고, 대립가설을 채택하는 것이다. 이렇게 귀무가설을 세우는 이유는, 대립가설을 증명하는 것보다 귀무가설이 틀렸음을 증명해서 대립가설을 선택하는 것이 더 쉬운 방법이라고 한다. P-value 등장 귀무가..

3가지 리텐션(Retention) 계산 방법 특징

인프런 양승화님의 그로스해킹 수업을 듣고 작성합니다. 잘못된 내용이 있으면 댓글로 알려주세요 🙌🏻 AARRR 에서 3R중 하나인 Retention 에 대해 알아보자. * 나중에 개인적으로 참고하는 용도로 작성해서 설명없이 최대한 간단하게 작성했습니다. Retention 3가지 계산 방법 개념 수식 장점 단점 보완 및 활용 Classic Retention 특정일 (N)에 컴백한 유저 비율 Day N 이용자 / Day 0 에 처음 이용자 쉬움 - 일단위 데이터 모두 쌓아놔야함 - 특정일 노이즈에 취약 ex) user 5 - daily 사용이 중요한 서비스에서 사용하기 적합 - 기준일 N을 6일,7일,8일등 다양하게 두고 평균치 구해서 노이즈 줄이기 Range Retention 특정기간에 컴백한 유저 비율 R..

[Pandas] column 순서 재배치하는 2가지 방법

데이터 프레임의 컬럼을 요리조리 다뤄보면서 알게 된 컬럼 순서 바꾸는 방법을 TIL로 남기려고 한다. 이렇게 컬럼이 많을 때 한눈에 들어오지 않는다. 위 이미지에서 3번째 컬럼에 있는 Salary Estimate 컬럼을 보면 연봉이 string 타입으로 작성되어 있어 연산이 어렵다. 그래서 salary_min, salary_max 컬럼을 생성하여 앞에 숫자와 뒤에 숫자를 각각 넣어주었다. 컬럼의 맨 오른쪽에 생성되어 있어서 스크롤을 해야 볼 수 있다. 그래서 이 새로만든 컬럼을 앞으로 재배치해주고 싶다. 방법1. 컬럼명 직접 써주기 df=df[['Job Title','salary_min', 'salary_max', 'Salary Estimate', 'Job Description', 'Rating', 'C..

Tensorflow 딥러닝으로 집 값 예측하기

이전에 Orange3로 해보았던 실습을 직접 Code로 작성해보는 과정입니다. 머신러닝 야학을 듣고 이해한 내용을 바탕으로 작성했습니다. 잘못된 부분이 있으면 댓글로 알려주세요. 머신러닝 야학 들으러가기 👉🏻 딥러닝이란? 이미지 출처 "인공 신경망에 기반하여 많은 양의 데이터를 학습해 뛰어난 성능을 이끌어내는 연구 분야" 이다. 사람의 뇌처럼 컴퓨터가 학습할 수 있도록 만들려고 하는 개념이다. 이미지 출처 위의 이미지처럼 사람 뇌속의 뉴런이 신호전달을 해서 학습하는 과정에서 착안하여 만들어진것이 딥러닝이다. Input(X) 와 Output(y) 사이에 Hidden layer를 두고 모델을 학습시켜서 예측 모델을 만드는 것이다. 여기서 Hidden layer 가 포인트이다. 이 부분은 사람이 계산하거나 알..

그로스해킹, 뭐라고 정의할까?

그로스해킹을 처음 접했던건 2017년도 였다. 창업을 해보았다가, 마케팅에서 좌절하고 학교로 돌아가 '스타트업 마케팅' 이라는 수업을 수강했다. 그 때 처음 그로스해킹을 만났다. 그 후로 3년 정도 흘렀지만, 계속 내가 이해하고 있는 그로스해킹이 미묘하게 달라지는 것 같다. 그리고 그로스해킹에 대해 다양한 의견들이 있어서, 어떤게 정답이라고 하기 어려운 것 같다. 스스로 지금 생각하고있는 그로스해킹에 대해 정리해보려고 한다. 위키피디아 에서 말하는 그로스해킹 그로스 해킹(Growth hacking)은 창의성, 분석적인 사고, 소셜 망을 이용하여 제품을 팔고, 노출시키는 마케팅 방법으로 스타트업회사들에 의해 개발되었다.[1][2] 온라인 마케팅의 한 종류라고 볼 수 있는데, 그로스 해커(growth hac..

Orange3로 코딩없이 머신러닝 지도학습 실습해보기

이고잉님의 머신러닝 야학을 듣고 이해한 내용을 바탕으로 작성했습니다. 잘못된 부분은 댓글로 알려주세요. 머신러닝 야학 들으러가기 👉🏻 Orange3는 데이터분석을 쉽게 해볼 수 있도록 도와주는 GUI 툴 입니다. 처음 머신러닝을 학습할 때, 코드부터 짜지 않아도 된다는 점에서 개념을 잡는데 도움이 되었습니다. 선형 회귀 분석 X(Feature, 원인, 독립변수) 에 따라서 달라지는 y (Target , 결과, 종속변수) 를 알아내고 그 관계에 수식을 찾아내어 원인에 따른 결과를 예측하는 것 입니다. 예를들어 온도의 2배 만큼 레몬에이드가 팔리는걸 발견했다고 하면 이렇게 수식으로 표현할 수 있습니다. 온도와 레몬에이드 판매량 관계 : y (레몬에이드 판매량) = 2 * X (온도) 이런 수식을 발견하면 우..

VScode로 Git & Github 로 코드 버전 관리 시작하기

Git을 설치하고, Github에 파일을 올리기 시작한지는 5개월 정도 되었지만 그 엄청난 기능들을 몰라서 구글드라이브 수준으로 사용하고 있었다. 흑흑 오늘은 깃을 깃답게 처음 써본 기념일이다. Visual Studio Code에서 작업한 파일을 어떻게 버전관리할 수 있는지 순서를 보자. 1. 코드 수정 2. Source control 영역에서 change 일어난 파일 + 눌러서 커밋 대기열에 추가 * git graph 볼 때, 순서 1) 헤드 (동그라미): 현재 작업 위치 2) 마스터: 최신 버전 3) origin: remote 저장소에 푸시한 버전 3. 커밋 대기열에 있는 파일 커밋하기 4. Github에 Push 하기 * 에러 발생 및 해결 에러 코드: can't push refs to remote..

Today I Learned/웹 2020.09.07

Excel 로 표본 데이터의 신뢰 구간 구하기

강의를 듣고 이해한걸 바탕으로 작성되었습니다. 잘못된 부분이 있으면 댓글로 알려주세요! 표본, 신뢰 구간 등의 관계 스토리 수식을 보기에 앞서 이 친구들의 관계를 보자. 표본은 모집단에서 추출한 샘플이라고 보면되는데, 모집단 전수조사가 어려운 경우가 많기 때문에 표본의 통계량으로 모집단을 추정한다. [과정 요약] 표본 통계량 (표본 평균, 표본 분산, 표본 표준편차 등 ) ----> 추정 -----> 모집단은 이런 특성을 가진 집단이래 이 때 오차범위를 함께 제공하는데 그 범위안에 모수가 들어갈 수 도있고, 아닐수도 있음 (신뢰 수준 0%~100%) 오차범위가 크면 신뢰수준이 커지고, 오차범위가 작으면 신뢰 수준도 낮아지는 관계이므로 신뢰 수준을 95% or 99%로 고정하고 오차범위를 구한다. * 오차..

반응형