반응형

데이터분석 34

빅데이터가 찾지 못한 소비자 욕망의 디테일 - 작고 멋진 발견

책 링크 👇🏻 작고 멋진 발견 사람들이 겉으로 드러내는 ‘기능적 니즈’를 넘어 속에 감춰둔 ‘심리적 욕망’까지 들춰낼 수 있는 방법으로 ‘관점 · 공감 · 관찰’의 3가지 전략을 제시한다. 여기에 생생한 국내외 사례를 www.aladin.co.kr 데이터분석을 하다보면 숫자만 보고는 알 수 없는 것들이 많다는 걸 깨닫곤 합니다. 실제로 우리 서비스를 이용하는 고객들은 어떤지, 사람을 알아야 데이터가 더 잘 이해되는 경우가 많았습니다. 이 책은 데이터를 보기 이전에 사람을 먼저 이해하는데 도움을 주는 책이라고 생각됩니다. 고객을 잘못 이해 할뻔한 사례 1) 레고 2000년대 초반, 당시 기업의 모든 연구 데이터들은 향후 미래 세대에게는 컴퓨터게임과 같이 즉각적인 만족감을 주는 놀이가 대세를 이룰 것이며, ..

책리뷰 2021.02.20

2장 - 빅데이터의 탐색 (1)

해당 블로그는 아래 책을 참고하여 작성되었습니다. 빅데이터를 지탱하는 기술 다양한 IT 기술의 집합체 빅데이터, 그 기술의 내부를 파헤친다. 데이터 처리 과정에 사용되는 소프트웨어와 데이터베이스, 프로그래밍 언어와 시각화 도구 등의 특징을 정리하여 데이터를 효율 www.aladin.co.kr 0. 이 장에서 다룰 내용 데이터를 시각화하는 환경을 정비하여 대량의 데이터를 효율적으로 탐색 할 수 있도록 준비 크로스 집계 열 지향 스토리지에 의한 고속화 1. 크로스 집계 1.1. 테이블 종류 데이터 시각화에 용이하도록 테이블 형태로 데이터를 가공하고 집계 트랜젝션 테이블에서 크로스 테이블로 변환하는 과정을 "크로스 집계"라고 함 1) 크로스 테이블 행 (상품명) - 열 (날짜) 별 데이터가 한 셀에 저장된 형..

Cross Validation (교차검증) 이란?

Cross Validation (교차검증) 모델을 train 시킬 때 데이터셋을 train, test 로 나누게된다. 이때, train: test = 8:2로 나누었다고 하면 하나의 고정된 train data로 학습시키고, 하나의 고정된 test data로 검증하다 보니 이 데이터셋에만 잘맞는 학습결과, 과적합(overfitting)이 일어날 수 있다. 이를 해결하고자 교차검증(cross valication)을 활용한다. 교차검증의 컨셉은, 전체 데이터를 fold로 나누어서 각각이 모두 중복없이 test set, train set 에 한번씩 들어가게 하는 것이다. 그리고 마지막으로 평균을 내어서 (다른 방법도 있다) 최종적 모델의 성능을 평가한다. 모델 하나를 평가하는데 fold5개일 때 기준으로 tra..

Git 시작하기 (5) - backup 원격 저장소 연결하기

원격저장소가 필요한 이유 우리의 컴퓨터는 언제든 망가질 수 있기 때문에, 작업한것을 안전하게 저장해둘 수 있는 원격 저장소가 필요합니다. 그리고 원격 저장소가 있으면 여러명이서 작업을 하거나, 여러대의 컴퓨터로 작업을 할 경우 다같이 동일하게 접근하여 앞에서 배운 git을 활용하여 버전 관리를 하고 협업을 할 수 있습니다 !! 아래 그림처럼 원격 저장소에 집, 회사 컴퓨터가 각각 접근하면서 파일을 업로드하고 (Push), 복제해오고 (Clone), 다운로드 받으면서 (Pull) 프로젝트를 진행할 수 있습니다. Github 란? 원격저장소를 직접 구축하기는 어렵기때문에, 원격저장소 임대 서비스를 제공하는 것을 이용합니다. github는 원격저장소를 임대해주는 서비스 입니다! Github 사용하기 1) 사이..

Git 시작하기 (3) - branch 만들기

브랜치는 왜 필요한가? 한가지 작업물을 여러 사람이 같이 수정하다보면, 다양한 버전의 결과물이 생기게 됩니다. 예시 상황) 팀원 2명이 함께 PPT 만드는 작업을 하다가 10페이지까지는 같이 만들었는데 그 이후로는 각자 집에가서 만들기로 했습니다. a가 11~ 13page, b가 14~17 page 를 만들기로 했습니다. 이때 a와 b는 10페이지까지 만들어진 버전1에서 각각 새로운 버전의 ppt를 만들어온 뒤, 합쳐주게 됩니다. 이렇게 여러 사람이 작업물을 나누어 진행할 때 각자 로컬 저장소에 마음대로 작업할 수 있도록 해주는 것이 branch 입니다. 브랜치란? 여러 작업물이 동시에 다른 작업물에 영향을 주지 않으면서 진행될 수 있도록하는 기능입니다. 아래 그림처럼 하나의 버전 (Master) 에서,..

[프로그래머스] Lv2. 기능개발 (스택/큐)

문제 참고 링크 코딩테스트 연습 - 기능개발 프로그래머스 팀에서는 기능 개선 작업을 수행 중입니다. 각 기능은 진도가 100%일 때 서비스에 반영할 수 있습니다. 또, 각 기능의 개발속도는 모두 다르기 때문에 뒤에 있는 기능이 앞에 있는 programmers.co.kr 아이디어 작업 완료인 100에서 현재까지 진행된 작업(progresses)를 빼면 , 남은 작업 수가 남고 speeds로 나누면 작업 완료까지 걸리는 일 수를 구할 수 있다. 남은 일 수 list를 for문으로 검사하면서, 이번 배포에 포함할 수 있는 작업 수를 카운트하고, pop으로 리스트에서 빼준다. 이 계산을 list가 비워질때까지 진행한다. Solution1. (내 풀이) import math def solution(progress..

[프로그래머스] Lv1. 나누어 떨어지는 숫자 배열

문제 참고 링크 코딩테스트 연습 - 나누어 떨어지는 숫자 배열 array의 각 element 중 divisor로 나누어 떨어지는 값을 오름차순으로 정렬한 배열을 반환하는 함수, solution을 작성해주세요. divisor로 나누어 떨어지는 element가 하나도 없다면 배열에 -1을 담아 반환하 programmers.co.kr Solution1. (내 풀이) 문제 설명 순서대로 풀이한 방식이다. 1) 리스트를 순회하면서, 조건에 맞는지 검사한다. 2) 조건에 맞으면 answer list에 추가한다. 3) 리스트를 다 순회한 후에, answer list가 비어있으면 -1을 추가해준다. 4) 정렬하여 return 한다. def solution(arr, divisor): answer = [] # 조건에 만족..

[Python] Crawling and Visualization with Plotly

2020 런닝맨 시청율 정보를 크롤링 해와서 시각화 해보기를 해보겠습니다. 런닝맨 시청율을 가져올 URL 참고 런닝맨/2019년 - 나무위키 회차방영일닐슨TNMS433회01.067.3%8.2%434회01.136.4%7.2%435회01.207.3%6.9%436회01.276.0%7.6%437회02.036.2%7.1%438회02.107.8%8.0%439회02.176.7%7.9%440회02.246.5%7.1%441회03.036.5%6.4%442회03.106.7%6.9%443회03.177.5%7.4%444회03.246.7%7.2%445 namu.wiki 필요한 라이브러리 Import import pandas as pd import requests from bs4 import BeautifulSoup as bs 결..

[Python] News Crawling

데잇걸즈 파이썬 톺아보기 과제로 진행했습니다. 과제. BeautifulSoup을 이용하여 아래의 세 기사의 제목과 언론사를 크롤링해주세요!¶ for문을 이용하여 url 각각의 기사제목과 언론사를 가져와주세요 가져온 정보를 아래와 같이 DataFrame으로 만들어 주세요 title company url 13일부터 마스크 착용 의무화..한 달 계도 후 과태료 10만 원 YTN https://news.v.daum.net/v/20201004215700006 "사망 10대와 같은 곳서 같은 백신 접종한 32명, 이상반응 없어" 연합뉴스 https://news.v.daum.net/v/20201020153505519 지하수에 사는 '골룸 가물치'야, 넌 어디서 왔니 한겨레 https://news.v.daum.net/..

회귀분석(1) - RSS가 최소가 되도록하는 OLS

회귀분석은 머신러닝을 배울 때 첫 날 배웠던 개념인데, 통계에서 배우면서 더 깊이 이해하게 되었다. 회귀분석은 지도학습 중 연속된 종속변수를 예측하는 분석이다. [머신러닝 참고] Orange3로 코딩없이 머신러닝 지도학습 실습해보기 이고잉님의 머신러닝 야학을 듣고 이해한 내용을 바탕으로 작성했습니다. 잘못된 부분은 댓글로 알려주세요. 머신러닝 야학 들으러가기 👉🏻 Orange3는 데이터분석을 쉽게 해볼 수 있도록 도와� hanawithdata.tistory.com 회귀분석이란 회귀분석의 목적은 주어진 독립변수(X) 로 종속변수(y)를 예측하는 것이다. 선형 회귀분석이란 직선형태의 추세선을 구하는 것이고 으로 표현할 수 있다. 위 이미지처럼 실제 값(빨간점)이 선형적으로 분포하지..

반응형