본문 바로가기

전체 글

(73)
빅데이터가 찾지 못한 소비자 욕망의 디테일 - 작고 멋진 발견 책 링크 👇🏻 작고 멋진 발견 사람들이 겉으로 드러내는 ‘기능적 니즈’를 넘어 속에 감춰둔 ‘심리적 욕망’까지 들춰낼 수 있는 방법으로 ‘관점 · 공감 · 관찰’의 3가지 전략을 제시한다. 여기에 생생한 국내외 사례를 www.aladin.co.kr 데이터분석을 하다보면 숫자만 보고는 알 수 없는 것들이 많다는 걸 깨닫곤 합니다. 실제로 우리 서비스를 이용하는 고객들은 어떤지, 사람을 알아야 데이터가 더 잘 이해되는 경우가 많았습니다. 이 책은 데이터를 보기 이전에 사람을 먼저 이해하는데 도움을 주는 책이라고 생각됩니다. 고객을 잘못 이해 할뻔한 사례 1) 레고 2000년대 초반, 당시 기업의 모든 연구 데이터들은 향후 미래 세대에게는 컴퓨터게임과 같이 즉각적인 만족감을 주는 놀이가 대세를 이룰 것이며, ..
2장 - 빅데이터의 탐색 (1) 해당 블로그는 아래 책을 참고하여 작성되었습니다. 빅데이터를 지탱하는 기술 다양한 IT 기술의 집합체 빅데이터, 그 기술의 내부를 파헤친다. 데이터 처리 과정에 사용되는 소프트웨어와 데이터베이스, 프로그래밍 언어와 시각화 도구 등의 특징을 정리하여 데이터를 효율 www.aladin.co.kr 0. 이 장에서 다룰 내용 데이터를 시각화하는 환경을 정비하여 대량의 데이터를 효율적으로 탐색 할 수 있도록 준비 크로스 집계 열 지향 스토리지에 의한 고속화 1. 크로스 집계 1.1. 테이블 종류 데이터 시각화에 용이하도록 테이블 형태로 데이터를 가공하고 집계 트랜젝션 테이블에서 크로스 테이블로 변환하는 과정을 "크로스 집계"라고 함 1) 크로스 테이블 행 (상품명) - 열 (날짜) 별 데이터가 한 셀에 저장된 형..
1장 - 빅데이터 기초 (빅데이터를 지탱하는 기술 정리를 시작하며) 배경 데이터를 추출하고, 가공해서 분석을 통해 비즈니스 인사이트를 만들어낼 때 당연하게도 데이터가 필요하다. 고객의 주문 정보, 어플리케이션 사용 기록 등 매 순간 발생하는 데이터들을 어떻게 효율적으로 쌓고 처리하는가가 분석 단계에 선행되어야 한다. 이 영역을 데이터 엔지니어링 영역이라고 부를 수 있다. 데이터가 쌓이고 흐르는 전체적인 구조를 조금 더 깊이 있게 이해하고 활용하고자 '빅데이터를 지탱하는 기술' 이라는 책을 읽고 정리해보려고 한다. [책 참고 링크] 빅데이터를 지탱하는 기술 다양한 IT 기술의 집합체 빅데이터, 그 기술의 내부를 파헤친다. 데이터 처리 과정에 사용되는 소프트웨어와 데이터베이스, 프로그래밍 언어와 시각화 도구 등의 특징을 정리하여 데이터를 효율 www.aladin.co.kr ..
[프로젝트] 호텔 리뷰 텍스트 분석 & 분류 모델 제작 개요 - 데잇걸즈 4기 데모데이 프로젝트로 진행한 내용 정리 - 코드 및 발표자료 링크 - 주요 역할: 데이터 수집 및 전처리, 데이터 라벨링, 로지스틱 회귀 모델링 - 주제 : 호텔 리뷰 중 예약에 도움이 되는 리뷰 순으로 정렬하는 소팅 모델 제안 문제 인식 & 주제 선정 - 코로나 이후 재택근무 시행, 사회적 거리두기 등으로 집에만 머무르는 시간이 많아지면서 서울 호텔, 호캉스 키워드는 작년 동기간 대비 오히려 증가했음 - 호텔을 실제로 예약해보고자 사이트에 들어가서 리뷰를 보았는데, 가장 상단에 있는 리뷰의 대부분이 "굿","좋았어요", "잘 쉬다갑니다" 등의 예약에는 도움되지 않는 리뷰가 많았음 -> 이는 고객이 불필요한 스크롤을 하게 만드는 요소이며, 이를 개선한다면 호텔 예약을 하는 고객이 많..
[해커랭크] Top Competitors 문제링크: www.hackerrank.com/challenges/full-score/problem?isFullScreen=true Top Competitors | HackerRank Query a list of top-scoring hackers. www.hackerrank.com Table 설명 * Hackers: 전체 hackers 정보 * Difficulty: 문제의 난이도 별 Full score 정보 * Challenges: 문제와, 문제를 제작한 Hacker 정보, 문제의 난이도 정보 * Submissions: 문제를 제출한 사람의 정보와, 제출 시 score 정보 문제 설명 코딩테스트 제출자 중 full score 맞은 문제가 한개보다 많은 (2개 이상) 인 참가자의 hacker_id와, na..
[텍스트분석] 단어빈도의 가중치 TF-IDF [이전글] 2020/11/27 - [텍스트분석] TDM (Term Document Matrix) 단어 문서 행렬 [텍스트분석] TDM (Term Document Matrix) 단어 문서 행렬 텍스트 분석으로 어떤걸 할 수 있을까? 예시) 1) 기사 분류 - 하루에도 수백개씩 나오는 기사들, 지도 학습을 통해 사회, 연예, 정치등 카테고리를 분류해줄 수 있다. 2) 감성 분석 - 영화 리뷰, 정 hanawithdata.tistory.com 이전글에서 CountVector로 단어가 등장하는 빈도수로 Matrix를 만들어주는 TDM을 만들어보았다. 같은 단어의 빈도수가 동일하게 나타나는 문서는 서로 비슷하다고 판단할 수 있다. 그런데, 무의미하게 특정 문서에서 반복되는 단어의 경우 분석에 도움이 되지 않기도 ..
[텍스트분석] TDM (Term Document Matrix) 단어 문서 행렬 텍스트 분석으로 어떤걸 할 수 있을까? 예시) 1) 기사 분류 - 하루에도 수백개씩 나오는 기사들, 지도 학습을 통해 사회, 연예, 정치등 카테고리를 분류해줄 수 있다. 2) 감성 분석 - 영화 리뷰, 정책에 대한 댓글 등에서 감성을 분석해서 호감도를 알아 볼 수 있다. 3) 에세이 채점 - 텍스트는 객관식보다 평가할 수 있는 항목이 많고 구체적이지만 채점이 어렵다. - 텍스트 분석으로 일관성있고 타당한 채점을 할 수 있다. 4) 자기소개서 분석 - 채용에 활용 - 일을 잘하는 사람의 자기소개서와 못하는 사람의 자기소개서를 분석해서 채용시 자기소개서를 분류할 수 있다. 이렇게 수치 데이터가 아닌 텍스트 데이터도 분석 활용 범위가 다양하다. 어떻게 분석할까? TDM (Term Document Matrix)..
[leetcode] Department Highest Salary (윈도우함수) 문제 출처: leetcode.com/problems/department-highest-salary/ Department Highest Salary - LeetCode Level up your coding skills and quickly land a job. This is the best place to expand your knowledge and get prepared for your next interview. leetcode.com 문제. 각 부서에서 salary 가장 높은 사람 뽑기 출력 형태 Solution1. FROM 절에서 Subquery + MAX() 윈도우함수 1) subquery에서 max() 윈도우함수를 써서 부서 별 가장 높은 salary를 구해준다 (M_Salary) subque..