반응형

전체 글 136

[cs50] 1. 컴퓨팅사고 (feat.이진법)

https://www.boostcourse.org/cs112/lecture/118997 모두를 위한 컴퓨터 과학 (CS50 2019) 부스트코스 무료 강의 www.boostcourse.org 컴퓨터 기초 강의중 유명한 cs50을 듣기 시작! 유튜브에도 영상이 있고, edx에도 있는데 아무래도 영어보다 한글이 이해하기 쉽고 부스트코스에 잘 정리해두어서 부스트코스로 들어보려고 한다. 1. 이진법 우리는 평소에 10진법을 사용해서 위에 숫자를 백이십삼이라고 읽는다. 하지만 컴퓨터는 2진법을 사용한다. 왜 컴퓨터는 이진법으로 읽을까???? 컴퓨터안에 있는 많은 부품들은 전기를 통해 작동하는데, 전기는 2개중 하나이다. off or on / 1 or 0 / true or false / 전기 플러그인을 꽂거나 빼거..

(git) branch, merge 연습 (+tag)

정말 오랜만에 다시 깃을 사용해보게 되었다. 이전에 아주아주 기초적인걸 조금 공부해두었는데, 이번에는 깃으로 편하게 프로젝트를 관리할 수 있게 되는게 목표이다. git은 한마디로 코드의 버전관리를 도와주는 툴인데 개발자를 위한 툴이어서 그런지, 사용방법도 논리적인 구조로 짜여있어 개발을 처음 접하는 사람이 바로 이해하기에 어려운 부분이 있는것 같다. 그래서 유튜브에서 여러 영상을 찾아보다가 아주 쉬운 설명을 찾아서 이 영상으로 실습해본 내용을 남겨두려고 한다. https://www.youtube.com/watch?v=oQ4kT8KhRY8 [참고] 유뷰트-코드종 1. face라는 폴더를 만들고, 해당 폴더에 git repository를 생성해준다. (git init) 아직 폴더가 비어있는 상태이다. git..

빅데이터가 찾지 못한 소비자 욕망의 디테일 - 작고 멋진 발견

책 링크 👇🏻 작고 멋진 발견 사람들이 겉으로 드러내는 ‘기능적 니즈’를 넘어 속에 감춰둔 ‘심리적 욕망’까지 들춰낼 수 있는 방법으로 ‘관점 · 공감 · 관찰’의 3가지 전략을 제시한다. 여기에 생생한 국내외 사례를 www.aladin.co.kr 데이터분석을 하다보면 숫자만 보고는 알 수 없는 것들이 많다는 걸 깨닫곤 합니다. 실제로 우리 서비스를 이용하는 고객들은 어떤지, 사람을 알아야 데이터가 더 잘 이해되는 경우가 많았습니다. 이 책은 데이터를 보기 이전에 사람을 먼저 이해하는데 도움을 주는 책이라고 생각됩니다. 고객을 잘못 이해 할뻔한 사례 1) 레고 2000년대 초반, 당시 기업의 모든 연구 데이터들은 향후 미래 세대에게는 컴퓨터게임과 같이 즉각적인 만족감을 주는 놀이가 대세를 이룰 것이며, ..

책리뷰 2021.02.20

2장 - 빅데이터의 탐색 (1)

해당 블로그는 아래 책을 참고하여 작성되었습니다. 빅데이터를 지탱하는 기술 다양한 IT 기술의 집합체 빅데이터, 그 기술의 내부를 파헤친다. 데이터 처리 과정에 사용되는 소프트웨어와 데이터베이스, 프로그래밍 언어와 시각화 도구 등의 특징을 정리하여 데이터를 효율 www.aladin.co.kr 0. 이 장에서 다룰 내용 데이터를 시각화하는 환경을 정비하여 대량의 데이터를 효율적으로 탐색 할 수 있도록 준비 크로스 집계 열 지향 스토리지에 의한 고속화 1. 크로스 집계 1.1. 테이블 종류 데이터 시각화에 용이하도록 테이블 형태로 데이터를 가공하고 집계 트랜젝션 테이블에서 크로스 테이블로 변환하는 과정을 "크로스 집계"라고 함 1) 크로스 테이블 행 (상품명) - 열 (날짜) 별 데이터가 한 셀에 저장된 형..

1장 - 빅데이터 기초 (빅데이터를 지탱하는 기술 정리를 시작하며)

배경 데이터를 추출하고, 가공해서 분석을 통해 비즈니스 인사이트를 만들어낼 때 당연하게도 데이터가 필요하다. 고객의 주문 정보, 어플리케이션 사용 기록 등 매 순간 발생하는 데이터들을 어떻게 효율적으로 쌓고 처리하는가가 분석 단계에 선행되어야 한다. 이 영역을 데이터 엔지니어링 영역이라고 부를 수 있다. 데이터가 쌓이고 흐르는 전체적인 구조를 조금 더 깊이 있게 이해하고 활용하고자 '빅데이터를 지탱하는 기술' 이라는 책을 읽고 정리해보려고 한다. [책 참고 링크] 빅데이터를 지탱하는 기술 다양한 IT 기술의 집합체 빅데이터, 그 기술의 내부를 파헤친다. 데이터 처리 과정에 사용되는 소프트웨어와 데이터베이스, 프로그래밍 언어와 시각화 도구 등의 특징을 정리하여 데이터를 효율 www.aladin.co.kr ..

[프로젝트] 호텔 리뷰 텍스트 분석 & 분류 모델 제작

개요 - 데잇걸즈 4기 데모데이 프로젝트로 진행한 내용 정리 - 코드 및 발표자료 링크 - 주요 역할: 데이터 수집 및 전처리, 데이터 라벨링, 로지스틱 회귀 모델링 - 주제 : 호텔 리뷰 중 예약에 도움이 되는 리뷰 순으로 정렬하는 소팅 모델 제안 문제 인식 & 주제 선정 - 코로나 이후 재택근무 시행, 사회적 거리두기 등으로 집에만 머무르는 시간이 많아지면서 서울 호텔, 호캉스 키워드는 작년 동기간 대비 오히려 증가했음 - 호텔을 실제로 예약해보고자 사이트에 들어가서 리뷰를 보았는데, 가장 상단에 있는 리뷰의 대부분이 "굿","좋았어요", "잘 쉬다갑니다" 등의 예약에는 도움되지 않는 리뷰가 많았음 -> 이는 고객이 불필요한 스크롤을 하게 만드는 요소이며, 이를 개선한다면 호텔 예약을 하는 고객이 많..

[해커랭크] Top Competitors

문제링크: www.hackerrank.com/challenges/full-score/problem?isFullScreen=true Top Competitors | HackerRank Query a list of top-scoring hackers. www.hackerrank.com Table 설명 * Hackers: 전체 hackers 정보 * Difficulty: 문제의 난이도 별 Full score 정보 * Challenges: 문제와, 문제를 제작한 Hacker 정보, 문제의 난이도 정보 * Submissions: 문제를 제출한 사람의 정보와, 제출 시 score 정보 문제 설명 코딩테스트 제출자 중 full score 맞은 문제가 한개보다 많은 (2개 이상) 인 참가자의 hacker_id와, na..

[텍스트분석] 단어빈도의 가중치 TF-IDF

[이전글] 2020/11/27 - [텍스트분석] TDM (Term Document Matrix) 단어 문서 행렬 [텍스트분석] TDM (Term Document Matrix) 단어 문서 행렬 텍스트 분석으로 어떤걸 할 수 있을까? 예시) 1) 기사 분류 - 하루에도 수백개씩 나오는 기사들, 지도 학습을 통해 사회, 연예, 정치등 카테고리를 분류해줄 수 있다. 2) 감성 분석 - 영화 리뷰, 정 hanawithdata.tistory.com 이전글에서 CountVector로 단어가 등장하는 빈도수로 Matrix를 만들어주는 TDM을 만들어보았다. 같은 단어의 빈도수가 동일하게 나타나는 문서는 서로 비슷하다고 판단할 수 있다. 그런데, 무의미하게 특정 문서에서 반복되는 단어의 경우 분석에 도움이 되지 않기도 ..

[텍스트분석] TDM (Term Document Matrix) 단어 문서 행렬

텍스트 분석으로 어떤걸 할 수 있을까? 예시) 1) 기사 분류 - 하루에도 수백개씩 나오는 기사들, 지도 학습을 통해 사회, 연예, 정치등 카테고리를 분류해줄 수 있다. 2) 감성 분석 - 영화 리뷰, 정책에 대한 댓글 등에서 감성을 분석해서 호감도를 알아 볼 수 있다. 3) 에세이 채점 - 텍스트는 객관식보다 평가할 수 있는 항목이 많고 구체적이지만 채점이 어렵다. - 텍스트 분석으로 일관성있고 타당한 채점을 할 수 있다. 4) 자기소개서 분석 - 채용에 활용 - 일을 잘하는 사람의 자기소개서와 못하는 사람의 자기소개서를 분석해서 채용시 자기소개서를 분류할 수 있다. 이렇게 수치 데이터가 아닌 텍스트 데이터도 분석 활용 범위가 다양하다. 어떻게 분석할까? TDM (Term Document Matrix)..

반응형