반응형

Today I Learned 124

[cs50] 1. 컴퓨팅사고 (feat.이진법)

https://www.boostcourse.org/cs112/lecture/118997 모두를 위한 컴퓨터 과학 (CS50 2019) 부스트코스 무료 강의 www.boostcourse.org 컴퓨터 기초 강의중 유명한 cs50을 듣기 시작! 유튜브에도 영상이 있고, edx에도 있는데 아무래도 영어보다 한글이 이해하기 쉽고 부스트코스에 잘 정리해두어서 부스트코스로 들어보려고 한다. 1. 이진법 우리는 평소에 10진법을 사용해서 위에 숫자를 백이십삼이라고 읽는다. 하지만 컴퓨터는 2진법을 사용한다. 왜 컴퓨터는 이진법으로 읽을까???? 컴퓨터안에 있는 많은 부품들은 전기를 통해 작동하는데, 전기는 2개중 하나이다. off or on / 1 or 0 / true or false / 전기 플러그인을 꽂거나 빼거..

(git) branch, merge 연습 (+tag)

정말 오랜만에 다시 깃을 사용해보게 되었다. 이전에 아주아주 기초적인걸 조금 공부해두었는데, 이번에는 깃으로 편하게 프로젝트를 관리할 수 있게 되는게 목표이다. git은 한마디로 코드의 버전관리를 도와주는 툴인데 개발자를 위한 툴이어서 그런지, 사용방법도 논리적인 구조로 짜여있어 개발을 처음 접하는 사람이 바로 이해하기에 어려운 부분이 있는것 같다. 그래서 유튜브에서 여러 영상을 찾아보다가 아주 쉬운 설명을 찾아서 이 영상으로 실습해본 내용을 남겨두려고 한다. https://www.youtube.com/watch?v=oQ4kT8KhRY8 [참고] 유뷰트-코드종 1. face라는 폴더를 만들고, 해당 폴더에 git repository를 생성해준다. (git init) 아직 폴더가 비어있는 상태이다. git..

2장 - 빅데이터의 탐색 (1)

해당 블로그는 아래 책을 참고하여 작성되었습니다. 빅데이터를 지탱하는 기술 다양한 IT 기술의 집합체 빅데이터, 그 기술의 내부를 파헤친다. 데이터 처리 과정에 사용되는 소프트웨어와 데이터베이스, 프로그래밍 언어와 시각화 도구 등의 특징을 정리하여 데이터를 효율 www.aladin.co.kr 0. 이 장에서 다룰 내용 데이터를 시각화하는 환경을 정비하여 대량의 데이터를 효율적으로 탐색 할 수 있도록 준비 크로스 집계 열 지향 스토리지에 의한 고속화 1. 크로스 집계 1.1. 테이블 종류 데이터 시각화에 용이하도록 테이블 형태로 데이터를 가공하고 집계 트랜젝션 테이블에서 크로스 테이블로 변환하는 과정을 "크로스 집계"라고 함 1) 크로스 테이블 행 (상품명) - 열 (날짜) 별 데이터가 한 셀에 저장된 형..

1장 - 빅데이터 기초 (빅데이터를 지탱하는 기술 정리를 시작하며)

배경 데이터를 추출하고, 가공해서 분석을 통해 비즈니스 인사이트를 만들어낼 때 당연하게도 데이터가 필요하다. 고객의 주문 정보, 어플리케이션 사용 기록 등 매 순간 발생하는 데이터들을 어떻게 효율적으로 쌓고 처리하는가가 분석 단계에 선행되어야 한다. 이 영역을 데이터 엔지니어링 영역이라고 부를 수 있다. 데이터가 쌓이고 흐르는 전체적인 구조를 조금 더 깊이 있게 이해하고 활용하고자 '빅데이터를 지탱하는 기술' 이라는 책을 읽고 정리해보려고 한다. [책 참고 링크] 빅데이터를 지탱하는 기술 다양한 IT 기술의 집합체 빅데이터, 그 기술의 내부를 파헤친다. 데이터 처리 과정에 사용되는 소프트웨어와 데이터베이스, 프로그래밍 언어와 시각화 도구 등의 특징을 정리하여 데이터를 효율 www.aladin.co.kr ..

[해커랭크] Top Competitors

문제링크: www.hackerrank.com/challenges/full-score/problem?isFullScreen=true Top Competitors | HackerRank Query a list of top-scoring hackers. www.hackerrank.com Table 설명 * Hackers: 전체 hackers 정보 * Difficulty: 문제의 난이도 별 Full score 정보 * Challenges: 문제와, 문제를 제작한 Hacker 정보, 문제의 난이도 정보 * Submissions: 문제를 제출한 사람의 정보와, 제출 시 score 정보 문제 설명 코딩테스트 제출자 중 full score 맞은 문제가 한개보다 많은 (2개 이상) 인 참가자의 hacker_id와, na..

[텍스트분석] 단어빈도의 가중치 TF-IDF

[이전글] 2020/11/27 - [텍스트분석] TDM (Term Document Matrix) 단어 문서 행렬 [텍스트분석] TDM (Term Document Matrix) 단어 문서 행렬 텍스트 분석으로 어떤걸 할 수 있을까? 예시) 1) 기사 분류 - 하루에도 수백개씩 나오는 기사들, 지도 학습을 통해 사회, 연예, 정치등 카테고리를 분류해줄 수 있다. 2) 감성 분석 - 영화 리뷰, 정 hanawithdata.tistory.com 이전글에서 CountVector로 단어가 등장하는 빈도수로 Matrix를 만들어주는 TDM을 만들어보았다. 같은 단어의 빈도수가 동일하게 나타나는 문서는 서로 비슷하다고 판단할 수 있다. 그런데, 무의미하게 특정 문서에서 반복되는 단어의 경우 분석에 도움이 되지 않기도 ..

[텍스트분석] TDM (Term Document Matrix) 단어 문서 행렬

텍스트 분석으로 어떤걸 할 수 있을까? 예시) 1) 기사 분류 - 하루에도 수백개씩 나오는 기사들, 지도 학습을 통해 사회, 연예, 정치등 카테고리를 분류해줄 수 있다. 2) 감성 분석 - 영화 리뷰, 정책에 대한 댓글 등에서 감성을 분석해서 호감도를 알아 볼 수 있다. 3) 에세이 채점 - 텍스트는 객관식보다 평가할 수 있는 항목이 많고 구체적이지만 채점이 어렵다. - 텍스트 분석으로 일관성있고 타당한 채점을 할 수 있다. 4) 자기소개서 분석 - 채용에 활용 - 일을 잘하는 사람의 자기소개서와 못하는 사람의 자기소개서를 분석해서 채용시 자기소개서를 분류할 수 있다. 이렇게 수치 데이터가 아닌 텍스트 데이터도 분석 활용 범위가 다양하다. 어떻게 분석할까? TDM (Term Document Matrix)..

[leetcode] Department Highest Salary (윈도우함수)

문제 출처: leetcode.com/problems/department-highest-salary/ Department Highest Salary - LeetCode Level up your coding skills and quickly land a job. This is the best place to expand your knowledge and get prepared for your next interview. leetcode.com 문제. 각 부서에서 salary 가장 높은 사람 뽑기 출력 형태 Solution1. FROM 절에서 Subquery + MAX() 윈도우함수 1) subquery에서 max() 윈도우함수를 써서 부서 별 가장 높은 salary를 구해준다 (M_Salary) subque..

[자연어처리] konlpy 설치하고 불러오기

konlpy란? konlpy는 한글 자연어 처리를 도와주는 java기반의 형태소 분석기들을 python에서 쓸 수 있게 도와주는 라이브러리들이다. github link 참고 twitter/twitter-korean-text Korean tokenizer. Contribute to twitter/twitter-korean-text development by creating an account on GitHub. github.com 세팅하기 1. java 설치 konlpy는 자바기반으로 만들어졌기때문에 java를 설치해줍니다. (각자 os에 맞는 것으로 설치 필요) java 설치하기 Java | Oracle www.java.com 2. jdk 설치 www.oracle.com/java/technologies/..

[프로그래머스] lv2. 프린터

문제링크: programmers.co.kr/learn/courses/30/lessons/42587 코딩테스트 연습 - 프린터 일반적인 프린터는 인쇄 요청이 들어온 순서대로 인쇄합니다. 그렇기 때문에 중요한 문서가 나중에 인쇄될 수 있습니다. 이런 문제를 보완하기 위해 중요도가 높은 문서를 먼저 인쇄하는 프린 programmers.co.kr 아이디어 처음 주어진 우선순위 리스트를 index 정보와 함께 저장한다. (처음의 location 정보로 답변해야하므로) : (index,value) value 기준으로 max 값을 찾아서 슬라이싱을 활용해 리스트 정렬을 다시해준다. 해당 max값은 기존 리스트에서 pop해주고, 새로운 리스트에 쌓아준다. 기존 리스트가 0이 될때까지 반복한다. Solution1. (틀..

반응형