사전캠프 1일차
사전 캠프에 한발짝 늦게 합류 후 OT를 듣고 담임 매니저님과의 짧은 설명회 후에 조를 배정받았다.
팀 별로 노션을 만들어서 스터디 진행하는 방식이다.
첫 날은 간단한 자기소개 후 아티클 스터디와 개인 공부를 진행했다.
아티클 스터디
본캠프 진행 전, 데이터 분석에 대한 IT 기사를 읽고 내용 요약, 개인 생각 등을 정리하여 팀원들과 공유하는 스터디이다.
1일차 아티클은 '데이터 분석이란 무엇일까?' 이다.
https://yozm.wishket.com/magazine/detail/1567/
- 내가 정리한 내용
[주제]
- 데이터와 데이터 분석
[아티클 요약]
- 데이터는 특정 정보의 집합. 데이터 분석은 원시 데이터에서 유용한 인사이트를 도출하는 작업. 단순히 분석만 하는 것이 아니라 고객 타겟팅과 같은 비즈니스 결정에 도움을 줄 수 있어야 함.
- 데이터 분석 프로세스:
- 질문 인식 및 식별
- 데이터 수집
- 데이터 정제
- 데이터 분석
- 결과 공유(시각화)
- SQL을 활용해 관계형 데이터베이스 조회. 가장 기본이 되는 프로그래밍 언어는 파이썬. 엑셀은 필수 도구.
[인사이트]
앞으로 데이터 분석 프로젝트를 할 때, 프로세스에 따라 논리 흐름을 정하고 질문을 던지는 것이 중요하다고 생각했다. 또, 정량적 데이터 뿐만 아니라 사진, 음성, 동영상 같이 정성적 데이터도 잘 다뤄보고 싶다.
SQL 달리기반 1번 문제 풀이
- 상황: 여러분들은 스파르타코딩클럽의 분석가로 취직했습니다. DBeaver를 테스트 해볼 겸 “김”씨로 시작하는 이용자들 수를 세어 보기로 했습니다.
- 데이터 설명
- user 테이블은 스파르타 코딩클럽에 가입한 유저들의 정보를 날짜별로 기록한 테이블입니다.
- user_id: 익명화된 유저들의 아이디(varchar255)
- created_at: 아이디 생성 날짜(timestamp)
- updated_at: 정보 업데이트 날짜(timestamp)
- name: 익명화된 유저들의 이름(varchar255)
- email: 이메일(varchar255)
- 문제: 다음과 같은 결과테이블을 만들어봅시다.
-
name_cnt: “김”씨 성을 가지고 있는 교육생의 수
-
문제 접근
문자열 조건 찾기 >> 시작이 '김'이어야 함 뒷 글자는 상관 없음
where ~ like ~ 절 사용
이용자의 수를 세는거니까 count 사용, id가 중복되면 같은 사람이 여러번 세어지니까 distinct 사용
최종 코드
SELECT COUNT(DISTINCT(user_id)) AS name_cnt
FROM user
WHERE name LIKE '김%'
'내배캠 데이터분석가 과정 > 사전캠프 TIL' 카테고리의 다른 글
[사전캠프 5일차] 아티클 스터디 + SQL 달리기반 2번 문제 (0) | 2025.01.24 |
---|