김다현, 천준석, 소범기, 권소현, 신가현, 홍일도, 이유진, 정현정
Github 주소 : https://github.com/JunSeokCheon/kaggle-study
캐글 대회 참가 스터디 내용을 정리한 레포입니다.
맨 아래 일정표에서 스터디에서 리뷰한 내용이 무엇인지, 현재 진행중인 프로젝트에 대해서 간단하게 알 수 있습니다.
더불어, 팀스터디로 진행한 내용과 개인적으로 학습한 내용들을 DEV 브랜치에서 확인할 수 있습니다.
● 대회
- kaggle : House Prices - Advanced Regression Techniques
첫 프로젝트로 회귀 문제인 집값 예측 대회를 참여하기로 결정했습니다.
- 첫 프로젝트인 만큼 데이터 분석에 집중합니다.
- 언어는 python, 개발 환경은 머신러닝/딥러닝 적용을 위해 google colab 또는 kaggle notebook으로 진행합니다.
- 프로젝트에 대해 깊이 학습하고, 예정보다 빨리 끝날 시 다른 프로젝트도 진행할 예정입니다.
● 스터디 방식
해당 스터디는 크게 데이터 탐색 / 데이터 분석 / 모델 학습 / 모델 검증 단계로 구성되어 있고, 1~2주 시간을 할애하여 각 파트별 학습을 진행할 예정입니다.
- 스터디 만남 전까지 학습(데이터 탐색 / 데이터 분석 / 모델 학습 / 모델 검증 중 하나) 완료합니다.
- 정해진 날짜에 엘리스 플랫폼에서 모든 인원이 화면 공유와 함께 학습한 내용을 발표합니다.
- 단순히 코드만 돌려보지 않고 이론도 같이 설명함으로써 학습 효율도 향상시킵니다.
- 프로젝트 형식이라 주 1회 모임을 갖지만 각자 자신의 성과를 보여주고 질문을 해소하기 위하여 소규모 스터디도 즉흥적으로 모집될 수 있습니다.
● 스터디 계획
- kaggle : House Prices - Advanced Regression Techniques 대회 참여
- numpy, pandas, scipy, matplotlib에 대한 선행 학습 또는 복습 진행
- 엘리스에 제공해주는 데이터 분석 강의 병행
- 통계에 대한 원론적인 지식 탐구
- 학습한 라이브러리를 실제 대회에 적용하여 결과에 영향을 미치는 features 추출
- 해당 features들로 여러 가지 모델을 학습해보고 검증하여 대회 제출
- "어떤것들을 사용만 해봤다" 보다는 "해당 원리를 이해하여 활용했다" 방향으로 진행
- 첫 프로젝트가 일찍 끝날 시 다른 프로젝트 탐구
● 스터디 모임 시간 & 기한
매주 토요일 오전 10시
★ 즉흥적으로 소규모 스터디도 진행할 수도 있습니다. ★
● 목표
저희의 목표는 kaggle : House Prices - Advanced Regression Techniques 좋은 성적과 코드 밑단까지 이해하기를 목표로 진행합니다.
단순히 남의 코드를 클론 코딩하는 것을 넘어서 응용할 수 있는 수준을 원하고, 시간이 남는다면 다른 정형 데이터 대회나 딥러닝 분야에서의 데이터들을 다루는 대회에 참여하겠습니다!!!!
주차 | 목표 | 학습 내용 |
---|---|---|
1 (2022/04/01(금)) | 🚩kaggle 대회를 위한 사전 준비 및 데이터 분석 사전 학습, 앞으로의 계획 및 일정 수립 | - 정기 모임 지정, 대회 주제 확정, 개발 환경과 언어 확정, 사전 학습 내용 공유, 앞으로의 계획 수립 |
1 (2022/04/09(토)) | 🚩House Prices : Exploratory Data Analysis(EDA) 학습 및 데이터 분석 학습 병행 | - 화면 공유를 통한 각 EDA 발표/Q&A 진행, 자신만의 insight 발표 |
2 (2022/04/16(토)) | 🚩 | |
3 (2022/04/23(토)) | 🚩 | |
4 (2022/04/30(토)) | 🚩 | |
5 (2022/05/07(토)) | 🚩 | |
6 (2022/05/14(토)) | 🚩 | |
7 (2022/05/21(토)) | 🚩 | |
8 (2022/05/28(토)) | 🚩 |
● 2022/04/01(금): 스터디 소요 시간 30분(디스 코드 30분)
- 언어, 개발환경 : python, google colab&kaggle notebook
- 대회 주제 : kaggle : House Prices - Advanced Regression Techniques
- 사전 학습 내용
- 엘리스 플랫폼 데이터 분석 강의
- 캐글 대회 강의(T아카데미) :https://tacademy.skplanet.com/live/player/onlineLectureDetail.action?seq=189
- 데이터 분석/머신러닝/딥러닝 info : https://github.com/teddylee777/machine-learning
- 전체적인 계획 : 해당 대회에 대해 크게 데이터 탐색 / 데이터 분석 / 모델 학습 / 모델 검증 단계로 구성되어 있고, 1~2주 시간을 할애하여 각 파트별 학습을 진행할 예정
- 숙제 : House Prices : Exploratory Data Analysis(EDA) 학습 및 데이터 분석 학습 병행
● 2022/04/09(토) : 스터디 소요 시간 2시간(엘리스 플랫폼 2시간)
- 학습 내용
- House Prices : Exploratory Data Analysis(EDA) 발표 및 추가 학습
- data load, data comprehend
- features meaning 파악하기
- 타켓 변수 : SalePrice 분포 확인(왜도(shewness), 첨도(kurtosis) 확인)
- 이상치 탐색
- 결측치 확인
- numerical_features와 categorical_feature 살펴보기
- github : 스터디원 모두가 해당 저장소 github에 commit 가능하고 큰 뿌리마다 merge 할 예정
- 숙제
- corr 공부하기 : 데이터 특성에 맞게 어떤 corr을 사용할지 고민하기
- 결측값 처리 방법 공부하기 : 의미있는 NaN은 어떻게 처리해야하는가?
- 범주형 변수 상관성 찾는법 : 범주형 변수는 시각화에 제한이 많음 : 카이제곱 검정 , 비슷한 특징들 지닌것은 하나로 묶어주는 기법 등... 고민해보기
- 이번주까지 했던 내용 왜? 그렇게 했는지 고민해보고 feature engineering까지 끝내기
- 다중공선성가진 변수 한쌍이 둘다 의미있는 변수일때 어떻게 처리해야하는가? 고민하기
- 특이사항
- github 각 팀원의 폴더에 학습 과정을 commit하고 큰 뿌리(데이터 탐색 / 데이터 분석 / 모델 학습 / 모델 검증 단계)마다 합치는 것으로 결정
- 단순 클론 코딩이 아닌 해당 원리를 이해하고 작성&응용하는 방향으로 추진
- 진도가 막힌 상태거나 모르는 것이 있으면 언제든지 즉흥 스터디