Skip to content

Developer-Yujin/kaggle-study

Repository files navigation

👑 캐글 대회 참가 스터디 👑

김다현, 천준석, 소범기, 권소현, 신가현, 홍일도, 이유진, 정현정


Intro

Github 주소 : https://github.com/JunSeokCheon/kaggle-study

❗Master branch가 아닌 dev branch에서 팀원들의 코드와 진행 사항을 알 수 있습니다!!!!

캐글 대회 참가 스터디 내용을 정리한 레포입니다.
맨 아래 일정표에서 스터디에서 리뷰한 내용이 무엇인지, 현재 진행중인 프로젝트에 대해서 간단하게 알 수 있습니다.
더불어, 팀스터디로 진행한 내용과 개인적으로 학습한 내용들을 DEV 브랜치에서 확인할 수 있습니다.


● 대회

  1. kaggle : House Prices - Advanced Regression Techniques

첫 프로젝트로 회귀 문제인 집값 예측 대회를 참여하기로 결정했습니다.

  • 첫 프로젝트인 만큼 데이터 분석에 집중합니다.
  • 언어는 python, 개발 환경은 머신러닝/딥러닝 적용을 위해 google colab 또는 kaggle notebook으로 진행합니다.
  • 프로젝트에 대해 깊이 학습하고, 예정보다 빨리 끝날 시 다른 프로젝트도 진행할 예정입니다.

● 스터디 방식

해당 스터디는 크게 데이터 탐색 / 데이터 분석 / 모델 학습 / 모델 검증 단계로 구성되어 있고, 1~2주 시간을 할애하여 각 파트별 학습을 진행할 예정입니다.

  1. 스터디 만남 전까지 학습(데이터 탐색 / 데이터 분석 / 모델 학습 / 모델 검증 중 하나) 완료합니다.
  2. 정해진 날짜에 엘리스 플랫폼에서 모든 인원이 화면 공유와 함께 학습한 내용을 발표합니다.
  3. 단순히 코드만 돌려보지 않고 이론도 같이 설명함으로써 학습 효율도 향상시킵니다.
  4. 프로젝트 형식이라 주 1회 모임을 갖지만 각자 자신의 성과를 보여주고 질문을 해소하기 위하여 소규모 스터디도 즉흥적으로 모집될 수 있습니다.

● 스터디 계획

★ 2022/04/01(금) ~ 2022/05/28(토))

  1. kaggle : House Prices - Advanced Regression Techniques 대회 참여
  2. numpy, pandas, scipy, matplotlib에 대한 선행 학습 또는 복습 진행
  3. 엘리스에 제공해주는 데이터 분석 강의 병행
  4. 통계에 대한 원론적인 지식 탐구
  5. 학습한 라이브러리를 실제 대회에 적용하여 결과에 영향을 미치는 features 추출
  6. 해당 features들로 여러 가지 모델을 학습해보고 검증하여 대회 제출
  7. "어떤것들을 사용만 해봤다" 보다는 "해당 원리를 이해하여 활용했다" 방향으로 진행
  8. 첫 프로젝트가 일찍 끝날 시 다른 프로젝트 탐구

● 스터디 모임 시간 & 기한

매주 토요일 오전 10시
★ 즉흥적으로 소규모 스터디도 진행할 수도 있습니다. ★


● 목표

저희의 목표는 kaggle : House Prices - Advanced Regression Techniques 좋은 성적과 코드 밑단까지 이해하기를 목표로 진행합니다.
단순히 남의 코드를 클론 코딩하는 것을 넘어서 응용할 수 있는 수준을 원하고, 시간이 남는다면 다른 정형 데이터 대회나 딥러닝 분야에서의 데이터들을 다루는 대회에 참여하겠습니다!!!!


주차 목표 학습 내용
1 (2022/04/01(금)) 🚩kaggle 대회를 위한 사전 준비 및 데이터 분석 사전 학습, 앞으로의 계획 및 일정 수립 - 정기 모임 지정, 대회 주제 확정, 개발 환경과 언어 확정, 사전 학습 내용 공유, 앞으로의 계획 수립
1 (2022/04/09(토)) 🚩House Prices : Exploratory Data Analysis(EDA) 학습 및 데이터 분석 학습 병행 - 화면 공유를 통한 각 EDA 발표/Q&A 진행, 자신만의 insight 발표
2 (2022/04/16(토)) 🚩
3 (2022/04/23(토)) 🚩
4 (2022/04/30(토)) 🚩
5 (2022/05/07(토)) 🚩
6 (2022/05/14(토)) 🚩
7 (2022/05/21(토)) 🚩
8 (2022/05/28(토)) 🚩


1주차

● 2022/04/01(금): 스터디 소요 시간 30분(디스 코드 30분)

- 언어, 개발환경 : python, google colab&kaggle notebook
- 대회 주제 : kaggle : House Prices - Advanced Regression Techniques
- 사전 학습 내용

  1. 엘리스 플랫폼 데이터 분석 강의
  2. 캐글 대회 강의(T아카데미) :https://tacademy.skplanet.com/live/player/onlineLectureDetail.action?seq=189
  3. 데이터 분석/머신러닝/딥러닝 info : https://github.com/teddylee777/machine-learning

- 전체적인 계획 : 해당 대회에 대해 크게 데이터 탐색 / 데이터 분석 / 모델 학습 / 모델 검증 단계로 구성되어 있고, 1~2주 시간을 할애하여 각 파트별 학습을 진행할 예정
- 숙제 : House Prices : Exploratory Data Analysis(EDA) 학습 및 데이터 분석 학습 병행


2022/04/09(토) : 스터디 소요 시간 2시간(엘리스 플랫폼 2시간)
- 학습 내용

  1. House Prices : Exploratory Data Analysis(EDA) 발표 및 추가 학습
  2. data load, data comprehend
  3. features meaning 파악하기
  4. 타켓 변수 : SalePrice 분포 확인(왜도(shewness), 첨도(kurtosis) 확인)
  5. 이상치 탐색
  6. 결측치 확인
  7. numerical_features와 categorical_feature 살펴보기

- github : 스터디원 모두가 해당 저장소 github에 commit 가능하고 큰 뿌리마다 merge 할 예정
- 숙제

  1. corr 공부하기 : 데이터 특성에 맞게 어떤 corr을 사용할지 고민하기
  2. 결측값 처리 방법 공부하기 : 의미있는 NaN은 어떻게 처리해야하는가?
  3. 범주형 변수 상관성 찾는법 : 범주형 변수는 시각화에 제한이 많음 : 카이제곱 검정 , 비슷한 특징들 지닌것은 하나로 묶어주는 기법 등... 고민해보기
  4. 이번주까지 했던 내용 왜? 그렇게 했는지 고민해보고 feature engineering까지 끝내기
  5. 다중공선성가진 변수 한쌍이 둘다 의미있는 변수일때 어떻게 처리해야하는가? 고민하기

- 특이사항

  1. github 각 팀원의 폴더에 학습 과정을 commit하고 큰 뿌리(데이터 탐색 / 데이터 분석 / 모델 학습 / 모델 검증 단계)마다 합치는 것으로 결정
  2. 단순 클론 코딩이 아닌 해당 원리를 이해하고 작성&응용하는 방향으로 추진
  3. 진도가 막힌 상태거나 모르는 것이 있으면 언제든지 즉흥 스터디

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published