[Week 6- Day 1] 회고

2022. 2. 21. 23:57About Me/AI Tech

# [Kaggle] Stacked Regression: Top 4% on LeaderBoard

** 진행한 Feature Engineering 작업

  • Imputing missing values : 순차적으로 처리
  • Transforming : 수치형 변수 → 카테고리형 변수
  • Label Encoding : 순서있는 카테고리형 변수
  • Box Cox Transformation : skewed features에 대해서 log transformation하는 것보다 나은 성능을 보여줌
  • Getting dummy variables : 카테고리형 변수

** Id 열 제거 (예측하는데 도움이 되지 X)

** Outliers 제거

    GrLivArea와 SalePrice의 상관관계에서,

    지나치게 큰 GrLivArea인데 SalePrice가 작은 2개의 데이터 제거

 

** Target 변수의 모수(mu, sigma) 확인

    ⇒ log transformation

 

** train+test하여 missing data 처리

    비율 및 target과의 상관관계 확인

  • LotFrontage : 주택과 연결된 각 도로 면적은 다른 이웃주택과 비슷한 면적을 가질 가능성이 높기에, 이웃들의 중앙값으로 결측치 채움
  • GarageYrBlt : 차고가 없다면 지어진 년도도 없기에, 0으로 채움
  • Bsmt로 시작하는 변수 : basement와 관련된 변수들로, 없다는 의미이므로 0으로 채움
  • MasVnr로 시작하는 변수 : masonry veneer는 석공 표면으로 결측치는 이것이 없다는 것이니, 0으로 채움
  • MSZoning : 일반적인 건축 규제 분류이므로, 가장 많이 출현하는 값인 ‘RL’로 대체

** 수치형 변수 → 카테고리형 변수

  • MSSubClass, OverallCond, YrSold, MoSold

** Label Encoding

  • PoolQC, BsmtQual 등등

** 중요 변수 추가

  • TotalSF = TotalBsmtSF + 1stFlrSF + 2ndFlrSF

** Box Cox Transformation (scipy.special.boxcox1p)

** get_dummy_카테고리형_변수

 

** Model (by CV)

  • LASSO 회귀
  • Elastic Net 회귀
  • Kernel Ridge 회귀
  • GB 회귀
  • XGBoost
  • LightGBM
  • 앙상블 by StackedRegressor, XGBoost, LightGBM

 

# Feature Scaling

  • StandardScaler : default Scaler. 평균을 중심으로 분포가 중심화도록, 평균과 표준편차를 사용하여 스케일링
  • MinMaxScaler : 최대 ~ 최소 범위로 1 ~ 0 값으로 스케일링
  • MaxAbsScaler : col의 최대값을 기준으로 1로 하고 0은 0으로 하여, 그 비율로 스케일링
  • RobustScaler : Outliar의 영향이 최소화(robust)되도록 중앙값과 IQR 사용하여 스케일링
 

API Reference

This is the class and function reference of scikit-learn. Please refer to the full user guide for further details, as the class and function raw specifications may not be enough to give full guidel...

scikit-learn.org

 

# 경로 붙이기
os.path.join(path, file_name)

# 이미지 파일 저장
from PIL import Image
Image.open(image_path)

 

 

## 피어 세션

대회가 시작되었다. 걱정과는 달리 서버와도 잘 연결하고, 주피터나 데이터가 이미 저장되어 있어서 한시름 덜었다.

캐글 스터디 준비를 수요일 안에 못끝낼 것 같아서, 일단 커널을 보면서 왜 그랬는지 알아나가고 있다.

다른 것보다 계속 실험을 해나가야 하는데 너무 느린 건가 싶어서 걱정이다. 내일은 더 많은 시간을 데이터에 투자해야겠다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형

'About Me > AI Tech' 카테고리의 다른 글

[Week 6- Day 3] 회고  (0) 2022.02.24
[Week 6- Day 2] 회고  (0) 2022.02.23
[Week 5- Day 5] 회고  (0) 2022.02.18
[Week 5- Day 4] 회고  (0) 2022.02.17
[Week 5- Day 3] 회고  (0) 2022.02.16