2022. 2. 21. 23:57ㆍAbout Me/AI Tech
# [Kaggle] Stacked Regression: Top 4% on LeaderBoard
** 진행한 Feature Engineering 작업
- Imputing missing values : 순차적으로 처리
- Transforming : 수치형 변수 → 카테고리형 변수
- Label Encoding : 순서있는 카테고리형 변수
- Box Cox Transformation : skewed features에 대해서 log transformation하는 것보다 나은 성능을 보여줌
- Getting dummy variables : 카테고리형 변수
** Id 열 제거 (예측하는데 도움이 되지 X)
** Outliers 제거
GrLivArea와 SalePrice의 상관관계에서,
지나치게 큰 GrLivArea인데 SalePrice가 작은 2개의 데이터 제거
** Target 변수의 모수(mu, sigma) 확인
⇒ log transformation
** train+test하여 missing data 처리
비율 및 target과의 상관관계 확인
- LotFrontage : 주택과 연결된 각 도로 면적은 다른 이웃주택과 비슷한 면적을 가질 가능성이 높기에, 이웃들의 중앙값으로 결측치 채움
- GarageYrBlt : 차고가 없다면 지어진 년도도 없기에, 0으로 채움
- Bsmt로 시작하는 변수 : basement와 관련된 변수들로, 없다는 의미이므로 0으로 채움
- MasVnr로 시작하는 변수 : masonry veneer는 석공 표면으로 결측치는 이것이 없다는 것이니, 0으로 채움
- MSZoning : 일반적인 건축 규제 분류이므로, 가장 많이 출현하는 값인 ‘RL’로 대체
** 수치형 변수 → 카테고리형 변수
- MSSubClass, OverallCond, YrSold, MoSold
** Label Encoding
- PoolQC, BsmtQual 등등
** 중요 변수 추가
- TotalSF = TotalBsmtSF + 1stFlrSF + 2ndFlrSF
** Box Cox Transformation (scipy.special.boxcox1p)
** get_dummy_카테고리형_변수
** Model (by CV)
- LASSO 회귀
- Elastic Net 회귀
- Kernel Ridge 회귀
- GB 회귀
- XGBoost
- LightGBM
- 앙상블 by StackedRegressor, XGBoost, LightGBM
# Feature Scaling
- StandardScaler : default Scaler. 평균을 중심으로 분포가 중심화도록, 평균과 표준편차를 사용하여 스케일링
- MinMaxScaler : 최대 ~ 최소 범위로 1 ~ 0 값으로 스케일링
- MaxAbsScaler : col의 최대값을 기준으로 1로 하고 0은 0으로 하여, 그 비율로 스케일링
- RobustScaler : Outliar의 영향이 최소화(robust)되도록 중앙값과 IQR 사용하여 스케일링
API Reference
This is the class and function reference of scikit-learn. Please refer to the full user guide for further details, as the class and function raw specifications may not be enough to give full guidel...
scikit-learn.org
# 경로 붙이기
os.path.join(path, file_name)
# 이미지 파일 저장
from PIL import Image
Image.open(image_path)
## 피어 세션
대회가 시작되었다. 걱정과는 달리 서버와도 잘 연결하고, 주피터나 데이터가 이미 저장되어 있어서 한시름 덜었다.
캐글 스터디 준비를 수요일 안에 못끝낼 것 같아서, 일단 커널을 보면서 왜 그랬는지 알아나가고 있다.
다른 것보다 계속 실험을 해나가야 하는데 너무 느린 건가 싶어서 걱정이다. 내일은 더 많은 시간을 데이터에 투자해야겠다.
'About Me > AI Tech' 카테고리의 다른 글
[Week 6- Day 3] 회고 (0) | 2022.02.24 |
---|---|
[Week 6- Day 2] 회고 (0) | 2022.02.23 |
[Week 5- Day 5] 회고 (0) | 2022.02.18 |
[Week 5- Day 4] 회고 (0) | 2022.02.17 |
[Week 5- Day 3] 회고 (0) | 2022.02.16 |