[Week 13- Day 2] 회고
2022. 4. 13. 00:19ㆍAbout Me/AI Tech
# Pseudo Labeling
semi-supervised learning의 일종으로,
labeled data로 Model train을 진행한 후에, non-labeled data의 label을 예측하여 Pseudo labeled data를 생성한다.
이제 모든 data를 사용하여 model을 train하는 방법을 말한다.
이를 한다고 해서 항상 성능이 올라간다는 보장이 없기 때문에, cut-off 설정을 잘해야 한다.
# Text data 대체 / Masking
구문 분석 Task 등에서, 개인 정보인 이름/ 전화번호/ 소속 등에 대한 처리를 할 때 삭제를 하는 것보다는 어떤 정보인지 알려주는 것이 굉장히 중요하다.
예를 들어, NIA 가이드라인에 따르면 사람의 실명 데이터의 경우 #@이름#으로 변환하여 사용한다.
## 피드백
아이패드로 스샷 찍어가면서 필기하니 더욱 빠르게 정리할 수 있었다.
이제 내일부터 본격적으로 대회 데이터를 다루어 볼 것 같다. 어떤 데이터들이 있는지 다양한 EDA를 많이 진행해보고, 팀원들과 의견을 나누어 보면서 데이터 처리에 대한 고민을 많이 해보자. 예를 들면, 이렇게 subj type을 설정하면 balance가 잘 맞을 지 등등.
부담 가지지 말고, 차근히 할 일을 하자.
반응형
'About Me > AI Tech' 카테고리의 다른 글
[Week 13- Day 4] 회고 (0) | 2022.04.15 |
---|---|
[Week 13- Day 3] 회고 (0) | 2022.04.14 |
[Week 13- Day 1] 회고 (0) | 2022.04.12 |
[Week 12- Day 5] 회고 (0) | 2022.04.09 |
[Week 12- Day 4] 회고 (0) | 2022.04.09 |