[Week 13- Day 2] 회고

2022. 4. 13. 00:19About Me/AI Tech

# Pseudo Labeling 

semi-supervised learning의 일종으로,

labeled data로 Model train을 진행한 후에, non-labeled data의 label을 예측하여 Pseudo labeled data를 생성한다.

이제 모든 data를 사용하여 model을 train하는 방법을 말한다.

이를 한다고 해서 항상 성능이 올라간다는 보장이 없기 때문에, cut-off 설정을 잘해야 한다.

 

# Text data 대체 / Masking

구문 분석 Task 등에서, 개인 정보인 이름/ 전화번호/ 소속 등에 대한 처리를 할 때 삭제를 하는 것보다는 어떤 정보인지 알려주는 것이 굉장히 중요하다.

예를 들어, NIA 가이드라인에 따르면 사람의 실명 데이터의 경우 #@이름#으로 변환하여 사용한다. 

 

## 피드백

아이패드로 스샷 찍어가면서 필기하니 더욱 빠르게 정리할 수 있었다. 

이제 내일부터 본격적으로 대회 데이터를 다루어 볼 것 같다. 어떤 데이터들이 있는지 다양한 EDA를 많이 진행해보고, 팀원들과 의견을 나누어 보면서 데이터 처리에 대한 고민을 많이 해보자. 예를 들면, 이렇게 subj type을 설정하면 balance가 잘 맞을 지 등등.

부담 가지지 말고, 차근히 할 일을 하자.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형

'About Me > AI Tech' 카테고리의 다른 글

[Week 13- Day 4] 회고  (0) 2022.04.15
[Week 13- Day 3] 회고  (0) 2022.04.14
[Week 13- Day 1] 회고  (0) 2022.04.12
[Week 12- Day 5] 회고  (0) 2022.04.09
[Week 12- Day 4] 회고  (0) 2022.04.09