[Week 17- Day 3] 회고

2022. 5. 12. 01:46About Me/AI Tech

# ERROR Tracking

[상황] : 주어진 경로의 파일을 통해 모델 train하려는데 오류 발생

 

[에러 메시지]

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

 

[해결 방안] :

 

[Solved] UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte - Exception Error

To Solve UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte Error First of all you need to use with op

exerror.com

 

# MRC 대회 하면서 느낀 점

학습이 잘된 nbest_pred.json나 pred.json를 살펴보면, 괄호()나 특수문자가 사람이 보았을 때도 제대로 들어가 있다.

text에 대한 predition값이 낮을수록 답이 될 수 있는 후보군들 간의 차이가 적어지고, 다양성도 커진다. 따라서 많이 섞을 수록 좋다. 실제로 EM 점수가 높은 파일들을 많이 섞을수록 점수가 향상되었다.

 

train/loss값이 살짝 떨어지더라도, eval/em & eval/f1 값이 상승하는 추세의 h.p 튜닝 결과가 훨씬 더 좋은 성능을 보여주었다.

model에게 주는 source인 data와 관련된 h.p를 우선 결정하고, 세부적인 h.p는 자동화하는 게 좋다.

 

 

## 피드백

이제 내일이면 대회가 끝난다. RAG도 적용하고 싶었는데, 여러가지로 아쉬운 점이 많다.

dataset 형태나 한국어 인코딩을 맞춰주는 등 작업 대비 시간이 부족했던 것 같다. 개발 중인 라이브러리 하나 잡고 튜토리얼 따라하면서 해보긴 했지만, 한국어로 나온 모델이 많지 않다는 점이 아쉬웠다.

궁금한 것이 tokenizer는 한국어이고, retriever나 generator가 영어에서 성능이 좋은 모델이라면, 한국어 데이터셋으로 train 했을 때 좋은 성능을 낼 수 있을까?

대회가 끝나고도 오아에서 주어진 소스들 확인하면서, 방법론 같은 걸 정리해두면 좋을 것 같다.

 

 

 

 

 

 

 

 

 

 

반응형

'About Me > AI Tech' 카테고리의 다른 글

[Week 18- Day 1] 회고  (0) 2022.05.17
[Week 17- Day 4] 회고  (0) 2022.05.13
[Week 17- Day 1] 회고  (0) 2022.05.10
[Week 16- Day 5] 회고- 깃허브 특강  (0) 2022.05.06
[Week 16- Day 2] 회고  (0) 2022.05.04