[Week 11- Day 3] 회고

2022. 3. 30. 21:45About Me/AI Tech

# 오늘 하루 어떻게 살았나?

subj, obj hidden embedding 주는 방법 찾아보기

vocab 추가하고 실험 (성능 똑같음)(이미 입력으로 2번이나 주니까) 

hidden embedding 구현하고 git push

성능 실험하고 리더보드 제출하기

tokenizer 코드 정리해서 git push

 

# 피드백

- 오늘 멀티모달 강의를 들으면서, 사람의 뇌는 모두 한 곳을 거쳐서 간다는 사실을 알게 되었다. 시각 정보나 후각 정보 등 모두 같은 곳에 모인 후에 처리가 된다는 것이 의미를 관통하는 무언가가 있다는 것이 흥미로웠다. 실제로 CLIP 이 현재 SOTA를 찍고 있는 text dot image 모델이라고 한다. 

- morphs, nouns, 조사 빼고 모두 실험을 하였는데 결과는 morphs가 가장 좋았다. 

 

 

## 마무리

형태소 분석기로 실험한 게 모두 baseline 보다 낮은 성능을 보여서 아쉽다.

결국에는 pre-trained model & tokenizer를 사용하므로, 학습된 방식을 따라야 제대로 이해한다는 것을 깨달았다.

또 입력 문장들로 형태소 분석기들에 따라 EDA하면서, 분석기 마다 강점이 따로 있구나 느꼈다.

아무래도 분석기 입장에서는 브랜드명이나 사람이름, 라틴어 등은 새로운 언어일 수 밖에 없다. 이번에 주어진 데이터는 그런 사람이 보기에도 고유명사인 단어들이 많았는데, 이를 하나의 덩어리로 잘 보는 것에 특화된 형태소 분석기가 대게 좋은 점수를 보였다.

신기 했던 것이, '이를 보아하니 ~~' 라는 문장이 주어질 때 5개 중 한 형태소 분석기만이 '이를'을 2개로 나누어주었다. 근데 이걸 형태소가 이해했다고 보아야 하는 건가.

 

 

 

 

 

 

 

 

Hola

반응형

'About Me > AI Tech' 카테고리의 다른 글

[Week 11- Day 5] 회고  (0) 2022.04.01
[Week 11- Day 4] 회고  (0) 2022.03.31
[Week 11- Day 2] 회고  (0) 2022.03.29
[Week 11- Day 1] 회고  (0) 2022.03.29
[Week 10- Day 5] 회고  (0) 2022.03.26