2022. 4. 23. 00:47ㆍAbout Me/AI Tech
# 피어피어 발표
계속 카메라로 모니터링해가면서 발표 연습을 보았다. 처음에는 대본 없이 진행을 하려고 했는데, 말하는 중간 중간의 텀이 너무 길게 느껴져서 어쩔 수 없이 대본을 준비해서 연습했다.
하지만 중간에 살짝 긴장이 되었는데, 놀랍게도 그 이후에는 평소 연습한 것처럼 진행할 수 있었다.
다만 다른 팀들과 달리 팀원 소개하는 부분이 없었어서 살짝 아숴웠다.
발표 끝나고 채팅창을 보니 팀원분들이 열정적으로 박수를 쳐준 것을 보고 감동받았다.
# 데이터 제작 대회- 솔루션 발표
반려동물 데이터 팀 솔루션.
일단, Topic / 출처 / 파일 수 / 라인 수 / sentence 수 에 대해 파악하면 시작하였다.
Tool 로서는 LabelStudio && Tagtog를 사용했다고 하는데, LabelStudio 도 편리하게 잘 사용할 수 있었던 것 같다.
Sentence_with_entity column을 추가하여 보다 쉽게 라벨링을 진행할 수 있었다.
Entity 에 대해서 어디까지를 '개체'로 보는지 그 범위를 지정하는 것과, '질병'으로 분류하는 것에 대해 특정 속성들을 고려하였다.
Data imbalance를 체크해가면서 entity 범위를 조정 및 분리하였는데, 이 자체도 해당 데이터의 특성이 될 수도 있다고 한다.
러시아-우크라이나 데이터 팀 솔루션.
Tagtog에서 보다 쉽게 라벨링 할 수 있도록, subj는 원색으로 obj는 파스텍색으로 설정해두고 진행하였다.
작업 진행 순서가 인상적이었는데,
1. 100개 데이터 라벨링 => 1차 파일럿 태깅 (IAA 점수 확인)(빠르게 진행)
2. 질의응답 및 가이드라인 update
3. 2차 파일럿 태깅 (IAA 점수)
4. (( iter ))
베이징 동계올림픽 데이터 팀 솔루션.
소분류된 데이터셋으로 구성됨을 확인하고, 그에 따라 진행하였다. 고려한 사항들이 굉장히 많고 상세하였는데, 예를 들면 다음과 같다.
- sentence 에서 entity 를 지정할 때 어느 범위까지 태깅할 것인지
- 태깅한 entity들 간의 relation이 우리의 domain에 중요한 정보인지
## 피드백
실제로 현업에서 커뮤니케이션 비용이 상당하며, 작업자 간의 뇌를 잘 맞추는 것이 중요하다.
Data scheme 및 relation 정의하는 등이 체계를 만드는 것과 같기에 굉장히 중요하며, 이는 모델 성능향상으로 이어진다.
개인 멘토링도 진행하였는데, 묵혀놓은 질문들을 모두 해소하고 돌아올 수 있었다. 정말 너무너무 만족한다.
'About Me > AI Tech' 카테고리의 다른 글
[Week 15- Day 2] 회고 (0) | 2022.04.27 |
---|---|
[Week 15- Day 1] 회고 (0) | 2022.04.25 |
[Week 14- Day 4] 회고 (0) | 2022.04.22 |
[Week 14- Day 3] 회고 (0) | 2022.04.21 |
[Week 14- Day 2] 회고 (0) | 2022.04.20 |