About Me/AI Tech(95)
-
[Week 19- Day 5] 회고
# Sentence-BERT ODQA- MRC task할 때도 보았던, Triplet Network는 해당 문장과 Positive 관계이면 더 가깝게, Negative 관계이면 더 멀게 학습하는 구조를 말한다. Siamese Network는 FaceNet(?) 같은 곳에서 많이 사용하는 구조로, Same 구조 & Sharing weight 인 네트워크 구조를 말한다. Sentence-BERT(= SBERT)는 Siamese & Triplet Network를 사용하여 문장의 의미를 잘 담도록하는 네트워크 구조다. 이를 통해, 기존 BERT가 수행하지 못하는 유사도 측정이나 클러스터링 등을 수행할 수 있다. pooling은 앞선 유닛의 output에 특정 크기의 구간마다 max/ avg 값을 수행하는 것을 ..
2022.05.28 -
[Week 19- Day 4] 회고
# RoBERTa 정리 NSP = Next Sentence Prediction 기존 BERT의 Static한 Masking 방식과 달리, 모델의 input으로 주기 전에 masking 기존의 문장 사이즈의 입력보다 크게, 각 input을 하나의 문서로 샘플링 더 오랜 시간 train하고, 더 큰 batch size로 학습 # Preprocessing- 업체명 마스킹 처리 고민 제대로 전처리가 되지 않는다. 줄이고, 띄우고 순서 뒤바꿔서 업체명을 부름. ## 피드백 멘토링으로 면접 질문도 받고 하니까, BERT나 RoBERTa 논문을 꼼꼼히 다시 읽어봐야 겠다는 생각을 했다. JD 보면서 포트폴리오 정리를 좀 해봤는데, 베이스라인을 작성할 수 있는 사람을 원하는 것 같다는 인상을 받았다.
2022.05.27 -
[Week 19- Day 3] 회고
# Uvicorn Python 을 위한 비동기 ASGI Web Server 구현. Server/ Application Interface를 구축하기 위한 비동기 프레임워크에서 사용할 수 있는 공통 Tooling set. 현재 HTTP/1.1 , WebSockets 지원. $ uvicorn example:app from파일:파일내부함수 형식 파일위치:호출할비동기객체 >>> uvicorn.run("example:app", host="127.0.0.1", port=5000, log_level="info") Uvicorn은 Application과 인터래션하기 위해 ASGI format을 사용한다. Application은 다음 3가지 매개변수를 사용하는 async 기능을 가지고 있어야 한다. - scope : 들어..
2022.05.25 -
[Week 19- Day 2] 회고
# NER library 및 참고 자료 Named Entity Recognition — PORORO: Platform Of neuRal mOdels for natuRal language prOcessing 0.3.1 documentation © Copyright 2021, Kakao Brain Corp. kakaobrain.github.io koalanlp KoalaNLP = Korean + Scala + NLP. 한국어 형태소 및 구문 분석기의 모음입니다. koalanlp.github.io NER 개론과 NER 데이터셋 모음 (한국어 개체명인식 포함) **아래 글은 A Survey on Deep Learning for Named Entity Recognition 논문을 읽고 작성한 글입니다.** 목차 ..
2022.05.25 -
[Week 19- Day 1] 회고
# Logstash https://youtu.be/-T8ihKGTCCU Mutate filter plugin | Logstash Reference [8.2] | Elastic Conversion insights The values are converted using Ruby semantics. Be aware that using float and float_eu converts the value to a double-precision 64-bit IEEE 754 floating point decimal number. In order to maintain precision due to the conversion, you shou www.elastic.co ELK 스택에서 어디로 부턴가 data를 가져와, ..
2022.05.23 -
두런두런 회고정리
부스트캠프를 함께 하면서, 고민상담이나 이력서 피드백 등을 할 수 있는 두런두런 시간이 있다. 메타몽 시그니처이고 유튜브에, 쏘카에, 부캠 마스터님이신 변성윤 마스터님이 운영하시는데, 두런두런 회고를 작성해보려고 한다. # 1회차 - 직군 이야기, 삶의 지도, 질문하는 법 데이터 관련 직군 설명해주시면서 크게 다음과 같은 직군이 있다는 것을 설명해주셔서 직군에 대한 이해를 짚고 넘어갈 수 있었다. - 대시보드 및 클라우드 스토리지 생성 및 관리 하는 직군 - 논문 집필하면서 모델 개발하는 직군 - 개발한 모델을 제품에 적용하고 모델 성능 개선하는 직군 그럼 나는 어떻게 데이터 직군을 준비하면 될까? 삶의 지도를 작성해보고, 하나씩 경험해보면서 결정하면 된다. 하지만 현재 데이터 직군에 대한 확립된 정의가..
2022.05.22