[Week 16- Day 1] 회고
# Dense Retriever
## DPR for ODQA (EMNLP, 2020)
Papers with Code - Dense Passage Retrieval for Open-Domain Question Answering
12 code implementations in PyTorch and TensorFlow. Open-domain question answering relies on efficient passage retrieval to select candidate contexts, where traditional sparse vector space models, such as TF-IDF or BM25, are the de facto method. In this wor
paperswithcode.com
0. Abstract
ODQA는 효율적인 Passage retrieval에 의존한다.
우리는 retrieval이 dense representation 만으로 구현될수 있다는 걸 보여준다.
적은 수의 Q&A로 부터 간단한 dual-encoder framework로 학습하는.
3. DensePR
DPR의 목적은 모든 Passage들을 저차원의 연속적인 공간으로 index하는 것이다.
입력 질문과 관련된 상위 k개의 Passage들을 효율적으로 검색할 수 있도록.
DPR은 dense encoder E_p를 사용한다.
어떤 text passage를 d차원의 vector들로 mapping하고, 검색하는 데 사용하는 모든 M개의 Passage들을 위해 index를 만드는.다른 encoder E_q는 입력 질문을 d차원의 vecot로 mapping하고, 어떤 vector들이 질문 vector와 가장 유사한지를 k개의 Passage들을 검색한다.그 질문과 Passage 간의 유사도는 dot-product로 정의한다. 이 외에도 cross attention들의 여러 레이어로 구성된 신경망이나, 분해될 필요가 있는 유사도 함수(decomposable similarity function) 가 있다. (+ L2 distance, cosine 유사도)
5. Experiments: Passage Retrieval
6. Experiments: Question Answering
## Real-time ODQA with D-S Phrase Index (ACL, 2019)
Papers with Code - Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index
Implemented in one code library.
paperswithcode.com
0. Abstract
QA 모델은 실시간 사용에 적합하지 않다. 몇몇의 긴 문서들을 프로세싱해야 해서.
우리는 극적으로 빠르게 ODQA하고 의미적 정보를 효율적으로 잡아내는, 문서의 query-agnostic indexable representation 를 소개한다.
3.2. Encoding & Indexing phrases
4. Phrase and Question Embedding
5. Training, Indexing & Search
6. Experiments
+++
GitHub - danqi/acl2020-openqa-tutorial: ACL2020 Tutorial: Open-Domain Question Answering
ACL2020 Tutorial: Open-Domain Question Answering. Contribute to danqi/acl2020-openqa-tutorial development by creating an account on GitHub.
github.com
## 피드백
어떻게 구현할 지, 어떤 방법들이 있는지 등등을 확인하기 위해 위 두 논문을 살짝 읽어보았다. 두 번째는 상당히 이해하기 어려웠는데, 나중에라도 읽어봐야겠다.
캐글 팀 결정이 완료되었다. 새소리 대회랑 음식점 추천을 진행할 것 같고, 새소리 대회는 얼마 안남아서 이전 디스커션보면서 가볍게 진행할 것 같다.
H.P 튜닝하는 데 많은 시간을 보냈다. 시간 남으면 loss 부분을 좀 더 살펴보면 좋을 것 같다.