[Week 18- Day 2] 회고

2022. 5. 17. 22:30About Me/AI Tech

# 언제 MLOps로 model drift를 감지할까?

 

Productionizing Machine Learning: From Deployment to Drift Detection - The Databricks Blog

Read this blog to learn how to detect and address model drift in machine learning.

databricks.com

model drift란, 입력 데이터의 기여하는 소스를 바꾸거나, 데이터를 생산하거나, 출력 값을 더 좋은 대안으로 바꾸는 것을 말한다.

ML drift의 종류로 4가지를 들 수 있다. (Concept drift, Prediction drift, Label drift, Feature drift)

 

drift은 원인은 무엇일까?

- 형식주의로 인해 실세계 데이터에 변화가 있을 때

- 데이터 통합에 문제가 있어, 사람의 조사가 필요할 때

 

그럼 어떻게 data drift를 계산할까?

1. 통계적 Metrics

-- PSI (population stability index)

-- KL (kullback-leibler)

등등

2. 모델 기반으로 유사도 측정

 

 

# ML 지식을 얻는 Google의 최고의 실습

Terminology (전문용어)

-- Instance : prediction하고 싶은 것이 어떤 것인지에 대한 것. (ex. 고양이에 대한 것이나 아닌 것)

-- Feature column : 관련된 features 집합.

-- Example : features + label

-- Metric : 관심을 가질 산수 값

-- Objective : 너의 알고리즘이 최적화하고자하는 metric

-- Pipeline : ML 알고리즘을 둘러싼 인프라.

-- Click-through rate : 광고를 클릭한 웹페이지 방문자 비율.

 

(To be continue..)

 

 

## 피드백

드디어 submit 하고, 팀 통합함. 가장 작은 목표를 세우고, 그에 대한 방법을 찾아 적용하면 된다.

MLOps가 무엇이냐고 묻는 질문에 순간, 어디까지가 MLOps 도구의 범위지? 혼란이 왔다. 자동화하는 것은 모두 MLOps 인 것으로 이해했는데, 그렇게 되면 하이퍼 파라미터 튜닝을 하기 위한 shell script 작성하는 것도 포함이 될 것 같았다. 

 

https://en.wikipedia.org/wiki/MLOps

MLOps는 ML을 성공적으로 구현하고 배포 및 유지 관리하기 위한 일련의 관행이라고 한다.

 

 

오늘 TechTalk 세션 진행하면서, "논문 읽는 방법"에 대해 굉장히 유용하게 잘 들었다.

논문을 읽을 때 준비해야할 것은 질문하는 자세라는 것을 느꼈다.

 

Abstract를 읽고, 저자가 어떤 문제를 다루었는지/ 잘 모르겠는 개념은 무엇인지/ 내가 궁금한 점은 무엇인지 짚고 넘어가야 겠다.

그 다음은 Conclusion으로 추가로 눈여겨 봐야할 부분이 있는지 체크한다고 하심.

가장 인상깊은 부분은 Related Works 에서 기존 논문들과의 차이점을 얘기하는 부분이기에, 다시 읽으러 오기도 한다고 하심.

Contributions 쪽에는, 문제 -> 접근 방법 -> 검증 하는 논리적 구조로 정리되어 있음.

 

 

 

 

 

 

 

반응형

'About Me > AI Tech' 카테고리의 다른 글

[Week 18- Day 4] 회고  (0) 2022.05.21
[Week 18- Day 3] 회고  (0) 2022.05.19
[Week 18- Day 1] 회고  (0) 2022.05.17
[Week 17- Day 4] 회고  (0) 2022.05.13
[Week 17- Day 3] 회고  (0) 2022.05.12