What to solve? How to solve?

MESH KOREA의 김명환님과 함께 수내 사무실에서 커피톡을 가졌습니다. KubeFlow위에서 (도둑)자바요 프로젝트를 하고 있는데, 현업에 있는 데이터과학자와 이야기를 나누어보면 좋을 것 같아서 어렵게(?) 모셨습니다. :)

김명환님은 ‘부릉’이로 유명한 MESH KOREA에 최근에 조인한 데이터 과학자이시고 그 전에는 스탠포드 박사 졸업 후 링크드인에서 데이터과학자로 계셨습니다.

요약

기억에 남는 큰 메시지는 아래와 같았습니다.

  1. what to solve? how to solve?
  2. fast fail
  3. easy integration
  4. feature engineering is main concern
  5. data science의 역할

1. What to solve? How to solve?

what-how1 what-how2 what-how3

무슨 문제를 풀 것인가를 결정하는 것이 중요하고 그다음에 어떻게 풀 것인지를 결정하는 것이 좋다고 하였고, 모르고 있지는 않았으나 크게 와닿은 이야기였습니다. 어떤문제를 풀 것인지를 잘 정하고 그것을 잘 맴버들간에 공유하는 것이 무엇보다 중요하다고 강조했습니다. 예로 든 것이 ‘개’만 찾아내면 되는 것이 풀어야 하는 문제인데, 모든 사물을 찾아내는 모델을 만든다던지 하는 부분이었습니다. 우리 프로젝트인 자바요프로젝트도 ‘What to solve?’를 잘하려면 어떻게 개선해봐야할까 하는 고민을 하게 되었습니다.

2. Fast fail

평소 우리 회사는 “의존성이 있는가”에 대한 이야기를 많이 합니다. 비슷한 맥락이지만 살짝 다른 것이 느껴졌습니다. 의존성이 있는가는 “집중할 수 있는가”에 대한 이야기이고, fast fail은 좀 더 결과물 혹은 진짜 “생산성”에 대한 이야기로 느꼈습니다. 할일은 많고 쓸데 없는데 시간 쓰기 싫으니 엉성하더라도 최종 결과를 빨리보자라는 이야기인데, 이것도 와닿았습니다.

fast-fail

위의 예시를 들었는데, 이것도 알던 그림인데도 머릿속에 와닿는 부분이 있었습니다. 자바요 프로젝트의 경우 프로덕트는 이상행동을 하는지 추론하는 서비스이지 ML모델 자체가 아닌 것을 좀 더 잘 인지해야겠다고 생각했습니다.

ml-small

위의 슬라이드에서처럼 AI model is not a product이니 엉성하더라도 이상상황을 감지하는 서비스 부분을 어서 작업해야겠구나 생각했습니다.

3. Easy integration

서드파티를 사용할 때에는 쉽게 가져다가 쓸수 있고 기존과 잘 붙는게 좋다고 하였고, 좀 원론적인 이야기이지만 좋았습니다.

4. Feature engineering is main concern

이렇게 명시적으로 이야기하지는 않았으나, 이야기를 한참 듣다보니 데이터 전처리와 feature engineering이 가장 큰 이슈인 것을 알수 있었습니다. 우리 자바요도 거기에 시간은 많이 쓰고 있었는데 다른 곳도 마찬가지인 것을 느꼈습니다. 큰 곳은 그래서 추출해놓은 feature를 공유하는 store가 있기도 한다고 합니다. 확실히 개발하면서 있었던 많은 고민들 (재사용 등)이 데이터쪽으로도 녹아가고 있다고 느꼈습니다.

5. Data science의 역할

커뮤니케이션 스킬이 중요하다고 강조했습니다. 통계나 수학적으로 타부서 사람들과 커뮤니케이션하면 안되고 전체적인 스토리를 잘 잡아서 이해할 수 있게 이야기하는 것이 데이터과학자의 중요한 요건이라고 하였습니다. 많이 공감이 갔습니다.

마무리

원래는 KubeFlow에 관련한 질문을 많이하려고 모신 자리였습니다. 예상과 다른 이야기를 많이 하였지만 아주 좋았습니다. KubeFlow는 머신러닝 문제를 풀기위한 툴입니다. 이 툴에 맞춰서 작업을 하기 전에 아주 희미한 해결책이라도 프로토타이핑을 먼저 해보고, 그것을 더 잘 만들어보려고 할 때(툴링할때) KubeFlow를 쓰는 것이 맞는 수순이라는 것을 또한번 느낄 수 있는 좋은 자리였습니다. 해결하고자 하는 문제에 집중해서 툴링한다는 이야기도 인상적이었습니다.

KubeFlow든 어떤 형태의 머신러닝툴셋이던 빠른프로토타이핑한 것을 본격적으로 풀어보고자할 때, 잘 integration해줄수 있는 것이 상당히 중요하겠구나 느꼈습니다.