한빛미디어에서 주최한 데브그라운드 컨퍼런스중 1일차(AI와 데이터과학) 2일차(블록체인과 암호화폐)중 1일차 세션을 참가후 후기입니다
데이터와 머신러닝이 비즈니스와 만날 때 발생할 수 있는 비극들 (하용호 — 카카오)
멋있어 보이는 머신러닝, 하지만 비지니스에서는 비극이 일어난다
- 구슬이
- 서말이어도
- 꿰어야
- 보배다
문제점1. 서말이 없다
데이터가 서말처럼 많이 않고, 뒷받침할 수 있는 인프라도 없다
- 데이터를 통한 비지니스 임펙트를 주는 것은 추천 또는 광고 서비스
- 추천, MAU 20만, 앱 다운로드 100만은 되어야 추천을 통한 머신러닝 서비스가 유의미하다
- 광고, MAU 200만, 앱 다운로드 1000만은 되야 의미있다
- 저희는 데이터 2년동안 모아서 할거에요 → 시장상황과 유저들이 많이 바뀌므로 어떻게 변화될지 모른다
추천: 커머스회사, 아마존, 쿠팡
광고: 구글 페이스북, 네이버, 카카오
- 본업자체가 추천과 광고를 통해 수익을 얻는 비지니스 모델을 가진 회사가 아니라면, 본업에 일단 충실해야한다녹즙을 만들어 판매하는 회사라면, 서비스 초기에는 판매량 Best10으로 제공하는 것이 훨씬 효율적이다
- 이곳에서 데이터 엔지니어는, 녹즙을 빠르고 편하게 주문할 수 있는 유저 플로우를 만드는것이 좋을 것 같다.
문제점2. 꿰는 기술이 없다
사람이 비싸고 (상당히) 구하기 어렵다
- 머신러닝 엔지니어 시작연봉
- 괜찮은: 6,500 / 좋은: 1억 / 훌륭한: 싯가
완벽한 만남:
- 어디서 들은 머신러닝을 써보고 싶은 대표 or 의사결정권자와 경험해본적 없는 기술을 사용해야하는 기술자와의 완벽한 만남!
- 간지나게 시작하지만, 폭망의 스멜을 느끼고 없었던 것 처럼 사라진다.
- 보통, 이들은 본인들이 핵심 비지니스가 될 수 있는 포지션을 원하기 때문에, 대기업을 기피하는 경향이있다.
문제점3. 보배가 뭔지 모른다
- 망치를 들면 모든게 못으로 보인다 — 마크트웨인
- 문제가 되는 의식 플로우
- 머신러닝을 쓰고 싶다 → 주변에 쓸만한데 없나? → 이곳에 써보자
SO, WHAT?
회사의 메인비지니스가 100, 머신러닝을 활용한 비지니스가 5라고 한다면, 투입대비 효용이 극히적다
항상 메인비지니스의 벨류체인에서 비효율 구간을 찾는 방식으로 접근하자
비효율 구간은어디? 사람을 통한 이슈에서 많이 발생한다
- 사람이 감으로 하고 있는 부분사람이 하기에 느려지는 부분
- 여러개의 선택지에서 판단을 해서 느리다면, 머신이 선택지를 줄여주고, 사람이 그중에서 선택하는 방법 Nice!
사이드가 아닌 메인비지니스의 벨류에서 비효율을 개선하는 것이 중요
Fish 모델 제시
- 입: 사용자를 끌어들이고, 배: 사용자의 경험을 소화시키고, 꼬리: 사용자의 리텐션을 유도
복잡해 보인다고 답은 아니다
예제문제: 매출을 올리기 위한 상품진열 순서가 고민?
간단한 방법: 노출대비 구매 or (CTR) 등 Top K 순서로 진열등 간단한 룰베이스로 진열
멋있는 방법: 유저마다 프로파일링하여 추천비교
- 룰베이스: 필요한 데이터 이미 존재하고, 머신러닝엔지니어도 필요없고, 구현하는데 1주면 충분하다. 이로인한 이득이 60으로 가정
- 머신러닝: 데이터 추가로 필요하고, 인프라도 필요함. 전문가도 필요하며 구현까지 6개월 소요됨. 이로인한 이득이 80~100으로 가정60의 이득의 여러번이 80의 이득보다 훨씬 비용대비 효율적이다.
복잡하지 않고 심플하게 빠르게 여러번 반복하는 것이 중요하다
- 그럼 언제 머신러닝 써야해요?
- 상품 100개 진열: 사람이 하세요
- 고객 100명 응대: 사람이 하세요
- 상품 100만개 진열: 이때 쓰세요
- 고객 100만명 응대: 이때 쓰세요
카카오에서 이런 방식을 적용한 예시
카카오 스마트 메시지
카카오 → 본사 → 비지니스는 무엇일까?
광고(이미잘쓰고있음), 메시지(데이터 잘쓰고있나?) → 플러스친구 메시지(과금)
- 플러스친구 메시지, 플러스친구는 일종의 홍보메시지까, 누구에게 무엇이 효과는 어땠는지 확인 → 이것으로 무기를 만들어야겠다.
- 광고메시지를 보내려는 고객이 여러 템플릿을 등록하고, 플러스친구에서 랜덤하게 메시지를 발송
- 메시지를 보내면서 사용자의 CTR를 확인하여 CTR이 높은 메시지로 집중하여 발송
핵심 로직은 ? 아래 한줄
- arm_value = np.random.beta(arm[‘alpha’]), arm[‘beta’])
엄청난 하이테크놀로지가 아니지만, 핵심벨류체인을 대상으로 효율화, 고속화를빠르게 쉬운방법으로 Trial & error가 되어야 한다
간지나게 AI 프로젝트 진행하는 방법 (백정상 — 구글코리아)
간지: Plausible, 누가들어도 혹할만한 것
간지나는팀
- 세계 최고 팀을 기반
- 비지니스 문제가 크고, 효과에 대한 임펙트가 커야함
- 무조건 성공에 대한 확신이 존재해야한다
실패하는팀
- 낮은 데이터 품질
- 비지니스에 대한 이해가 부족
- 잘못된 머신러닝사용
- 편견 또는 확증 편향
- 부족한 인프라 자원
- 이미지 관련모델 → GPU 500장의 인프라 자원이 되어야 3시간안에 결과가 나옴
- 부실한 계획과 거버넌스 부재
실패하지 않으려면
- 풀어야 하는 비지니스의 임팩트가 충분히 커야함
- 비지니스 도메인에 대한 지식이 푸우우우웅부해야한다
- 높은 품질의 데이터 = 가치가 높은 자원
- 데이터사이언티스트가 꼭 필요하다
- 데이터의 편견, 편향을 잡을 수 있어야 한다
- 비용효율적인 인프라가 필요
- 최고의사결정권자의 서포트를 충분히 받고, 일정이 타이트해야한다
비지니스 케이스 탐색
- Think Big!
- 10X thinking = 투자가치대비 10배의 효율을 가지고 올 수 있는 것
예산
- 인건비
- 인프라
- 소프트웨어 비용
- 최소의 팀셋업
- 프러덕트 메니저 1명, 비지니스 분석가 1명, 데이터사이언티스트1명, 머신러닝엔지니어1명
- 최소 비용 8억
- 따라서 80억의 비지니스 가치를 봐야한다
Mckinsey Global Institute로 부터 비지니스를 검색해보자
- 내가 몸담고 있는 회사에 대해서 바로 적용하는 것이 아니라, Businenss Case를 적용하여 생각해봐야한다
하지만!!!!
- 10배 효율을 가진 비지니스를 발견하기 어려움
- 10개중 8개의 서비스는 실패
- 쉽지 않다
헬로딥러닝 (남세동 — 보이저엑스)
비트연산
- 모든 학습은 비트연산을 하고 있다. 바둑을 두는 알파고와 음성인식을 하는 알렉사 모두 신기한 마법을 부리는 것이 아니라 비트연산을 한다.
- 논리적으로 어떻게 내부 알고리즘이 구성되어 있는지 모르더라도, 실질적으로 모든 비트연산의 결과로 판단이 이루어 지고 있다.
- O = f (Sigma i * w)의 작은 퍼셉트론의 합으로 딥러닝이 구성된다
- 동물사진 구분, 암 사진 판단 모두 RGB 값의 입력이 T/F 의 출력으로 변환을 하여 판단한다
보이저엑스 서비스
- Vrew (자동 자막생성 및 편집 툴)
- 동영상 자막편집으로 인한 시간을 절반의 절반 이하로 줄여줄 수 있다
- vFlat (책 스캐너) …완전 대박툴
- 스캔 카메라툴로서, 기존의 캠스캐너와 오피스 렌즈와 같이 프레임을 사각형으로 바꿔주는 것이 아니고, 실제 스캐너를 하여 다듬은 것 처럼 바로 촬영이 가능하다
소감
좋았던 점
- 하용호님, 첫 세션이었는데 컨퍼런스 마지막까지 여운이 남도록 임팩트가 강했다. 무턱대고 딥러닝을 이곳 저곳에 들이 대는 사고를 막을 수 있었다. 성공적인 딥러닝 프로젝트를 위한 시작점을 잘 찍도록 도와주셨다
- 백정상님, 간지나는 AI프로젝트를 위한 최소 비용, 토이프로젝트로 끝나지 않도록 현실적인 조언을 해주셨다
- 남세동님, 데이터 분석가가 아니더라도 딥러닝이 무엇인지 쉽게 이해할 수 있도록 설명해주셨고, 예로 들어주신 예제도 너무 훌륭하였다. 또한, 보이저엑스에서 제공하는 서비스들도 멋졌다.
아쉬웠던 점
- 한 타임에 두개의 세션이 큰 룸, 작은룸에서 진행되었다. 그러나, 인원예측 실패로 작은룸에 사람이 엄청 몰리는 사태가 발생했다.
- 세션 타이틀로 내용을 추측하고 참여했는데 발표내용이 살짝 달라서 당황하기도 했다. 발표하시는 분에 대해서 좀더 관심을 가지고 세션을 참가했으면 이런 아쉬움이 적었을 것 같다