Deview 2014 - Data science

poksion | Oct 29, 2014

회사의 (돈도 안주는) 야근/특근 퍼레이드와 노예적 봉사로 이번 Deview 2014도 참관하지 못했다. 첫해야 그려려니 하는데, 개선의 여지가 보이지 않는다.

각설하고, 공개된 자료를 읽다보니 이번 Deview에는 Data를 어떻게 활용하는가에 대해 좋은 세션이 많았던듯 하다. Big data와 활용에 관심이 많은 나에게 많은 영감을 준 좋은 자료중에 몇개를 요약정리 해본다.

FROM BIG DATA TO ACTIONABLE ANALYTICS

Everyplay는 Share replay를 모토로 가진 동영상 녹화 플랫폼 회사이다. 자세히는 모르겠지만, 그러면서 (리플레이 공유와 관련된)사용자의 이벤트를 모으고 분석해주는 역할도 하는것 같다.

이 프레젠테이션의 부제는 Data Preparation의 중요성이다. 프레젠테이션 내용도 그와 관련된 내용이며, data preparation (munging)을 다음과 같이 소개해주고 있다.

알고리즘 또는 데이터 서비스 개발의 전단계로, 확보한 데이터의 원형을 사용하기에 가장 적합한 모습으로 변환시켜 주고 최소한의 품질 보장을 위해 데이터를 깨끗하게 정리해 주는 단계

발표의 내용은

그후에 “문자열의 similarity”를 찾는 방법을 소개하고 그에 따라 회사명 개수를 25%으로 줄이는데 성공했다고 말하고 있다.

그 다음으로 de-duplication에 대해 설명해주면서 near de-duplication 알고리즘에 대해 설명해준다.

마지막으로 음식 데이터의 classification을 하는 여러 알고리즘 기법들을 설명하고 있다.

텍스트 마이닝에 대해 꽤 자세한 접근방법들을 소개해주는 프레젠테이션이어서 앞으로도 몇번은 찾아보게 될 자료 같다.

링크드인에서 일하는 Evion Kim 님이 발표를 하셨다. 목차가

3요소는 1. 큰 데이터 셋, 2. 툴, 3. 방법론이고 2 목표는 A. 이해 (data analytics)와 B. 사용 (data product)라고 정의한다.

목표에 대해서는,

이해 : 기존 데이터를 분석하여 새로운 인사이트를 찾아내는 것
사용 : 추천, 검색, 개인화등 사용자에게 보여지는 제품에 데이터 기반의 알고리즘이 깊이 놀아들게 하는것 (데이터를 통해 유저의 만족을 극대화 하는것)

이라고 깔끔하게 정의내리고 있다.

중요한 방법론을 데이터 사이언스라고 말하는데, 과학적 방법론을 사용한 데이터 사이언스에 대해

가설 설정 - 모델 수립 - 실험 - 입증/반증

이라는 단계를 설명해주고 있다.

내가 모은 데이터를 활용할때 어떻게 해야하는지에 대해 많은 정보를 준 프레젠테이션 이었다.

컴퓨터