[[분류:통계학]][[분류:산업공학]][[분류:컴퓨터 공학]] [include(틀:컴퓨터공학)] Data Mining [목차] >"데이터 과학자는 21세기 들어 가장 '''섹시한''' 직업을 가진 사람들이다." >- [[하버드 비즈니스 리뷰]], 2012 == 개요 == [[데이터베이스]] 속에서 의미있으면서 유용하고 가치있는 정보를 찾아내는 인간행동이다. 학문적으로 엄밀하게는 이 인간행동 중에서도 부분적인 과정만을 일컫지만 일상생활에서는 모든 과정을 일컫는다. 이런 과정을 지식발굴과정(KDD)이라고 부른다. 2016년 [[알파고]] 이후 [[산업공학과]]의 데이터마이닝 쪽 랩들은 들어가기 매우 힘들어졌다. 랩 [[인턴]]을 안 하면 합격이 어려울 정도가 되었다. 심지어 랩 인턴도 학점에 면접까지 보는 경우가 많다. == Operation == * Classification * Clustering [[군집 분석]]: 인간에 의해서 해답이 제공되지 않고 알고리즘 자체에 의해 그룹이 만들어지는 기법. * Association 연관 규칙: 어떤 항목이 어떤 항목과 연관되는가? * Visualization 데이터 시각화: 인간이 알아볼 수 있는 형태로 표시 * Prediction * Summarization == 주된 기술 == * Neural Network [[인공신경망]] * Genetic Algorithm [[유전 알고리즘]] * Decision Tree 의사결정나무: 가장 인기있는 데이터 마이닝 툴로서 여러가지 옵션과 그들 옵션을 선택할 때의 결과를 체계적으로 제시하는 방법론이다. * Case Based Reasoning 사례기반추론 * Discriminant Analysis 판별 분석 * Regression [[회귀분석]] * Association * K-Means == 학부 교과목으로서 == 고려대 산업공학과에서는 교재로 "Shmueli, G., Patel, N.R., Bruce, P. C. (2010). Data Mining for Business Intelligence: Concepts, Techniques, and Applications in Microsoft Office Excel with XLMiner, Wiley"을 사용하고 있다. 동국대학교 통계학과에서는 교재로 "R을 이용한 데이터 마이닝, 박창이, 김진석'을 사용하고 있다. 이 과목을 수강하려면 통계학개론, 회귀분석에 대한 지식이 요구된다. 또 사용하는 툴에 대한 지식이 요구된다. ([[R(프로그래밍 언어)|R언어]], [[SAS(통계)|SAS]] 등) kNN, 의사결정나무, 신경망, 군집분석 등에 대해서는 [[기계학습]] 항목도 참조. * 소개 * 데이터 전처리 * EDA (Exploratory Data Analysis): 데이터에 대한 기본적인 영감을 얻는데 필요한 방법론. * 감독학습 * K-Nearest Neighbor 알고리즘 * 의사결정나무 * 신경망, 회귀분석, 로지스틱회귀, 앙상블모형, 변수선택 및 모형선택, ... * 비감독학습 * 군집 분석, 연관 규칙, ... * 모델 평가 기법: 다양한 데이터 마이닝 모델을 평가하는 방법론 == 데이터 마이닝 소프트웨어 == [[빅 데이터 프로세싱#s-4]] 문서 참조. == 관련 문서 == * [[빅 데이터 프로세싱]] * [[통계학]] * [[문헌정보학 관련 정보]] * [[통계 관련 정보]] * [[산업공학]] * [[컴퓨터공학]] * [[경영정보시스템]] * [[기계학습]] * [[지식경영]] == [[온라인 게임]]에서 == 게이머들에겐 온라인 서비스를 하는 게임의 클라이언트를 뜯어 이런저런 비공개 정보를 찾아내는 걸 칭할 때 해당 용어를 쓴다. 보통 PC 게임의 경우 '클뜯', 모바일 게임의 경우 '앱뜯'이라고 부른다. 해외 게이머들에겐 '(게임 이름) leak' 이라고도 불린다. 보통 게임 클라이언트를 업데이트 할 때 이런저런 정보를 추가하나 해당 사항이 공개되는 건 일정 기간 후일 경우가 많은데, 해당 작업을 통해 유저들이 미리 예상을 하거나 유저들이 개발사보다 먼저 선공개를 해버리는 것이다. 예를 들어 신규 스킨의 내용이나 신규 이벤트, 확률 등의 내용 등이 있다. 대부분의 게임사에서 약관으로 데이터 마이닝을 금지하고는 있지만 클라이언트 변조가 아닌 단순히 뜯어보는 행위는 기본적으로 팬심에서 나오는 것이기에 제재를 가하지 않는 경우가 대부분이다. 나무위키의 게임 관련 항목들에 첨부된 이미지들도 대부분 클라이언트를 뜯어서 얻어낸 것들이다. 인 게임 화면 [[스크린샷]]으로는 깔끔하게 이미지를 분리해낼 수 없기 때문. 경우에 따라 유저들이 클뜯을 할 것을 염두에 두어서 의도적으로 떡밥을 심어두기도 한다. --[[에로게|야겜]]에서 CG 짤만 빼가는 경우도 있다.--