데이터 마이닝

덤프버전 :


[ 펼치기 · 접기 ]
기반 학문
수학 (해석학 · 이산수학 · 수리논리학 · 선형대수학 · 미적분학 · 미분방정식 · 대수학 (환론 · 범주론) · 정수론) · 이론 컴퓨터 과학 · 암호학 · 전자공학 · 언어학 (형태론 · 통사론 · 의미론 · 화용론 · 음운론) · 인지과학
SoC · CPU · GPU(그래픽 카드 · GPGPU) · ROM · RAM · SSD · HDD · 참조: 틀:컴퓨터 부품
기술
기계어 · 어셈블리어 · C(C++ · C\#) · Java · Python · BIOS · 절차적 프로그래밍 · 객체 지향 프로그래밍(디자인 패턴) · 해킹 · ROT13 · OTP · IoT · 와이파이 · GPS · 임베디드 · 인공신경망 · OpenGL · EXIF · 마이크로아키텍처 · ACPI · UEFI · NERF · gRPC · 리버스 엔지니어링 · HCI · UI · UX · 대역폭 · DBMS · NoSQL · 해시(SHA · 브루트 포스 · 레인보우 테이블 · salt · 암호화폐) · RSA 암호화
연구및 기타 문서
논리 회로(보수기 · 가산기 · 논리 연산 · 불 대수 · 플립플롭) · 정보이론 · 임베디드 시스템 · 디자인 패턴 · 데이터베이스 · 프로그래밍 언어{컴파일러(어셈블러 · JIT) · 인터프리터 · 유형 이론} · 메타데이터 · 기계학습 · 빅데이터 · 폰노이만 구조 · 양자컴퓨터 · 행위자 모델 · 인코딩(유니코드 · MBCS) · 네트워크 · 컴퓨터 보안 · OCR · 슈퍼컴퓨터 · 튜링 머신 · FPGA · 딥러닝 · 컴퓨터 구조론 · 컴퓨터 비전 · 컴퓨터 그래픽스 · 인공지능 · 시간 복잡도(최적화) · 소프트웨어 개발 방법론 · 정보처리이론 · 재귀 이론 · 자연 언어 처리(기계 번역 · 음성인식)
}}}


Data Mining

1. 개요
2. Operation
3. 주된 기술
4. 학부 교과목으로서
5. 데이터 마이닝 소프트웨어
6. 관련 문서

"데이터 과학자는 21세기 들어 가장 섹시한 직업을 가진 사람들이다."

- 하버드 비즈니스 리뷰, 2012


1. 개요[편집]


데이터베이스 속에서 의미있으면서 유용하고 가치있는 정보를 찾아내는 인간행동이다. 학문적으로 엄밀하게는 이 인간행동 중에서도 부분적인 과정만을 일컫지만 일상생활에서는 모든 과정을 일컫는다. 이런 과정을 지식발굴과정(KDD)이라고 부른다.

2016년 알파고 이후 산업공학과의 데이터마이닝 쪽 랩들은 들어가기 매우 힘들어졌다. 랩 인턴을 안 하면 합격이 어려울 정도가 되었다. 심지어 랩 인턴도 학점에 면접까지 보는 경우가 많다.


2. Operation[편집]


  • Classification
  • Clustering 군집 분석: 인간에 의해서 해답이 제공되지 않고 알고리즘 자체에 의해 그룹이 만들어지는 기법.
  • Association 연관 규칙: 어떤 항목이 어떤 항목과 연관되는가?
  • Visualization 데이터 시각화: 인간이 알아볼 수 있는 형태로 표시
  • Prediction
  • Summarization


3. 주된 기술[편집]


  • Neural Network 인공신경망
  • Genetic Algorithm 유전 알고리즘
  • Decision Tree 의사결정나무: 가장 인기있는 데이터 마이닝 툴로서 여러가지 옵션과 그들 옵션을 선택할 때의 결과를 체계적으로 제시하는 방법론이다.
  • Case Based Reasoning 사례기반추론
  • Discriminant Analysis 판별 분석
  • Regression 회귀분석
  • Association
  • K-Means


4. 학부 교과목으로서[편집]


고려대 산업공학과에서는 교재로 "Shmueli, G., Patel, N.R., Bruce, P. C. (2010). Data Mining for Business Intelligence: Concepts, Techniques, and Applications in Microsoft Office Excel with XLMiner, Wiley"을 사용하고 있다. 동국대학교 통계학과에서는 교재로 "R을 이용한 데이터 마이닝, 박창이, 김진석'을 사용하고 있다.

이 과목을 수강하려면 통계학개론, 회귀분석에 대한 지식이 요구된다. 또 사용하는 툴에 대한 지식이 요구된다. (R언어, SAS 등)

kNN, 의사결정나무, 신경망, 군집분석 등에 대해서는 기계학습 항목도 참조.

  • 소개
  • 데이터 전처리
  • EDA (Exploratory Data Analysis): 데이터에 대한 기본적인 영감을 얻는데 필요한 방법론.
  • 감독학습
    • K-Nearest Neighbor 알고리즘
    • 의사결정나무
    • 신경망, 회귀분석, 로지스틱회귀, 앙상블모형, 변수선택 및 모형선택, ...
  • 비감독학습
    • 군집 분석, 연관 규칙, ...
  • 모델 평가 기법: 다양한 데이터 마이닝 모델을 평가하는 방법론


5. 데이터 마이닝 소프트웨어[편집]


빅 데이터 프로세싱 문서 참조.


6. 관련 문서[편집]




7. 온라인 게임에서[편집]


게이머들에겐 온라인 서비스를 하는 게임의 클라이언트를 뜯어 이런저런 비공개 정보를 찾아내는 걸 칭할 때 해당 용어를 쓴다. 보통 PC 게임의 경우 '클뜯', 모바일 게임의 경우 '앱뜯'이라고 부른다.

해외 게이머들에겐 '(게임 이름) leak' 이라고도 불린다. 보통 게임 클라이언트를 업데이트 할 때 이런저런 정보를 추가하나 해당 사항이 공개되는 건 일정 기간 후일 경우가 많은데, 해당 작업을 통해 유저들이 미리 예상을 하거나 유저들이 개발사보다 먼저 선공개를 해버리는 것이다.

예를 들어 신규 스킨의 내용이나 신규 이벤트, 확률 등의 내용 등이 있다.

대부분의 게임사에서 약관으로 데이터 마이닝을 금지하고는 있지만 클라이언트 변조가 아닌 단순히 뜯어보는 행위는 기본적으로 팬심에서 나오는 것이기에 제재를 가하지 않는 경우가 대부분이다. 나무위키의 게임 관련 항목들에 첨부된 이미지들도 대부분 클라이언트를 뜯어서 얻어낸 것들이다. 인 게임 화면 스크린샷으로는 깔끔하게 이미지를 분리해낼 수 없기 때문. 경우에 따라 유저들이 클뜯을 할 것을 염두에 두어서 의도적으로 떡밥을 심어두기도 한다.

야겜에서 CG 짤만 빼가는 경우도 있다.
파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-11-23 05:00:09에 나무위키 데이터 마이닝 문서에서 가져왔습니다.