본문 바로가기
2020_1학기_알고리즘응용

Week02 Tools for Data Understanding

by 매화of사군자 2020. 6. 2.

Data Science Tool

  • Probability
  • Statistics
  • Linear Algebra

Statistics

- 중심값

  • 평균 : μ
  • 중앙값 : 정렬 후 가운데 값, median
  • 최빈값 : 가장 흔히 나타나는 값, mode

이 값들은 데이터내의 중심적 경향에 대해 설명하고 있다. 하지만 데이터내의 변화에 대해서는 설명할 수 없다.

 

- 변화값

  • 분산 : 데이터들의 변화 정도를 나타내는 값
  • 표준편차 : 중심으로부터 얼마나 떨어져있는지 알려주는 값

Probability

- (사후)확률 : 어떠한 사건이 일어난 경우의 수 / 전체 경우의 수

- (사전)확률 : 어떠한 사건이 일어날 수 있는 면적 / 전체 면적

 

- Conditional Probability : 어떠한 사건이 일어난 후 다른 사건이 일어날 가능성

P( A | B ) : B가 발생한 후 A가 발생할 확률

 

- 확률 분포 : 각 사건에 대해 확률의 분포를 표현한 것

 

우리가 사는 세상은 한없이 넓고 일어나는 사건 또한 수없이 많다. 그렇다면 우리는 어떠한 확률분포를 구하기 위해서 항상 모든 사건을 경험해야할까? NO!!!

---> 특정종류의 데이터의 경우 확률계산 방법을 패턴화 시킬 수 있다.

Ex) 어떠한 농구선수의 몇 번째의 슛 성공 확률

 

- 기하분포

  • 일련의 독립시행
  • 각 시행이 성공할 확률은 항상 동일
  • 첫 번째 성공을 거두기 위해 시도해야 하는 시행의 횟수가 관심사일 때

Linear Algebra

- 과거에는 수학을 어떻게 실생활에 접목을 시키는지에 대해 관심을 가진 반면에 요즘은 실제 데이터들을 어떻게 수학적으로 처리할 수 있는지에 대해 관심을 가진다.

 

Ex)

  • 봉화 : ( 0, 0, 0, 0, 1), (0, 0, 0, 1, 1) ~ (1, 1, 1, 1, 1)
  • 어떠한 색상의 RGB값 : (126, 0, 74)

이러한 정보들을 수학적으로 표현하면 Vector로 표현할 수 있다.

 

실생활에 적용

- 우리가 살아가면서 모든 행동, 사건들을 경험할 수는 없다. 전체 데이터에 대한 결과를 알고 싶다면 샘플 데이터를 살펴본 후 전체 데이터에 대한 결과를 예측해볼수 있다.

  • 기상청의 날씨 예측
  • 운동선수들의 결과 예측

'2020_1학기_알고리즘응용' 카테고리의 다른 글

Week08 Viterbi Search  (0) 2020.06.07
Week07 Representation Learning and Deep Learning  (0) 2020.06.07
Week05 Principal Components Analysis  (0) 2020.06.06
Week04 Clustering  (0) 2020.06.05
Week03 Distance metric  (0) 2020.06.02

댓글