Data Science Tool
- Probability
- Statistics
- Linear Algebra
Statistics
- 중심값
- 평균 : μ
- 중앙값 : 정렬 후 가운데 값, median
- 최빈값 : 가장 흔히 나타나는 값, mode
이 값들은 데이터내의 중심적 경향에 대해 설명하고 있다. 하지만 데이터내의 변화에 대해서는 설명할 수 없다.
- 변화값
- 분산 : 데이터들의 변화 정도를 나타내는 값
- 표준편차 : 중심으로부터 얼마나 떨어져있는지 알려주는 값
Probability
- (사후)확률 : 어떠한 사건이 일어난 경우의 수 / 전체 경우의 수
- (사전)확률 : 어떠한 사건이 일어날 수 있는 면적 / 전체 면적
- Conditional Probability : 어떠한 사건이 일어난 후 다른 사건이 일어날 가능성
P( A | B ) : B가 발생한 후 A가 발생할 확률
- 확률 분포 : 각 사건에 대해 확률의 분포를 표현한 것
우리가 사는 세상은 한없이 넓고 일어나는 사건 또한 수없이 많다. 그렇다면 우리는 어떠한 확률분포를 구하기 위해서 항상 모든 사건을 경험해야할까? NO!!!
---> 특정종류의 데이터의 경우 확률계산 방법을 패턴화 시킬 수 있다.
Ex) 어떠한 농구선수의 몇 번째의 슛 성공 확률
- 기하분포
- 일련의 독립시행
- 각 시행이 성공할 확률은 항상 동일
- 첫 번째 성공을 거두기 위해 시도해야 하는 시행의 횟수가 관심사일 때
Linear Algebra
- 과거에는 수학을 어떻게 실생활에 접목을 시키는지에 대해 관심을 가진 반면에 요즘은 실제 데이터들을 어떻게 수학적으로 처리할 수 있는지에 대해 관심을 가진다.
Ex)
- 봉화 : ( 0, 0, 0, 0, 1), (0, 0, 0, 1, 1) ~ (1, 1, 1, 1, 1)
- 어떠한 색상의 RGB값 : (126, 0, 74)
이러한 정보들을 수학적으로 표현하면 Vector로 표현할 수 있다.
실생활에 적용
- 우리가 살아가면서 모든 행동, 사건들을 경험할 수는 없다. 전체 데이터에 대한 결과를 알고 싶다면 샘플 데이터를 살펴본 후 전체 데이터에 대한 결과를 예측해볼수 있다.
- 기상청의 날씨 예측
- 운동선수들의 결과 예측
'2020_1학기_알고리즘응용' 카테고리의 다른 글
Week08 Viterbi Search (0) | 2020.06.07 |
---|---|
Week07 Representation Learning and Deep Learning (0) | 2020.06.07 |
Week05 Principal Components Analysis (0) | 2020.06.06 |
Week04 Clustering (0) | 2020.06.05 |
Week03 Distance metric (0) | 2020.06.02 |
댓글