본문 바로가기

데이터사이언스/대학원 공부

머신러닝 기초, Probability

AI시스템이 어떻게 돌아가는지에 대한 이유, 모델을 설명할 때 Probability Theory가 사용됨

 

생성형 AI 가 원본과 얼마나 다를까 / 불확실성은 어디서 오는가 -> 확률이론

불확실성을 줄여야 하는 이유 -> 모델을 만들 때(= 룰을 만들 때) 복잡한 모델을 만들때 불확실한

모델을 여러개 만드는 것이 더 좋음

 

새(bird)이미지를 봤을 때, %확률로 난다.

-> 룰이 복잡할 수록 시간, 비용 비싸고 실패할 가능성이 높다, 예외에 약하다

-> 확률적으로 접근하는것이 상대적으로 좋다(degree of belief)

 

확률을 구하기 위해서는 sample space를 구해야함 - 확률이 될 수 있는 element들

사건 -> event

 

사건은 sample space에 포함되어야 한다.(subset)

이제 확률을 정의할 수 있는데 2가지 방법이 있을 수 있음

1. 빈도 - frequentist : 시행을 n번할때 k번 발생 k/n 이 n을 무한대로 보낼 때의 p 를 확률

2. Bayesian probability : 재현 가능성이라기 보다, 믿음의 정도를 표현하는 방법(직관적이지는 않음)

 

probability Distribution - PMF(확률질량함수)

이산적인 값을가지는 X가 어떤 값 x(random variable)를 가질 확률 x~P(X)

당연히 확률변수가 2개일 수도있음 P(X=x,Y=y) or P(x,y)

 

확률질량함수가 가지는 분포를 이산확률분포

 

연속확률변수(Continuous Rv)가 따르는 확률밀도함수 -> 확률이 1이하라는 전제가 사라짐(normalized하면 1이됨)

적분을해서 구하기 때문에 특정값을 가질 확률은 0 임 / 적분의 길이가 0