최말짱 블로그

연관분석의 지표 본문

데이터청년캠퍼스

연관분석의 지표

최말짱 2022. 7. 8. 02:38
728x90

1. 지지도 support

- 지지도는 발생빈도에 해당, 얼마나 자주 나타나는가를 판단

- 항목집합(item set)이 거래 데이터(transaction)내에서 나타날 확률, 전체 거래 횟수에 대한 해당 항목집합 거래 횟수 비중으로 계산

- 지지도는 확률이므로 값의 범위는 [0,1]

ex. 우유의 support 

- support(x=>y) = Frequency(우유가 나온 횟수)/전체transaction 갯수 N

 

빈발 항목과 연관 규칙 후보 도출

의미 있는 분석을 위해서, 일정 기준 이상 등장하는 항목집합을 분석, 최소 지지도 minimum support를 기준으로 분석 항목 선정

ex. 최소 지지도 0.3 이상일 때의 연관 규칙 후보 

-> 최소 지지도 0.3 이하는 고려하지 않는다. 

 

2. 신뢰도 confidence

- 신뢰도는 조건부 확률에 해당, 연관 규칙의 방향을 판단. P(Y|X)

- 신뢰도가 높을 수록 유의미한 규칙일 가능성이 높다.

- X를 구매했을 때, Y를 구매할 확률

X가 구매될 확률에 대한 X와 Y가 함께 구매 될 확률의 비중으로 계산

- 신뢰도도 확률이므로 값의 범위는 [0,1]

 

Conf(커피=>계란) Conf(계란=>커피) 는 다르다 !!

 

최소 신뢰도 이상의 연관 규칙 선정

최소 지지도를 충족한 연관규칙 중, 최소 신뢰도 minimum confidence를 충족한 연관 규칙을 의미 있는 규칙으로 간주한다. 최소 지지도, 최소 신뢰도는 데이터를 관찰하며 결정한다. 

 

ex.최소 지지도 0.3이상, 최소 지지도 0.7 이상 일 때의 연관 규칙 후보 

 

 

3. 향상도 lift와 레버리지 leverage

 

향상도 - 두 아이템의 연관규칙이 우연인지 아닌지를 나타내는 척도 

 

하나의 항목 X가 다른 항목 Y의 구매를 결정하는데 얼마나 기여하는가를 파악하기 위해서, 독립적으로 Y를 구매한 경우와 비교한다. 

향상도는 비율로, 레버리지는 차로 구한다. 

 

Lift(X=>Y) = Support(X,Y)/Support(X)*Support(Y) = P(X,Y)/P(X)*P(Y)

Leverage(X=>Y) = Support(X,Y)-(Support(X)*Support(Y)) = P(X,Y)-(P(X)*P(Y))

 

Leverage는 출현빈도가 높을때(=Support(X,Y)가 클 때) 상대적으로 유용하다 ! 

 

향상도는 비율이므로 값의 범위는 [0, 무한대], 레버리지는 두 비율의 차이므로 [-1,1]

향상도 = 1, 레버리지 = 0 일 때, 연관규칙은 독립시행과 같아지므로 설명력이 약해진다. 

 

향상도가 1보다 크거나(+) 작으면(-) 우연적이지 않다는 것을 의미.(우수하다!)

4. 확신도 conviction

신뢰도는 X와 Y가 독립적일 경우, 우연에 의해 발생한 관계성을 구분하지 못 한다. 어떤 상품X는, 단순히 판매 빈도가 높아서 함께 자주 구매 되고, 높은 신뢰도의 조건절이 될 수 있다. 이를, 측정하기 위해서 X를 구매하고 Y를 구매하지 않는 경우를, 연관 규칙에 의한 경우와 우연(독립시행)에 의한 경우의 비율을 비교한다. 

범위는 [0, 무한대] 이며, 1보다 큰 값이 바람직하다. (1일 경우 X와 Y는 독립적임)

 

Conviction(X=>Y) = ( 1- Support(Y) ) / ( 1- Confidence(X=>Y) )

 

X를 구매하였으나 Y를 구매하지 않을 확률 P(Not Y|X) = 1-Confidence(X=>Y)

위 사건에서 X와 Y가 독립적일 경우 1- P(Y|X) = 1-P(X)P(Y)/P(Y) = 1-Support(Y)

'데이터청년캠퍼스' 카테고리의 다른 글

군집분석  (0) 2022.07.12
(1-2)빅데이터를 위한 파이썬  (0) 2022.07.09
연관분석의 이론적 배경  (0) 2022.07.07
빅데이터 개념(데청캠 OT)  (0) 2022.07.07
(1-1) 4차 산업혁명과 빅데이터  (0) 2022.07.04