๐ก ๋ณธ ๋ฌธ์๋ '[ML] ์ ๋ณด์ด๋ก : Entropy, KL Divergence, Mutual Information(MI)'์ ๋ํด ์ ๋ฆฌํด๋์ ๊ธ์ ๋๋ค.
~~~์ ๋ฆฌํ์์ผ๋ ์ฐธ๊ณ ํ์๊ธฐ ๋ฐ๋๋๋ค.
1. Entropy
์ํธ๋กํผ๋ ๋ถํ์ค์ฑ์ ์๋ฏธํ๋ค. ๊ณผํ์์ ์ฐ์ด๋ ์ํธ๋กํผ๋ฅผ ๋ณด๋ฉด ๋์ผํ ๋ถํผ์์ ๊ณ ์ฒด์ ์ํธ๋กํผ๋ ๋ฎ๊ณ ๊ธฐ์ฒด์ ์ํธ๋กํผ๋ ๋์ผ๋ฉฐ, ๋ฎ์ ๊ณณ์์ ๋์ ๊ณณ์ผ๋ก ํ๋ฅด๋ ์ฑ์ง์ด ์๋ค. ๋จธ์ ๋ฌ๋์ ์ํ ์ํ์์๋ ์ํธ๋กํผ๋ ๊ฐ์ ์๋ฏธ๋ก ์ฐ์ธ๋ค. ๋ชจ๋ธ์ ํ์ตํ๋ ๊ฒ์ ๊ฒฐ๊ตญ ํ๋ฅ ์ ๋ชจ๋ธ๋งํ๋ ๊ฒ์ด ๋๋๋ฐ, ํด๋น ๋ถํฌ๊ฐ ๋ถํ์คํ ์๋ก ์ํธ๋กํผ๋ ๋์์ง๋ค.
์๋ฅผ ๋ค์ด ์ด๋ค X๊ฐ ์๋๋ฐ, ์ด X๋ ์ด๋ก์ฌ๊ณผ(X=0)์ธ์ง ๋นจ๊ฐ์ฌ๊ณผ(X=1)์ธ์ง์ ๋ํ ์ ๋ณด๋ฅผ ๊ฐ๊ณ ์๋ ํ๋ฅ ๋ถํฌ๋ผ๊ณ ์๊ฐํด ๋ณด์. ์ฒซ ๋ฒ์งธ๋ก X1๋ฅผ 6๊ฐ์ ์์๋ก ์ด๋ฃจ์ด์ง ์งํฉ์ด๋ผ ์๊ฐํด ๋ณด์. X1 = {0,0,0,1,1,1}๋ก ๋นจ๊ฐ ์ฌ๊ณผ 3๊ฐ, ์ด๋ก์ฌ๊ณผ 3๊ฐ๊ฐ ๋ค์ด์์ผ๋ฏ๋ก ์ด X1๋ฅผ '์ด ์น๊ตฌ๋ ํน์ ํ ์์ ์ง๋ ์ฌ๊ณผ์ ์งํฉ์ด์ผ!'๋ผ๊ณ ๋งํ๊ธฐ๋ ๋ถํ์คํ๋ค. ๋ถํ์คํ๊ธฐ ๋๋ฌธ์ ์ํธ๋กํผ๊ฐ ๋๋ค๋ ์๋ฏธ๋ค. ๋ฐ๋๋ก X2= {1,1,1,1,1,0}์ผ๋ก ๋นจ๊ฐ ์ฌ๊ณผ 5๊ฐ์ ์ด๋ก์ฌ๊ณผ 1๊ฐ๋ก ์ด๋ฃจ์ด์ก๋ค๋ฉด, ์ด X๋ ๋นจ๊ฐ ์ฌ๊ณผ์ ์งํฉ์ผ ํ๋ฅ ์ด ๋์์ง๋ค. ์ฆ ์ํธ๋กํผ๊ฐ ๋๋ค๋ ๊ฒ์ ํด๋น ํ๋ฅ ๋ถํฌ๋ก ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๊ธฐ ์ด๋ ต๋ค๋ ๊ฒ์ด๋ค.
์ด๋ ๋ฏ X์ ํ๋ฅ ๋ถํฌ๊ฐ ๋น์ท๋น์ทํด์ ๋ถํ์ค์ฑ์ด ๋๋ค๋ฉด ์ํธ๋กํผ(H)๊ฐ ๋๊ณ , ๋ฐ๋์ผ ๊ฒฝ์ฐ๋ H๊ฐ ๋ฎ๋ค. ์ด๋ฅผ ์์์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
์ํธ๋กํผ๋ฅผ ๋ค๋ฅธ ์์ผ๋ก๋ ์ ๋ํด ์๊ฐํ ์ ์๋๋ฐ, ๊ทธ ๋ฐฉ๋ฒ์ source-code theory๋ค. ๋ถํฌ X3๊ฐ ์๋๋ฐ, ์ด ๋ถํฌ๋ฅผ ์์ถํ๊ณ ์ถ๋ค๊ณ ํ์. X3= {1,1,1,1,1,1}๋ผ๋ฉด X3์ ์์ X1, X2๋ฅผ ์์ถํ๋ ๊ฒ ๋ณด๋จ ์ฌ์ธ ๊ฒ์ด๋ค. ๊ต์ฅํ ๋จ์ํ๊ฒ X3์ ์์ถํ๋ค๋ฉด "'1'์ด '6'๊ฐ" ๋ผ๋ ์ ๋ณด๋ฅผ ๋ด์์ผ ํ ๊ฒ์ด๋ค. ๋ฐ๋ฉด X1์ "'0'์ด '3'๊ฐ, '1'์ด '3'๊ฐ"๋ผ๋ ์ ๋ณด๋ก ์์ถํด์ผ ํ๋ค. X3์ ์์ถํ๋ ๊ฒ ๋ ์ฌ์ ๋ณด์ธ๋ค. ์ค์ ๋ก H(X3) = 0 ์ผ๋ก ์ํธ๋กํผ ๊ฐ์ด ์๋ค.
Cross Entropy (CE)
์์์ X์ ์ํธ๋กํผ H(X)๋ฅผ ๊ตฌํด๋ณด์๋ค. ์ด๋ฒ์๋ 2๊ฐ ํ๋ฅ ๋ถํฌ์ ์ํธ๋กํผ๋ฅผ ํตํด, ๋นจ๊ฐ์ฌ๊ณผ๋ฅผ ๋นจ๊ฐ ์ฌ๊ณผ๋ก ์์ธกํ๋์ง๋ฅผ ๋ณผ ๊ฒ์ด๋ค. ์ด๋ฒ์ X์ 6๊ฐ๊ฐ ์๋ ๋จ 1๊ฐ์ ์ฌ๊ณผ๊ฐ ์๋ค. ์ฌ๊ณผ๋ 90%์ ๋ ๋นจ๊ฐ ์๊น์ด๋ฉฐ 10%์ ๋๋ ์ด๋ก ๋น๊น์ด ๋๋ ์ฌ๊ณผ๋ก, p = {0.9, 0.1}๋ก ์ ์ํ๋ค. ์ด๋ค์ด ๋นจ๊ฐ ์ฌ๊ณผ์ธ์ง ์์ธกํ ๊ฒฐ๊ณผ๋ q1, q2๋ก ๋ํ๋ธ๋ค. q1๋ ์ฌ๊ณผ๊ฐ 30%์ ๋๋ก ๋นจ๊ฐ ์ฌ๊ณผ์ผ ๊ฒ์ด๋ผ ์์ธกํ๋ค. q2๋ 80% ๋นจ๊ฐ ์ฌ๊ณผ์ผ ๊ฒ์ด๋ผ ์์ธกํ๋ค.(q2์ ์์ธก๊ฒฐ๊ณผ๊ฐ ๋ ์ ํํ๋ค.) ์ด์ q1, q2์ ์ํธ๋กํผ๋ฅผ p์ ํจ๊ป ๋ํ๋ด๋ณด์.
q2์ ์์ธก ๊ฒฐ๊ณผ๊ฐ ๋ ์ ํํ์ผ๋ฉฐ, ์ด๋์ cross entropy๋ q1๋ณด๋ค ์๋ค. CE ์์์ ์๋์ ๊ฐ๋ค. p๊ฐ ์ค์ ๊ฐ, q๊ฐ ์์ธก๊ฐ์์ ์๊ฐํ๋ฉด ๋ฅ๋ฌ๋์์์ cross entropy loss๋ฅผ ์๋ฏธํจ์ ์ ์ ์๋ค. ์์๋ฅผ ์ด์ด์ ์ค๋ช ํ๋ฉด H(p,q1)์ p๋ฅผ ์์ถํ๋ ์๋ฏธ๋ก๋ ํด์ํ ์ ์๋ค. ์์ธก๋ถํฌ q1๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ ๋ p์ ๋ถํฌ๋ฅผ ์๊ณ ์ถ์ ๋ ์ ์ด๋ ์ด๋ ์ ๋(source coding theory์์์ bit)๋ฅผ ๋ด์ผ ์ ์ ์๋๋ ์๋ฏธ๋ค. ์์ถ์ ์ํด ๋ด์ผํ bit๊ฐ ๋ง๋ค(cross entropy๊ฐ ๋๋ค)๋ ๋ป์ ๊ทธ๋งํผ ์์ถํ๊ธฐ ์ด๋ ค์ฐ๋ฉฐ p์ q์ ๋ถํฌ๊ฐ ์์ดํ๋ค๋ ๋ป์ด๋ค.
์ค๋ ๋ ์์๋ ๋นจ๊ฐ์ฌ๊ณผ์ธ์ง ์๋์ง(์ด๋ก์ฌ๊ณผ์ธ์ง)๋ฅผ ๋ํ๋ด๋ ์ด์ง ๋ถ๋ฅ(binary classification)์ผ๋ก ๊ฐ์ฃผํ ์ ์๋๋ฐ, bernoulli ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ logistic regression์์์ likelihood์ -๋ฅผ ๊ณฑํ ๊ฐ๊ณผ ๋์ผํจ์ ์ ์ ์๋ค. ์ฆ, binary cross entropy๋ NLL(Negative Log Likelihood)์ ์์์ ์ผ๋ก ๋์ผํ๋ค.
๊ธฐํ ์ํธ๋กํผ
Joint Entropy
Joint Entropy๋ x, y๊ฐ ๋์์ ์ผ์ด๋ ํ๋ฅ ์ ์ํธ๋กํผ๋ก ๋ํ๋ธ ๊ฐ์ด๋ค. ์ํธ๋กํผ๋ x์ ๋ฌด์ง์ํจ์ ํ์ธํ๋ค๊ณ ํ๋ค๋ฉด, joint entropy๋ ๋์์ ๋ฐ์ํ๋ x, y์ ๋ฌด์ง์ํจ์ ํ์ธํ๋ค. ๋ฐ๋ผ์ ์์์ ๊ธฐ๋ณธ ์ํธ๋กํผ ์์์ p(x)๋ฅผ p(x,y)๋ก ๋์ฒดํ ๊ฒ๊ณผ ๊ฐ๋ค.
x,y๊ฐ ๋์์ ์ผ์ด๋ ๋์ ์ํธ๋กํผ์ด๊ธฐ ๋๋ฌธ์ H(x,y)๋ ๊ฐ๊ฐ์ ์ํธ๋กํผ๋ฅผ ๋ํ ๊ฐ๋ณด๋ค ํด ์ ์๋ค(H(X,Y) <= H(X) + H(Y)). ๋ฐ๋ผ์ ํ๋ฅ ๋ถํฌ๋ฅผ ์๋๋ค๊ณ ํด์ ์ํธ๋กํผ๋ฅผ ๋ ํค์ธ ์๋ ์๋ค.
Conditional Entropy
์ด๋ฒ์๋ ์ํธ๋กํผ๋ ๋ฒ ์ด์์(ex. p(x|y) = p(x,y)/p(y))์ฒ๋ผ ์์ ๋ณํ์ํฌ ์ ์์์ ํ์ธํด ๋ณผ ๊ฒ์ด๋ค. ์กฐ๊ฑด๋ถ ์ํธ๋กํผ๋ X๊ฐ ์ฃผ์ด์ก์ ๋์ Y์ ๋ํ ๊ฐ์ ๊ตฌํ๋ค. X ๊ธฐ๋ฐ์ด๊ธฐ ๋๋ฌธ์ ์ด๋ P(X)์ ๋ํด p(Y|X)์ ์ํธ๋กํผ๋ฅผ ๊ตฌํ๋ ๊ฒ๊ณผ ๊ฐ๋ค.
์์ ์ ๊ฐํ ๊ฒฐ๊ณผ H(Y|X) = H(X,Y) - H(X), ์ฆ H(X,Y) = H(Y|X) + H(X)์์ ๋์ถํ๋ค. ์ฌ๊ธฐ์ X= X1, Y = X2๋ฅผ ๋์ ํด ๋ณด๋ฉด H(X1,X2) = H(X2|X1) + H(X1)๋ก, chain rule์ด ์ํธ๋กํผ์๋ ์ ์ฉ๋จ์ ์ ์ ์๋ค!
chain rule of joint entropy
chain rule์ ํตํ joint entropy๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌํ ์ ์๋ค.
2. KL Divergence
์๋ก ๋ค๋ฅธ ๋ถํฌ p์ q๊ฐ ์์ ๋ ์ด ๋์ด ์ผ๋ง๋ ์ ์ฌํ์ง๋ฅผ ์ฌ๊ธฐ ์ํด์ ์ผ๋ฐ์ ์ผ๋ก L1, L2, mahalanobis ๋ฑ์ distance๋ฅผ ์ธก์ ํ๊ณ ๋ ํ๋ค. ์ํธ๋กํผ๋ฅผ ์ด์ฉํด์๋ p์ q์ ์ ์ฌ์ฑ์ ์ธก์ ํ ์ ์๋ค. KL (Kullback-Leibler) Divergence๋ p์ q ๊ฐ์ ์ํธ๋กํผ๋ฅผ ์ธก์ ํ์ฌ, p์ q์ ๋ถํฌ๊ฐ ๋์ผํ ์๋ก 0์ ๊ฐ๊น์์ง๊ณ ๊ทธ๋ ์ง ์์์๋ก 1์ ๊ฐ๊น์์ง๋ค. ์์์ ๋ค์๊ณผ ๊ฐ๋ค.
์์์์ ์ฒซ๋ฒ์งธ ํญ์ p์ ์ํธ๋กํผ -H(p)๋ฅผ, ๋ ๋ฒ์งธ ํญ์ p,q์ ํฌ๋ก์ค ์ํธ๋กํผ -H(p,q)๋ฅผ ์๋ฏธํจ์ ์ ์ ์๋ค. ํฌ๋ก์ค ์ํธ๋กํผ๋ q ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ p์ ๋ฐ์ดํฐ๋ฅผ ์์ถํ ๋์ lower bound๋ฅผ ์๋ฏธํ์๋ค.
KL(p||q)์ ๊ฐ์ ํญ์ 0๋ณด๋ค ์๊ฑฐ๋ ๊ฐ์๋ฐ, ์ํธ๋กํผ๊ฐ log ํจ์๋ก ์ด๋ฃจ์ด์ ธ์์์ ์๊ฐํ๋ค๋ฉด ๋น์ฐํ ๊ฒฐ๊ณผ๋ค. log๋ ๋ณผ๋กํจ์๊ธฐ ๋๋ฌธ์ Jensens Inequality๋ฅผ ํตํด ∑(๋๋ E(ํ๊ท ))ํ๋ฉด ∑(log(x)) <= log(∑(x))๋ฅผ ํญ์ ๋ง์กฑํ๋ค. ์ด๋ฅผ ํตํด ์์์ ์ ๊ฐํ๋ฉด -KL(p||q)๊ฐ ํญ์ 0๋ณด๋ค ์๊ฑฐ๋ ๊ฐ์์ ์๋์ ๊ฐ์ด ์ ์ ์๋ค.
KL Divergence & MLE
p๊ฐ ์ ํด์ง ๋ถํฌ๊ณ ์ด์ ์ ์ฌํ q๋ฅผ ์ฐพ๊ณ ์๋ค ๊ฐ์ ํด ๋ณด์. ๊ทธ๋ฌ๋ฉด ์ฐ๋ฆฌ๋ KL(p||q)๊ฐ ์ต๋ํ ์์ q๋ฅผ ๊ตฌํ๋ ๊ฒ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ค.
์ด๋ ์ฒซ๋ฒ์งธ ํญ์ธ p(x)logp(x) dx ๋ ์์๋ก ์ทจ๊ธํ ์ ์๋ค. p๊ฐ q์ ๋ฐ๋ผ ๋ณํ์ง ์๋, ์ ํด์ง ๋ถํฌ์ด๊ธฐ ๋๋ฌธ์ ํด๋น๊ฐ์ ๋ณํ์ง ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ฌ๊ธฐ์ p์ ๋ถํฌ๊ฐ ์ ํ์ ๋ถํฌ๋ผ delta function ๊ธฐ๋ฐ์ด๋ผ๋ฉด(๊ฐ์ ๊ฐ์ง ์ง์ ์์ ํ! ํ๋ ๋ถํฌ๋ฅผ ๊ฐ์ง๊ณ ๋๋จธ์ง ์ง์ ์์ 0 ์ธ ๋ถํฌ๋ฅผ ์๊ฐํด๋ณด์), ์์ ์๋์ ๊ฐ์ด ์กฐ๊ธ ๋ ์ ๋ฆฌ๊ฐ ๋๋ค.
์ฌ๊ธฐ์ ์ ์ ์๋ ์ ์ KL(p||q)๋ฅผ minimizeํ๋ ๊ฒ์ด Likelihood(==logq(x))๋ฅผ maximizeํ๋ ๊ฒ๊ณผ ๋์ผํ๋ค๋ ๊ฒ์ด๋ค. ํ์ง๋ง ๋๋ถ๋ถ์ ์ํฉ์์ ์ ๋ต์ผ๋ก ๊ฐ์ฃผํ ์ ํด์ง ๋ถํฌ q๊ฐ ์ ํ์ ๋ถํฌ๋ฅผ ์ง์ง ๋ถํฌ๋ก ๊ฐ๊ณ ์์ง ์์ ๊ฒ์ด๋ค. (์ ๋ต ๋ถํฌ๊ฐ ํน์ ์ง์ ์์๋ง ์คํ์ดํฌ๋ก ํ๋ ๋ถํฌ๊ณ ๋๋จธ์ง๊ฐ 0 ์ธ๊ฑด ์ด์ํ๊ธด ํ๋ค.) ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ์ปค๋์ ์ฐ๋ ๋ฐฉ๋ฒ, data augmentation ๋ฑ์ ์ฐ๋ ๊ฒ์ด๋ค.
Forward vs Reverse KL
์ด๋ฒ์๋ KL(p||q)์ KL(q||p)์ ๋ถํฌ์ ๋ํด์ ์๊ฐํด๋ณด์. ์ฒซ ๋ฒ์งธ๋ forward KL์ธ KL(p||q)๋ค. KL divergence๋ 0์ ๊ฐ๊น์ธ์๋ก p์ q์ ๋ถํฌ๊ฐ ์ ์ฌํ๋ฏ๋ก ์ด ์์์์๋ q๋ฅผ ํตํด KL์ minimize ํ๋ ๊ฒ์ด ๋ชฉํ๊ฐ ๋๋ค. ๋ง์ฝ q(x)๊ฐ 0์ด๋ผ๋ฉด ์ด๋จ๊น? ๊ทธ๋ฌ๋ฉด log p/q ํญ์ด inf๋ก ๊ฐ๋ฉฐ KL(p||q)์ ๊ฐ์ ๋ฌดํ์ผ๋ก ์ปค์ง ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ฉด q๋ 0๋ณด๋ค๋ ์ปค์ผ ํ๋ ์ ์ฝ์ ์ค์ผ ํจ์ ์ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ q๋ ๋ถ๋ชจ์ ์์น์ ์์ผ๋ฏ๋ก ๋ถ์ p๋ฅผ ํฌํจํ๋ ๋ถํฌ๋ก ๊ฐ๋ ค๋ ๊ฒฝํฅ์ด ์๊ธด๋ค.
๋ฐ๋๋ก reverse KL KL(q||p)๋ ์ด๋ป๊ฒ ํด์ํ ์ ์์๊น? q๋ฅผ ์กฐ์ ํ์ฌ KL๊ฐ์ minimizeํ๋ ๊ฒ์ ์ฌ์ ํ ๊ฐ์ ๋ชฉํ๋ค. log p/q๊ฐ์ด ๋ฌดํ๋๋ก ํ์ง ์๊ฒ ํ๊ธฐ ์ํด ์ด๋ฒ์ p(x)๊ฐ 0๋ง ์๋๋ฉด ๋๋ค. p(x) > 0์ ๋ง์กฑํ๋ฉฐ q๊ฐ ์์์๋ก KL ๊ฐ์ ์ค์ด๋ค๊ฒ ๋๋ค. forward KL๊ณผ๋ ๋ฐ๋๋ก, q๋ p๋ฅผ ํฌํจํ๋ ๋ถํฌ๋ก ๊ฐ์ง ์์๋ KL์ ์๊ฒ ๋ง๋ค ์ ์๋ค. ELBO๋ฅผ ๊ตฌํ ๋ ์ ๊ฐ์ด KL divergnece๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ์์ KL์ ์ด reverse KL์ ์ฌ์ฉํ๊ณค ํ๋ค.
์ค์ ๋ถํฌ p๊ฐ bimodal์ผ ๋ forward์ reverse KL๋ก q๊ฐ ์ด๋ค ๋ถํฌ๋ฅผ ๋ฐ๋ผ๊ฐ๋์ง ์๋ ๊ทธ๋ฆผ์ ํตํด ํ์ฐํ ํ์ธ๊ฐ๋ฅํ๋ค. (a)๊ฐ forward KL, (b),(c)๊ฐ reverse KL์ผ ๋๋ก ๋นจ๊ฐ์์ด q์ ๋ถํฌ๋ฅผ ๋ํ๋ด๊ณ ์๋ค.
3. Mutual Information
์ง๋ ๊ธ์์ KL-divergence๋ p์ q๊ฐ ์ผ๋ง๋ ์ ์ฌํ์ง๋ฅผ ํ๋จํ ์ ์๋ ์ฒ๋์๋ค. 0 ์ผ์๋ก ์ ์ฌํ๊ณ ๊ฐ์ด ํด์๋ก ์ ์ฌํ์ง ์์์ ์ ์ ์์๋ค. Mutual Information(MI)๋ p์ q์ ์ ์ฌํจ๋ณด๋ค๋, ๋์ ์์กด์ฑ์ ๋ํด ์ ์ ์๋ค. ๋ ๋ณ์ x์ y์ MI๋ I(x;y)๋ก ๋ํ๋ด๋๋ฐ ์ด๋ฅผ ํตํด x์ y๊ฐ ์ผ๋ง๋ dependent ํ ์ง๋ฅผ ๊ตฌํ ์ ์๋ค.
x์ y์ dependency๋ฅผ ๋ณด๊ณ ์ถ๊ธฐ ๋๋ฌธ์ x๊ณผ y์ joint probability P(x,y)๋ฅผ ํตํด P(x), P(y)์์ ์ ์ฌํจ์ ๋ํ๋ด๋ ์์ ๊ทธ๋ฆด ์ ์๋ค. ์ ์ฌ์ฑ์ ๋ณด๊ธฐ ์ํด์ ์ฐ๋ฆฌ๋ KL Divergence๋ฅผ ์ด์ฉํ ์ ์์์ ์๊ณ ์๋ค. ์ด๋ฒ์๋ ์ ์ฉํด ๋ณด์.
์๋์ ๋ฐด๋ค์ด์ด๊ทธ๋จ์ ํตํด ์ ์ฌ์ฑ์ ๋ณด๋ ค๋ฉด p(x,y)๊ฐ p(x)p(y)์ ๋ฉ์ด์ง์๋ก ์ข์์ ์ ์ ์๋ค.
x์ y๊ฐ dependent ํ ์๋ก P(x,y)๊ฐ P(x)P(y)์ ๋์ฑ ์ ์ฌํด์ง ๊ฒ์ด๋ค. ๋ฐ๋ผ์ MI๊ฐ ์์์๋ก x์ y๋ independentํ๋ค.
์๋ ์ํธ๋กํผ์ ๋ํ ๋ฒค๋ค์ด์ด๊ทธ๋จ์ ๋ดค์ ๋ X์ ์ํธ๋กํผ์ Y์ ์ํธ๋กํผ์ ๊ต์งํฉ์ด MI์ ํด๋นํ๋ ๊ฒ์ ์ ์ ์๋ค.
(์ง๋ ๋ด์ฉ์ recapํด๋ณด์. )
- Entropy H(X) = - ∑p(x) log p(x)
- Joint Entropy H(X,Y) = - ∑ p(x,y) log p (x,y)
- Conditional Entropy H(X|Y) = H(X,Y) - H(Y)
์ ๊ทธ๋ฆผ์์ 2๊ฐ์ง MI ์์์ ์ ์ถํ ์ ์๋๋ฐ,
1. MI๋ Entropy(์ฒซ ๋ฒ์งธ ๋ฒค๋ค์ด์ด๊ทธ๋จ) - Joint Entropy(2๋ฒ์งธ ๋ฒค๋ค์ด์ด๊ทธ๋จ)์ผ๋ก ๋ณผ ์ ์๋ค.
$$ I(X;Y) = H(X) + H(Y) - H(X,Y) $$
2. MI๋ ๊ฐ Entropy(X) - Conditional Entropy(X|Y)๋ก๋ ํด์ํ ์ ์๋ค.
$$ I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) $$
Normalized MI
์ง๋ ๊ธ์์ ์ฆ๋ช ํ ์ํธ๋กํผ์ ์ฑ์ง์ ๋ฐ๋ผ H(X,Y) = H(X|Y) + H(Y) = H(Y|X) + H(X)๋ฅผ ์๊ฐํด ๋ณด๋ฉด ์์ ๋ ๋จ์ํด์ง๋ค.
$$ I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) $$
์ ์์ ๋ดค์ ๋ ์ ์ ์๋ ์ ์ I(X;Y)๋ ํญ์ H(X) ๋๋ H(Y)๋ณด๋ค๋ ์์ ๊ฒ์ด๋ ๊ฑฐ๋ค. ์ฆ I(X;Y) <= min(H(X), H(Y))๊ฐ ์ฑ๋ฆฝํ๋ค! ์ด๋ ๊ธฐ ๋๋ฌธ์ ๋ง์ฝ I(X;Y)๋ฅผ 0~ 1์ฌ์ด๋ก normalize ํ๊ณ ์ถ๋ค๋ฉด min(H(X),H(Y))๋ก ๋๋ ์ฃผ๋ฉด ๋๋ฉฐ, ์ด๋๋ Normalized Mutual Information(NMI)๋ผ๊ณ ์ด๋ค. MI๋ KL divergence ๊ธฐ๋ฐ์ด๊ธฐ ๋๋ฌธ์ ์ด์ฐจํผ 0๋ณด๋ค๋ ํฌ๋ค.
๋ง์ฝ NMI(X;Y)๊ฐ 1์ด๊ณ min(H(X), H(Y)) = H(X)๋ผ๋ฉด, H(X|Y) = 0์ ์๋ฏธํ๋ค. conditional entropy H(X|Y)๊ฐ 0์ด๋ ๋ป์ H(Y)๊ฐ H(X)์ ๋ฌด์กฐ๊ฑด ์ํ๋ ์ํ๋ก๋ ํด์ํ ์ ์๋ค. ๋ฐ๋ผ์ NMI๊ฐ์ด 1์ด๋ ๋ป์ ๋ ๋ณ์ ์ค ํ๋๊ฐ ๋ฌด์กฐ๊ฑด ์๋ ์ํธ๋กํผ์ ํฌํจ๊ด๊ณ์ธ ๊ฒ์ด๋ค.
2. conditional mutual information
์ด๋ฒ์ conditional MI๋ฅผ ํตํด MI์๋ chain rule์ด ์ ์ฉ๋จ์ ๋ณด์ผ ๊ฒ์ด๋ค. ์๋์ ๊ฐ์ด Z๊ฐ ์ฃผ์ด์ก์ ๋์ X์ Y์ MI๋ฅผ ์ ๊ฐํด ๋ณด์.
์ฐ๋ณ์ ํ์ด์จ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
์์ด ์ผ์ถ ์ ๋ฆฌ๊ฐ ๋์์ผ๋ log ๋ฅผ ํ์ด์ entropy H ํํ๋ก ์ ๋ฆฌํด ๋ณด์. conditional prob๋ค์ ๋ค joint๋ก ํ์ด๋๋ค.(์ฑ ๊ณผ๋ ๋ค๋ฅด๊ฒ ํ์๋ค.)
์ด์ ์ด ์์ MI ์์ผ๋ก ๋ฌถ์ด๋ณผ ์ ์๋ค.
๋ฐ๋ผ์ I(X;Y|Z) = I(Y;X,Z) - I(Y;Z) ์์ ๋ณด์๋ค. ๋ง์ฝ ์ ์์์ H(y)๊ฐ ์๋ H(x)๋ฅผ ๋ํ๊ณ ๋บ๋ค๋ฉด ์์ ์ด๋ ๊ฒ๋ ์ ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๋ค.
์ด ์์์ Z์ Z1๋ฅผ, Y์ Z2๋ฅผ ๊ฐ๊ฐ ๋์ ํด ๋ณด๋ฉด chain rule์ด ์ฑ๋ฆฝํ๊ฒ ๊ตฌ๋๋ฅผ ์ ์ ์๋ค. ๋ฐ๋ผ์ ์๋์ ๊ฐ์ด Mutual Infromation์์ Chain rule์ ๊ตฌํ ์ ์๋ค!
3. joint gaussian์ผ ๋
์ด๋ฒ์ ๋ถํฌ x, y๊ฐ join gaussian distribution์ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํด ๋ณธ๋ค. ๊ทธ๋ฌ๋ฉด ๋ ๋ถํฌ์ gaussian์ ์๋์ ๊ฐ์ด ํํ๋๋๋ฐ, ์ด๋ ρ๋ ๋์ ์๊ด๊ณ์๋ค.
์ด๋์ MI(x;y)๋ฅผ ๊ตฌํด๋ณด์. ๋จผ์ ํ๋ฒํ 1 dimension gaussian distribution x์ ์ํธ๋กํผ ์์ ๋ค์๊ณผ ๊ฐ์ผ๋ฉฐ, u๋ ํ๊ท ์ ์๋ฏธํ๋ค.
์ด ์์ σ ์๋ฆฌ์๋ joint distribution์ ๋ถ์ฐ์ด ์๋ฆฌํ๋ฉด ๋๊ธฐ ๋๋ฌธ์, det(∑)๊ฐ ์๋ฆฌํ๊ฒ ๋๋ค. det(A) = ad- bc์์์ ๊ธฐ์ตํ๋ฉด X,Y์ joint entropy h(X,Y)๋ ์๋์ ๊ฐ์ด ์ ๋ฆฌ๋๋ค.
I(X,Y) ๋ H(X) + H(Y) - H(X,Y)์๋ค. ๊ฐ ์๋ฆฌ์ ๋์ ํด ๋ณด์.
์์ด ์ ๋ฆฌ๊ฐ ๋๋ค. ์ด๋ก์จ join gaussian distribution์ธ ๋์ MI๋ ์๊ด๊ณ์ ρ๋ก ์ธํด ์ ํด์ง์ ์ ์ ์๋ค. ์ด์ ρ์๋ฆฌ์ 1, -1, 0์ ๋์ ํด ๋ณด๋ฉฐ MI๊ฐ ์ด๋ป๊ฒ ๋ ์ง ๋ณด์.
- ρ = 1 : I(X,Y)๋ ๋ฌดํ๋๋ก ๊ฐ๋ฉฐ ๋์ joint covariance(∑) ๋ ์์๋ค. ์ด๋ Y๊ฐ X์ ๋ํด ๋ฌดํ๋๋ก ์ ๋ณด๋ฅผ ๊ฐ๊ณ ์์์ ๋ปํ๋ค.
- ρ = 0: I(X,Y)๊ฐ์ด log 1๋ก 0์ด๋ค. ์ฆ X, Y๋ ์ฐ๊ด์ฑ์ด ์ ํ ์๋ค.
- ρ = -1 : I(X,Y)๋ ๋ฌดํ๋๋ก ๊ฐ๋๋ฐ ๋์ ์์ ์๊ด์ฑ, X = -Y๋ฅผ ๋ง์กฑํ ๊ฒ์ด๋ค.
4. MIC
x, y๊ฐ discrete ํ์ง๋, ๊ทธ๋ ๋ค๊ณ gaussian ๊ณผ ๊ฐ์ด ํด์๊ฐ๋ฅํ continuous ๋ถํฌ๋ ์๋ real-valued data (continuous) ๋ผ๋ฉด NMI๋ฅผ ๊ตฌํ๋ ๊ฒ ์กฐ๊ธ ๊น๋ค๋กญ๋ค. ์ด๋ด ๋ continuousํ variable๋ค์ ๊ตฌ๊ฐ๋ณ๋ก ์ชผ๊ฐ์ ๊ตฌํ ์ ์๋ค. ๊ฐ ๊ตฌ๊ฐ๋ณ๋ก information ๊ณ์๋ฅผ ๊ตฌํ ํ ์ด ๊ตฌ๊ฐ๋ค ์ค ๊ฐ์ฅ ํฐ ๊ฐ์ ๊ฐ์ง ๊ณ์๋ฅผ ํํ๋๋ฐ ๊ทธ๋์ ์ด๋ฆ์ด Maximal Information Coefficient(MIC)์ด๋ค.
์์ ๋ณผ ๋ G๋ ๊ฒฉ์๋ก ์๋ฅธ ๊ตฌ๊ฐ์ ์๋ฏธํ๋ค. ๊ตฌ๊ฐ๋ค ๊ฐ๊ฐ MI๋ฅผ ๊ตฌํ๊ณ , ๊ทธ์ค ๊ฐ์ฅ ํฐ MI๋ฅผ ๊ฐ์ง ๊ตฌ๊ฐ์ MI๋ฅผ MIC๋ก ์ ์ํ๊ณ ์๋ค.
MI์ ํน์ง ์ MIC๊ฐ 0์ด๋ผ๋ฉด x, y๊ฐ ์ด๋ค ๊ด๊ณ๋ ์์์(independent), 1์ด๋ผ๋ฉด noise-freeํ ๊ด๊ณ๋ฅผ ๊ฐ์ง์ ์ ์ ์๋ค. ๋ณ์๊ฐ ์๊ด์ฑ์ ๋ณด๋ ๋ฐฉ๋ฒ์ผ๋ก๋ ์๊ด๊ณ์(Correlation Coefficient. corr)๋ ์๋ค. MIC๋ ์๊ด๊ณ์์ ๋ค๋ฅด๊ฒ linearํ ๊ด๊ณ๋ง์ ๋ณด์ง๋ ์๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ corr์ ๊ตฌํ๋ ๋์ MIC๋ฅผ ๋ณด๋ ๊ฒ์ด ์ ์ฉํ ๋๋ ์๋ค. ์๋ฅผ ๋ค์ด ์๋์ ๊ทธ๋ฆผ์์ E,F,G๋ ๊ฐ๊ฐ 2๊ฐ์ ๋ณ์์ ๋ํ ๊ณ์๋ฅผ ๊ตฌํ ์ง์ ์ด๋ค. ๊ฐ๊ฐ ์๊ด๊ณ์๊ฐ 0์ ๊ฐ๊น์ง๋ง MIC๋ฅผ ๋ดค์ ๋ 0.5๋ณด๋ค ํฌ๋ฏ๋ก, ์ ํ์ ์ธ ์๊ด์ฑ์ ์์์ง ๋ชฐ๋ผ๋(corr = 0) ์ค์ ๋ก๋ ์๊ด์ฑ์ด ์๋ค.
5. data processing inequality
์ด๋ค ๋ณ์ X๊ฐ Y๋ผ๋ ํจ์๋ฅผ ํตํด Z๋ก ๋ณํ๋๋ค๋ฉด(X -> Y -> Z), I(X;Y) >= I(X;Z)๊ฐ ์ฑ๋ฆฝํ๋ค. ์ง๊ด์ ์ผ๋ก ๋ณผ ๋ X์ Y์ ์ฐ๊ด์ฑ์ด X์ Z์ ์ฐ๊ด์ฑ๋ณด๋ค๋ ๋์ ๊ฑฐ๋ผ๋ ๊ฒฐ๋ก ์ด ๋์ฌ ์ ์๋๋ฐ, ์ conditional mutual information ์ฆ๋ช ๊ณผ์ ์์ ์กฐ๊ธ ๋ณํํ๋ฉด ์์์ ์ผ๋ก๋ ์ฆ๋ช ํ ์ ์๋ค.
์ฆ๋ช ์ ํด๋ณด์๋ฉด ๋ค์๊ณผ ๊ฐ์ด I(X;Y,Z) = I(X;Z) + I(X;Y|Z)๋ฅผ ๋์ถํ ์ ์๋ค.
์ฌ๊ธฐ์ Z์ Y์ ์๋ฆฌ๋ฅผ ๋ฐ๊พธ๋ฉด I(X;Y,Z) = I(X;Y) + I(X;Z|Y)๋ ์ฑ๋ฆฝํ๋ค.
X์ Z|Y๋ ์ง๊ตํ๋ค๊ณ ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์ I(X; Z|Y) = 0์ผ ๊ฒ์ด๊ณ , I(X;Y|Z)๋ ํญ์ 0๋ณด๋ค ๊ฐ๊ฑฐ๋ ํฌ๊ธฐ ๋๋ฌธ์(KL divergence์ ์ฑ์ง. ํญ์ 0๋ณด๋ค ํฌ๋ค.), I(X;Y) > I(X;Z)๋ก ํํํ ์ ์๊ฒ ๋๋ค!
6. Fano's inequality
MI๊ฐ ๋ ๋ณ์์ ๋ํ ์๊ด์ฑ์ ์ธก์ ํ๊ธฐ ๋๋ฌธ์ feature selection์์๋ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋ ๊ฑฐ๋ค. ํน์ ํผ์ณ X์ ํด๋์ค ๋ผ๋ฒจ Y ๊ฐ์ ์๊ด์ฑ์ ๋ณผ ๋(์ด๋ X๊ฐ ์์ธกํ Y๋ Y^๋ผ๊ณ ํ์), X์ Y์ ์๊ด์ฑ์ด ๋์๋ฐ Y์ ์๋ชป ์์ธกํ ๊ฐ๊ณผ์ ์๊ด์ฑ์ ๋ ๋๊ฒ ๋์ค๋ฉด ์ด๋กํ ๊น?
๋คํํ๋ ์ด๋ฐ ์ผ์ ์๋ค. ์๋ชป ์์ธกํ ๊ฒฝ์ฐ์ ์ํธ๋กํผ๊ฐ ํญ์ ๋ ํฌ๊ธฐ ๋๋ฌธ์ธ๋ฐ, ์ด๋ฅผ fano's inequality๋ผ๊ณ ํ๋ค. ์ง๊ธ๋ถํฐ๋ ์ด๋ฅผ ์ฆ๋ช ํด ๋ณผ ๊ฒ์ด๋ค.
์ ์ - ์ฐ์ ์๋ฌ E๋ ์ค์ ๋ผ๋ฒจ Y์ ์์ธก๊ฐ Y^์ด ๋ค๋ฅผ ๊ฒฝ์ฐ๋ก, ์ด๋์ ํ๋ฅ ์ Pe = P(Y != Y^)๋ผ๊ณ ๋ํ๋ด๊ฒ ๋ค. ์๋ฌ๊ฐ ๋ ํ๋ฅ ์ minimum boundary๋ฅผ H(Y|X) ํตํด ๊ตฌํด๋ณด์. (์ฐธ๊ณ ๋ก ์ฐ๋ฆฌ๊ฐ feature selection์์ ๋์์ง ์๊ณ ์ถ์ MI๋ I(X;Y) = H(Y) - H(Y|X) ๋ก ํํํ ์ ์์๊ธฐ ๋๋ฌธ์ H(Y|X)๊ฐ ๋ฎ์์ง์๋ก I(X;Y)๋ ๋์์ง๋ค. )
1 - ์ฒซ ๋ฒ์งธ๋ก๋ H(Y|X)๊ฐ ์ด๋ค ์๋ฏธ๋ฅผ ๊ฐ์ง๋์ง ์์๋ณด์.
๋จผ์ , ์ํธ๋กํผ๋ ํญ์ 1๋ณด๋ค ๊ฐ๊ฑฐ๋ ์๊ธฐ ๋๋ฌธ์ H(Y|X) <= 1์ด ์ฑ๋ฆฝํ๋ค. ์ฐ๋ณ์ ์์์ธ ๋ฌด์ธ๊ฐ ๋ํ๋ค๊ณ ํด๋ ๋ถ๋ฑํธ๋ ๋ฌ๋ผ์ง์ง ์์ ๊ฒ์ด๋ค. ๊ทธ ๋ฌด์ธ๊ฐ๋ ์ฌ๊ธฐ์ Pe log|Y|๊ฐ ๋๋ค. (|Y|๋ ํด๋์ค๋ผ๋ฒจ ์ข ๋ฅ ์๋ฅผ ์๋ฏธํ๋ค.)
์ฌ๊ธฐ์ Pe์ ๋ํด ์์ ์ ๋ฆฌํด ๋ณด๋ฉด H(Y|X)์ ๋ฐ๋ผ Pe์ ์ต์ boundary๊ฐ ์ง์ ๋จ์ ์ ์ ์๋ค. ๋ฐ๋ผ์ H(Y|X)๊ฐ ๋ฎ์์ง์๋ก, ์ฆ I(X;Y)๊ฐ ์ปค์ง์๋ก ์๋ฌ ํ๋ฅ Pe์ miminum๋ ๋ฎ์์ง๋ค.
2 - ๋ ๋ฒ์งธ๋ก๋ H(Y|Y^) <= H(E) + Pe log|Y|์์ ์ฆ๋ช ํด ๋ณด์. ์ฌ๊ธฐ์๋ H(Y2,Y1|Y0) = H(Y1|Y0) + H(Y2|Y1,Y0)์ธ chain rule์ ์ฌ์ฉํ๋ค.
๋ ๊ฐ๋ฅผ ๋ํ๋ฉด H(Y|Y^) = H(E|Y^) + H(Y|E,Y^)๋ฅผ ๋์ถํ ์ ์๋ค. ์ฌ๊ธฐ์ H(Y|E,Y^)๋ ์๋์ ๊ฐ์ด ์ํ์ ์ด ์๊ธด๋ค.
์ด H(Y|E,Y^)๋ฅผ H(Y|Y^) = H(E|Y^) + H(Y|E,Y^)์ ๋์ ํ๋ฉด ์๋์ ๊ฐ์ด ๋๋๋ฐ, ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์๋ฌ์ ์ํธ๋กํผ๊ฐ X์ Y์ ์ํธ๋กํผ๋ณด๋ค ํฌ๋ค.
3 - ๋ง์ง๋ง์ผ๋ก data processing inequality๋ก ์ธํด I(Y;Y^) <= I(Y;X)์ด๋ค.(Y -> X -> Y^์ธ ์ .) H(Y|X) < H(Y|Y^)๋ ์ฑ๋ฆฝํ๋ค.
์ด๋ก์จ Fano's inequality๋ฅผ ์ฆ๋ช ํ๋ค.
์ค๋์ MI๊ฐ x, y์ dependence๋ฅผ ์ธก์ ํ๋ ๋ฐฉ๋ฒ๋ก ์ผ๋ก KL divergence๋ฅผ ํตํด ์์์ด ์๊ฒจ๋จน์๋ค๋ ๊ฒ์ ์์๋ค. ๊ทธ๋ฆฌ๊ณ NMI, Conditional MI๋ฅผ ํตํ chain rule, ๋ ๋ณ์๊ฐ joint gaussian distribution์ผ ๋ ์ด๋ป๊ฒ MI๊ฐ ์ ๊ฐ๋๊ณ ํด์ํ ์ ์๋์ง๋ฅผ ์์๋ณด์๋ค. MI๊ฐ ๋์ผ๋ฉด dependence๊ฐ ๋์ ๋ณ์์ธ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, feature selection ์์๋ MI๊ฐ ๋์ ๋ณ์๋ฅผ ๊ณ ๋ฅด๋ ๋ฑ ์ฌ์ฉ๋๋ค.
์ง๋ ๊ธ๋ถํฐ ์ค๋ ๊ธ์ ํตํด entropy - KL divergence - MI ๊น์ง ์์ ์ ๋ณตํด ๋ณด์๋ค. (๊ทธ๋ฆฌ๊ณ ์ ๋ง ์์ผ ์ฑ ์ด ์ฉ ์น์ ํ์ง๋ ์๊ตฌ๋๋ฅผ ๋๊ผ๋ค..) ์ฝ๋ก๋์ ๊ฑธ๋ ค์ ์ด๋ฒ์ฃผ๋ ์คํตํ ๋ปํ๋๋ฐ, ์ ๋ฒ์ ์จ๋ ๊ธ์ด ์์ด ์ด๋ฒ์ฃผ๋ ์ด๋ ๊ฒ ์๋ฃํ๋ค.