DrawingProcess
๋“œํ”„ DrawingProcess
DrawingProcess
์ „์ฒด ๋ฐฉ๋ฌธ์ž
์˜ค๋Š˜
์–ด์ œ
ยซ   2025/05   ยป
์ผ ์›” ํ™” ์ˆ˜ ๋ชฉ ๊ธˆ ํ† 
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
  • ๋ถ„๋ฅ˜ ์ „์ฒด๋ณด๊ธฐ (964)
    • Profile & Branding (22)
      • Career (15)
    • IT Trends (254)
      • Conference, Faire (Experien.. (31)
      • News (187)
      • Youtube (19)
      • TED (8)
      • Web Page (2)
      • IT: Etc... (6)
    • Contents (97)
      • Book (66)
      • Lecture (31)
    • Project Process (94)
      • Ideation (0)
      • Study Report (34)
      • Challenge & Award (22)
      • 1Day1Process (5)
      • Making (5)
      • KRC-FTC (Team TC(5031, 5048.. (10)
      • GCP (GlobalCitizenProject) (15)
    • Study: ComputerScience(CS) (72)
      • CS: Basic (9)
      • CS: Database(SQL) (5)
      • CS: Network (14)
      • CS: OperatingSystem (3)
      • CS: Linux (39)
      • CS: Etc... (2)
    • Study: Software(SW) (95)
      • SW: Language (29)
      • SW: Algorithms (1)
      • SW: DataStructure & DesignP.. (1)
      • SW: Opensource (15)
      • SW: Error Bug Fix (43)
      • SW: Etc... (6)
    • Study: Artificial Intellige.. (149)
      • AI: Research (1)
      • AI: 2D Vision(Det, Seg, Tra.. (35)
      • AI: 3D Vision (70)
      • AI: MultiModal (3)
      • AI: SLAM (0)
      • AI: Light Weight(LW) (3)
      • AI: Data Pipeline (7)
      • AI: Machine Learning(ML) (1)
    • Study: Robotics(Robot) (33)
      • Robot: ROS(Robot Operating .. (9)
      • Robot: Positioning (8)
      • Robot: Planning & Control (7)
    • Study: DeveloperTools(DevTo.. (83)
      • DevTool: Git (12)
      • DevTool: CMake (13)
      • DevTool: NoSQL(Elastic, Mon.. (25)
      • DevTool: Container (17)
      • DevTool: IDE (11)
      • DevTool: CloudComputing (4)
    • ์ธ์ƒ์„ ์‚ด๋ฉด์„œ (64)
      • ๋‚˜์˜ ์ทจ๋ฏธ๋“ค (7)
      • ๋‚˜์˜ ์ƒ๊ฐ๋“ค (42)
      • ์—ฌํ–‰์„ ๋– ๋‚˜์ž~ (10)
      • ๋ถ„๊ธฐ๋ณ„ ํšŒ๊ณ  (5)

๊ฐœ๋ฐœ์ž ๋ช…์–ธ

โ€œ ๋งค์ฃผ ๋ชฉ์š”์ผ๋งˆ๋‹ค ๋‹น์‹ ์ด ํ•ญ์ƒ ํ•˜๋˜๋Œ€๋กœ ์‹ ๋ฐœ๋ˆ์„ ๋ฌถ์œผ๋ฉด ์‹ ๋ฐœ์ด ํญ๋ฐœํ•œ๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ณด๋ผ.
์ปดํ“จํ„ฐ๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ๋Š” ์ด๋Ÿฐ ์ผ์ด ํ•ญ์ƒ ์ผ์–ด๋‚˜๋Š”๋ฐ๋„ ์•„๋ฌด๋„ ๋ถˆํ‰ํ•  ์ƒ๊ฐ์„ ์•ˆ ํ•œ๋‹ค. โ€

- Jef Raskin

๋งฅ์˜ ์•„๋ฒ„์ง€ - ์• ํ”Œ์ปดํ“จํ„ฐ์˜ ๋งคํ‚จํ† ์‹œ ํ”„๋กœ์ ํŠธ๋ฅผ ์ฃผ๋„

์ธ๊ธฐ ๊ธ€

์ตœ๊ทผ ๊ธ€

์ตœ๊ทผ ๋Œ“๊ธ€

ํ‹ฐ์Šคํ† ๋ฆฌ

hELLO ยท Designed By ์ •์ƒ์šฐ.
DrawingProcess

๋“œํ”„ DrawingProcess

[ML] ์ •๋ณด์ด๋ก : Entropy, KL Divergence, Mutual Information(MI)
Study: Artificial Intelligence(AI)/AI: Machine Learning(ML)

[ML] ์ •๋ณด์ด๋ก : Entropy, KL Divergence, Mutual Information(MI)

2024. 8. 1. 15:04
๋ฐ˜์‘ํ˜•
๐Ÿ’ก ๋ณธ ๋ฌธ์„œ๋Š” '[ML] ์ •๋ณด์ด๋ก : Entropy, KL Divergence, Mutual Information(MI)'์— ๋Œ€ํ•ด ์ •๋ฆฌํ•ด๋†“์€ ๊ธ€์ž…๋‹ˆ๋‹ค.
~~~์ •๋ฆฌํ•˜์˜€์œผ๋‹ˆ ์ฐธ๊ณ ํ•˜์‹œ๊ธฐ ๋ฐ”๋ž๋‹ˆ๋‹ค.

1. Entropy

์—”ํŠธ๋กœํ”ผ๋Š” ๋ถˆํ™•์‹ค์„ฑ์„ ์˜๋ฏธํ•œ๋‹ค. ๊ณผํ•™์—์„œ ์“ฐ์ด๋Š” ์—”ํŠธ๋กœํ”ผ๋ฅผ ๋ณด๋ฉด ๋™์ผํ•œ ๋ถ€ํ”ผ์—์„œ ๊ณ ์ฒด์˜ ์—”ํŠธ๋กœํ”ผ๋Š” ๋‚ฎ๊ณ  ๊ธฐ์ฒด์˜ ์—”ํŠธ๋กœํ”ผ๋Š” ๋†’์œผ๋ฉฐ,  ๋‚ฎ์€ ๊ณณ์—์„œ ๋†’์€ ๊ณณ์œผ๋กœ ํ๋ฅด๋Š” ์„ฑ์งˆ์ด ์žˆ๋‹ค. ๋จธ์‹ ๋Ÿฌ๋‹์„ ์œ„ํ•œ ์ˆ˜ํ•™์—์„œ๋„ ์—”ํŠธ๋กœํ”ผ๋Š” ๊ฐ™์€ ์˜๋ฏธ๋กœ ์“ฐ์ธ๋‹ค. ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ ๊ฒฐ๊ตญ ํ™•๋ฅ ์„ ๋ชจ๋ธ๋งํ•˜๋Š” ๊ฒƒ์ด ๋˜๋Š”๋ฐ, ํ•ด๋‹น ๋ถ„ํฌ๊ฐ€ ๋ถˆํ™•์‹คํ• ์ˆ˜๋ก ์—”ํŠธ๋กœํ”ผ๋Š” ๋†’์•„์ง„๋‹ค. 

์˜ˆ๋ฅผ ๋“ค์–ด ์–ด๋–ค X๊ฐ€ ์žˆ๋Š”๋ฐ, ์ด X๋Š” ์ดˆ๋ก์‚ฌ๊ณผ(X=0)์ธ์ง€ ๋นจ๊ฐ„์‚ฌ๊ณผ(X=1)์ธ์ง€์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๊ฐ–๊ณ  ์žˆ๋Š” ํ™•๋ฅ  ๋ถ„ํฌ๋ผ๊ณ  ์ƒ๊ฐํ•ด ๋ณด์ž. ์ฒซ ๋ฒˆ์งธ๋กœ X1๋ฅผ 6๊ฐœ์˜ ์›์†Œ๋กœ ์ด๋ฃจ์–ด์ง„ ์ง‘ํ•ฉ์ด๋ผ ์ƒ๊ฐํ•ด ๋ณด์ž. X1 = {0,0,0,1,1,1}๋กœ ๋นจ๊ฐ„ ์‚ฌ๊ณผ 3๊ฐœ, ์ดˆ๋ก์‚ฌ๊ณผ 3๊ฐœ๊ฐ€ ๋“ค์–ด์žˆ์œผ๋ฏ€๋กœ ์ด X1๋ฅผ '์ด ์นœ๊ตฌ๋Š” ํŠน์ •ํ•œ ์ƒ‰์„ ์ง€๋‹Œ ์‚ฌ๊ณผ์˜ ์ง‘ํ•ฉ์ด์•ผ!'๋ผ๊ณ  ๋งํ•˜๊ธฐ๋Š” ๋ถˆํ™•์‹คํ•˜๋‹ค. ๋ถˆํ™•์‹คํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋†’๋‹ค๋Š” ์˜๋ฏธ๋‹ค. ๋ฐ˜๋Œ€๋กœ X2= {1,1,1,1,1,0}์œผ๋กœ ๋นจ๊ฐ„ ์‚ฌ๊ณผ 5๊ฐœ์™€ ์ดˆ๋ก์‚ฌ๊ณผ 1๊ฐœ๋กœ ์ด๋ฃจ์–ด์กŒ๋‹ค๋ฉด, ์ด X๋Š” ๋นจ๊ฐ„ ์‚ฌ๊ณผ์˜ ์ง‘ํ•ฉ์ผ ํ™•๋ฅ ์ด ๋†’์•„์ง„๋‹ค. ์ฆ‰ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋†’๋‹ค๋Š” ๊ฒƒ์€ ํ•ด๋‹น ํ™•๋ฅ  ๋ถ„ํฌ๋กœ ์œ ์˜๋ฏธํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. 

์ด๋ ‡๋“ฏ X์˜ ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ๋น„์Šท๋น„์Šทํ•ด์„œ ๋ถˆํ™•์‹ค์„ฑ์ด ๋†’๋‹ค๋ฉด ์—”ํŠธ๋กœํ”ผ(H)๊ฐ€ ๋†’๊ณ , ๋ฐ˜๋Œ€์ผ ๊ฒฝ์šฐ๋Š” H๊ฐ€ ๋‚ฎ๋‹ค. ์ด๋ฅผ ์ˆ˜์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. 

์—”ํŠธ๋กœํ”ผ๋ฅผ ๋‹ค๋ฅธ ์‹์œผ๋กœ๋„ ์œ ๋„ํ•ด ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ๊ทธ ๋ฐฉ๋ฒ•์€ source-code theory๋‹ค. ๋ถ„ํฌ X3๊ฐ€ ์žˆ๋Š”๋ฐ, ์ด ๋ถ„ํฌ๋ฅผ ์••์ถ•ํ•˜๊ณ  ์‹ถ๋‹ค๊ณ  ํ•˜์ž. X3= {1,1,1,1,1,1}๋ผ๋ฉด X3์€ ์œ„์˜ X1, X2๋ฅผ ์••์ถ•ํ•˜๋Š” ๊ฒƒ ๋ณด๋‹จ ์‰ฌ์šธ ๊ฒƒ์ด๋‹ค. ๊ต‰์žฅํžˆ ๋‹จ์ˆœํ•˜๊ฒŒ X3์„ ์••์ถ•ํ•œ๋‹ค๋ฉด "'1'์ด '6'๊ฐœ" ๋ผ๋Š” ์ •๋ณด๋ฅผ ๋‹ด์•„์•ผ ํ•  ๊ฒƒ์ด๋‹ค. ๋ฐ˜๋ฉด X1์€ "'0'์ด '3'๊ฐœ, '1'์ด '3'๊ฐœ"๋ผ๋Š” ์ •๋ณด๋กœ ์••์ถ•ํ•ด์•ผ ํ•œ๋‹ค. X3์„ ์••์ถ•ํ•˜๋Š” ๊ฒŒ ๋” ์‰ฌ์›Œ ๋ณด์ธ๋‹ค. ์‹ค์ œ๋กœ H(X3) = 0 ์œผ๋กœ ์—”ํŠธ๋กœํ”ผ ๊ฐ’์ด ์ž‘๋‹ค. 

Cross Entropy (CE)

์œ„์—์„œ X์˜ ์—”ํŠธ๋กœํ”ผ H(X)๋ฅผ ๊ตฌํ•ด๋ณด์•˜๋‹ค. ์ด๋ฒˆ์—๋Š” 2๊ฐœ ํ™•๋ฅ  ๋ถ„ํฌ์˜ ์—”ํŠธ๋กœํ”ผ๋ฅผ ํ†ตํ•ด, ๋นจ๊ฐ„์‚ฌ๊ณผ๋ฅผ ๋นจ๊ฐ„ ์‚ฌ๊ณผ๋กœ ์˜ˆ์ธกํ–ˆ๋Š”์ง€๋ฅผ ๋ณผ ๊ฒƒ์ด๋‹ค. ์ด๋ฒˆ์— X์—” 6๊ฐœ๊ฐ€ ์•„๋‹Œ ๋‹จ 1๊ฐœ์˜ ์‚ฌ๊ณผ๊ฐ€ ์žˆ๋‹ค. ์‚ฌ๊ณผ๋Š” 90%์ •๋„ ๋นจ๊ฐ„ ์ƒ‰๊น”์ด๋ฉฐ 10%์ •๋„๋Š” ์ดˆ๋ก ๋น›๊น”์ด ๋„๋Š” ์‚ฌ๊ณผ๋กœ, p = {0.9, 0.1}๋กœ ์ •์˜ํ•œ๋‹ค. ์ด๋“ค์ด ๋นจ๊ฐ„ ์‚ฌ๊ณผ์ธ์ง€ ์˜ˆ์ธกํ•œ ๊ฒฐ๊ณผ๋Š” q1, q2๋กœ ๋‚˜ํƒ€๋‚ธ๋‹ค.  q1๋Š” ์‚ฌ๊ณผ๊ฐ€ 30%์ •๋„๋กœ ๋นจ๊ฐ„ ์‚ฌ๊ณผ์ผ ๊ฒƒ์ด๋ผ ์˜ˆ์ธกํ–ˆ๋‹ค. q2๋Š” 80% ๋นจ๊ฐ„ ์‚ฌ๊ณผ์ผ ๊ฒƒ์ด๋ผ ์˜ˆ์ธกํ–ˆ๋‹ค.(q2์˜ ์˜ˆ์ธก๊ฒฐ๊ณผ๊ฐ€ ๋” ์ •ํ™•ํ•˜๋‹ค.) ์ด์ œ q1, q2์˜ ์—”ํŠธ๋กœํ”ผ๋ฅผ p์™€ ํ•จ๊ป˜ ๋‚˜ํƒ€๋‚ด๋ณด์ž. 

q2์˜ ์˜ˆ์ธก ๊ฒฐ๊ณผ๊ฐ€ ๋” ์ •ํ™•ํ–ˆ์œผ๋ฉฐ, ์ด๋•Œ์˜ cross entropy๋Š” q1๋ณด๋‹ค ์ž‘๋‹ค. CE ์ˆ˜์‹์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค. p๊ฐ€ ์‹ค์ œ๊ฐ’, q๊ฐ€ ์˜ˆ์ธก๊ฐ’์ž„์„ ์ƒ๊ฐํ•˜๋ฉด ๋”ฅ๋Ÿฌ๋‹์—์„œ์˜ cross entropy loss๋ฅผ ์˜๋ฏธํ•จ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.  ์˜ˆ์‹œ๋ฅผ ์ด์–ด์„œ ์„ค๋ช…ํ•˜๋ฉด H(p,q1)์€ p๋ฅผ ์••์ถ•ํ•˜๋Š” ์˜๋ฏธ๋กœ๋„ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ์ธก๋ถ„ํฌ q1๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ–ˆ์„ ๋•Œ p์˜ ๋ถ„ํฌ๋ฅผ ์•Œ๊ณ  ์‹ถ์„ ๋•Œ ์ ์–ด๋„ ์–ด๋А ์ •๋„(source coding theory์—์„œ์˜ bit)๋ฅผ ๋ด์•ผ ์•Œ ์ˆ˜ ์žˆ๋ƒ๋Š” ์˜๋ฏธ๋‹ค. ์••์ถ•์„ ์œ„ํ•ด ๋ด์•ผํ•  bit๊ฐ€ ๋งŽ๋‹ค(cross entropy๊ฐ€ ๋†’๋‹ค)๋Š” ๋œป์€ ๊ทธ๋งŒํผ ์••์ถ•ํ•˜๊ธฐ ์–ด๋ ค์šฐ๋ฉฐ p์™€ q์˜ ๋ถ„ํฌ๊ฐ€ ์ƒ์ดํ•˜๋‹ค๋Š” ๋œป์ด๋‹ค. 

์˜ค๋Š˜ ๋“  ์˜ˆ์‹œ๋Š” ๋นจ๊ฐ„์‚ฌ๊ณผ์ธ์ง€ ์•„๋‹Œ์ง€(์ดˆ๋ก์‚ฌ๊ณผ์ธ์ง€)๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ด์ง„ ๋ถ„๋ฅ˜(binary classification)์œผ๋กœ ๊ฐ„์ฃผํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, bernoulli ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” logistic regression์—์„œ์˜ likelihood์— -๋ฅผ ๊ณฑํ•œ ๊ฐ’๊ณผ ๋™์ผํ•จ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰, binary cross entropy๋Š” NLL(Negative Log Likelihood)์™€ ์ˆ˜์‹์ ์œผ๋กœ ๋™์ผํ•˜๋‹ค. 

๊ธฐํƒ€ ์—”ํŠธ๋กœํ”ผ 

Joint Entropy

Joint Entropy๋Š” x, y๊ฐ€ ๋™์‹œ์— ์ผ์–ด๋‚  ํ™•๋ฅ ์„ ์—”ํŠธ๋กœํ”ผ๋กœ ๋‚˜ํƒ€๋‚ธ ๊ฐ’์ด๋‹ค. ์—”ํŠธ๋กœํ”ผ๋Š” x์˜ ๋ฌด์งˆ์„œํ•จ์„ ํ™•์ธํ–ˆ๋‹ค๊ณ  ํ•œ๋‹ค๋ฉด, joint entropy๋Š” ๋™์‹œ์— ๋ฐœ์ƒํ•˜๋Š” x, y์˜ ๋ฌด์งˆ์„œํ•จ์„ ํ™•์ธํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ์ˆ˜์‹์€ ๊ธฐ๋ณธ ์—”ํŠธ๋กœํ”ผ ์ˆ˜์‹์˜ p(x)๋ฅผ p(x,y)๋กœ ๋Œ€์ฒดํ•œ ๊ฒƒ๊ณผ ๊ฐ™๋‹ค. 

x,y๊ฐ€ ๋™์‹œ์— ์ผ์–ด๋‚  ๋•Œ์˜ ์—”ํŠธ๋กœํ”ผ์ด๊ธฐ ๋•Œ๋ฌธ์— H(x,y)๋Š” ๊ฐ๊ฐ์˜ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๋”ํ•œ ๊ฐ’๋ณด๋‹ค ํด ์ˆ˜ ์—†๋‹ค(H(X,Y) <= H(X) + H(Y)). ๋”ฐ๋ผ์„œ ํ™•๋ฅ ๋ถ„ํฌ๋ฅผ ์„ž๋Š”๋‹ค๊ณ  ํ•ด์„œ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๋” ํ‚ค์šธ ์ˆ˜๋Š” ์—†๋‹ค. 

Conditional Entropy

์ด๋ฒˆ์—๋Š” ์—”ํŠธ๋กœํ”ผ๋„ ๋ฒ ์ด์‹œ์•ˆ(ex. p(x|y) = p(x,y)/p(y))์ฒ˜๋Ÿผ ์‹์„ ๋ณ€ํ™”์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ํ™•์ธํ•ด ๋ณผ ๊ฒƒ์ด๋‹ค. ์กฐ๊ฑด๋ถ€ ์—”ํŠธ๋กœํ”ผ๋Š” X๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ์˜ Y์— ๋Œ€ํ•œ ๊ฐ’์„ ๊ตฌํ•œ๋‹ค. X ๊ธฐ๋ฐ˜์ด๊ธฐ ๋•Œ๋ฌธ์— ์ด๋Š” P(X)์— ๋Œ€ํ•ด p(Y|X)์˜ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๊ตฌํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™๋‹ค. 

์‹์„ ์ „๊ฐœํ•œ ๊ฒฐ๊ณผ H(Y|X) = H(X,Y) - H(X), ์ฆ‰ H(X,Y) = H(Y|X) + H(X)์ž„์„ ๋„์ถœํ–ˆ๋‹ค. ์—ฌ๊ธฐ์— X= X1, Y = X2๋ฅผ ๋Œ€์ž…ํ•ด ๋ณด๋ฉด H(X1,X2) = H(X2|X1) + H(X1)๋กœ, chain rule์ด ์—”ํŠธ๋กœํ”ผ์—๋„ ์ ์šฉ๋จ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค! 

chain rule of joint entropy

chain rule์„ ํ†ตํ•œ joint entropy๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. 

2. KL Divergence 

์„œ๋กœ ๋‹ค๋ฅธ ๋ถ„ํฌ p์™€ q๊ฐ€ ์žˆ์„ ๋•Œ ์ด ๋‘˜์ด ์–ผ๋งˆ๋‚˜ ์œ ์‚ฌํ•œ์ง€๋ฅผ ์žฌ๊ธฐ ์œ„ํ•ด์„œ ์ผ๋ฐ˜์ ์œผ๋กœ L1, L2, mahalanobis ๋“ฑ์˜ distance๋ฅผ ์ธก์ •ํ•˜๊ณ ๋Š” ํ•œ๋‹ค. ์—”ํŠธ๋กœํ”ผ๋ฅผ ์ด์šฉํ•ด์„œ๋„ p์™€ q์˜ ์œ ์‚ฌ์„ฑ์„ ์ธก์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. KL (Kullback-Leibler) Divergence๋Š” p์™€ q ๊ฐ„์˜ ์—”ํŠธ๋กœํ”ผ๋ฅผ ์ธก์ •ํ•˜์—ฌ, p์™€ q์˜ ๋ถ„ํฌ๊ฐ€ ๋™์ผํ• ์ˆ˜๋ก 0์— ๊ฐ€๊นŒ์›Œ์ง€๊ณ  ๊ทธ๋ ‡์ง€ ์•Š์„์ˆ˜๋ก 1์— ๊ฐ€๊นŒ์›Œ์ง„๋‹ค. ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. 

kl divergence

์ˆ˜์‹์—์„œ ์ฒซ๋ฒˆ์งธ ํ•ญ์€ p์˜ ์—”ํŠธ๋กœํ”ผ -H(p)๋ฅผ, ๋‘ ๋ฒˆ์งธ ํ•ญ์€ p,q์˜ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ -H(p,q)๋ฅผ ์˜๋ฏธํ•จ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ๋Š” q ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” p์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์••์ถ•ํ•  ๋•Œ์˜ lower bound๋ฅผ ์˜๋ฏธํ–ˆ์—ˆ๋‹ค. 

kl divergence 2

KL(p||q)์˜ ๊ฐ’์€ ํ•ญ์ƒ 0๋ณด๋‹ค ์ž‘๊ฑฐ๋‚˜ ๊ฐ™์€๋ฐ, ์—”ํŠธ๋กœํ”ผ๊ฐ€ log ํ•จ์ˆ˜๋กœ ์ด๋ฃจ์–ด์ ธ์žˆ์Œ์„ ์ƒ๊ฐํ•œ๋‹ค๋ฉด ๋‹น์—ฐํ•œ ๊ฒฐ๊ณผ๋‹ค. log๋Š” ๋ณผ๋กํ•จ์ˆ˜๊ธฐ ๋•Œ๋ฌธ์— Jensens Inequality๋ฅผ ํ†ตํ•ด ∑(๋˜๋Š” E(ํ‰๊ท ))ํ•˜๋ฉด  ∑(log(x)) <= log(∑(x))๋ฅผ ํ•ญ์ƒ ๋งŒ์กฑํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ˆ˜์‹์„ ์ „๊ฐœํ•˜๋ฉด -KL(p||q)๊ฐ€ ํ•ญ์ƒ 0๋ณด๋‹ค ์ž‘๊ฑฐ๋‚˜ ๊ฐ™์Œ์„ ์•„๋ž˜์™€ ๊ฐ™์ด ์•Œ ์ˆ˜ ์žˆ๋‹ค.  

-KL <= 0

KL Divergence & MLE 

p๊ฐ€ ์ •ํ•ด์ง„ ๋ถ„ํฌ๊ณ  ์ด์™€ ์œ ์‚ฌํ•œ q๋ฅผ ์ฐพ๊ณ  ์žˆ๋‹ค ๊ฐ€์ •ํ•ด ๋ณด์ž.  ๊ทธ๋Ÿฌ๋ฉด ์šฐ๋ฆฌ๋Š” KL(p||q)๊ฐ€ ์ตœ๋Œ€ํ•œ ์ž‘์„  q๋ฅผ ๊ตฌํ•˜๋Š” ๊ฒƒ๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋‹ค. 

p์™€ ์œ ์‚ฌํ•œ q ์ฐพ๊ธฐ

์ด๋•Œ ์ฒซ๋ฒˆ์งธ ํ•ญ์ธ p(x)logp(x) dx ๋Š” ์ƒ์ˆ˜๋กœ ์ทจ๊ธ‰ํ•  ์ˆ˜ ์žˆ๋‹ค. p๊ฐ€ q์— ๋”ฐ๋ผ ๋ณ€ํ•˜์ง€ ์•Š๋Š”, ์ •ํ•ด์ง„ ๋ถ„ํฌ์ด๊ธฐ ๋•Œ๋ฌธ์— ํ•ด๋‹น๊ฐ’์€ ๋ณ€ํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์—ฌ๊ธฐ์— p์˜ ๋ถ„ํฌ๊ฐ€ ์„ ํ—˜์  ๋ถ„ํฌ๋ผ delta function ๊ธฐ๋ฐ˜์ด๋ผ๋ฉด(๊ฐ’์„ ๊ฐ€์ง„ ์ง€์ ์—์„œ ํŒ! ํŠ€๋Š” ๋ถ„ํฌ๋ฅผ ๊ฐ€์ง€๊ณ  ๋‚˜๋จธ์ง€ ์ง€์ ์—์„  0 ์ธ ๋ถ„ํฌ๋ฅผ ์ƒ๊ฐํ•ด๋ณด์ž), ์‹์€ ์•„๋ž˜์™€ ๊ฐ™์ด ์กฐ๊ธˆ ๋” ์ •๋ฆฌ๊ฐ€ ๋œ๋‹ค. 

์—ฌ๊ธฐ์„œ ์•Œ ์ˆ˜ ์žˆ๋Š” ์ ์€ KL(p||q)๋ฅผ minimizeํ•˜๋Š” ๊ฒƒ์ด Likelihood(==logq(x))๋ฅผ maximizeํ•˜๋Š” ๊ฒƒ๊ณผ ๋™์ผํ•˜๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ํ•˜์ง€๋งŒ ๋Œ€๋ถ€๋ถ„์˜ ์ƒํ™ฉ์—์„œ ์ •๋‹ต์œผ๋กœ ๊ฐ„์ฃผํ•  ์ •ํ•ด์ง„ ๋ถ„ํฌ q๊ฐ€ ์„ ํ—˜์  ๋ถ„ํฌ๋ฅผ ์ง„์งœ ๋ถ„ํฌ๋กœ ๊ฐ–๊ณ  ์žˆ์ง„ ์•Š์„ ๊ฒƒ์ด๋‹ค. (์ •๋‹ต ๋ถ„ํฌ๊ฐ€ ํŠน์ • ์ง€์ ์—์„œ๋งŒ ์ŠคํŒŒ์ดํฌ๋กœ ํŠ€๋Š” ๋ถ„ํฌ๊ณ  ๋‚˜๋จธ์ง€๊ฐ€ 0 ์ธ๊ฑด ์ด์ƒํ•˜๊ธด ํ•˜๋‹ค.) ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ์ปค๋„์„ ์“ฐ๋Š” ๋ฐฉ๋ฒ•, data augmentation ๋“ฑ์„ ์“ฐ๋Š” ๊ฒƒ์ด๋‹ค.  

Forward vs Reverse KL 

์ด๋ฒˆ์—๋Š” KL(p||q)์™€ KL(q||p)์˜ ๋ถ„ํฌ์— ๋Œ€ํ•ด์„œ ์ƒ๊ฐํ•ด๋ณด์ž. ์ฒซ ๋ฒˆ์งธ๋Š” forward KL์ธ  KL(p||q)๋‹ค. KL divergence๋Š” 0์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก p์™€ q์˜ ๋ถ„ํฌ๊ฐ€ ์œ ์‚ฌํ•˜๋ฏ€๋กœ ์ด ์ˆ˜์‹์—์„œ๋Š” q๋ฅผ ํ†ตํ•ด KL์„ minimize ํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ๊ฐ€ ๋œ๋‹ค. ๋งŒ์•ฝ q(x)๊ฐ€ 0์ด๋ผ๋ฉด ์–ด๋–จ๊นŒ? ๊ทธ๋Ÿฌ๋ฉด log p/q ํ•ญ์ด inf๋กœ ๊ฐ€๋ฉฐ KL(p||q)์˜ ๊ฐ’์€ ๋ฌดํ•œ์œผ๋กœ ์ปค์งˆ ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋ฉด q๋Š” 0๋ณด๋‹ค๋Š” ์ปค์•ผ ํ•˜๋Š” ์ œ์•ฝ์„ ์ค˜์•ผ ํ•จ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  q๋Š” ๋ถ„๋ชจ์˜ ์œ„์น˜์— ์žˆ์œผ๋ฏ€๋กœ ๋ถ„์ž p๋ฅผ ํฌํ•จํ•˜๋Š” ๋ถ„ํฌ๋กœ ๊ฐ€๋ ค๋Š” ๊ฒฝํ–ฅ์ด ์ƒ๊ธด๋‹ค. 

forward KL

๋ฐ˜๋Œ€๋กœ reverse KL KL(q||p)๋Š” ์–ด๋–ป๊ฒŒ ํ•ด์„ํ•  ์ˆ˜ ์žˆ์„๊นŒ? q๋ฅผ ์กฐ์ ˆํ•˜์—ฌ KL๊ฐ’์„ minimizeํ•˜๋Š” ๊ฒƒ์€ ์—ฌ์ „ํžˆ ๊ฐ™์€ ๋ชฉํ‘œ๋‹ค. log p/q๊ฐ’์ด ๋ฌดํ•œ๋Œ€๋กœ ํŠ€์ง€ ์•Š๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด ์ด๋ฒˆ์—” p(x)๊ฐ€ 0๋งŒ ์•„๋‹ˆ๋ฉด ๋œ๋‹ค. p(x) > 0์„ ๋งŒ์กฑํ•˜๋ฉฐ q๊ฐ€ ์ž‘์„์ˆ˜๋ก KL ๊ฐ’์€ ์ค„์–ด๋“ค๊ฒŒ ๋œ๋‹ค. forward KL๊ณผ๋Š” ๋ฐ˜๋Œ€๋กœ, q๋Š” p๋ฅผ ํฌํ•จํ•˜๋Š” ๋ถ„ํฌ๋กœ ๊ฐ€์ง€ ์•Š์•„๋„ KL์„ ์ž‘๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค. ELBO๋ฅผ ๊ตฌํ•  ๋•Œ ์™€ ๊ฐ™์ด KL divergnece๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ์—์„œ KL์€ ์ด reverse KL์„ ์‚ฌ์šฉํ•˜๊ณค ํ•œ๋‹ค.

reverse KL

์‹ค์ œ๋ถ„ํฌ p๊ฐ€ bimodal์ผ ๋•Œ forward์™€ reverse KL๋กœ q๊ฐ€ ์–ด๋–ค ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ผ๊ฐ€๋Š”์ง€ ์•„๋ž˜ ๊ทธ๋ฆผ์„ ํ†ตํ•ด ํ™•์—ฐํžˆ ํ™•์ธ๊ฐ€๋Šฅํ•˜๋‹ค. (a)๊ฐ€ forward KL, (b),(c)๊ฐ€ reverse KL์ผ ๋•Œ๋กœ ๋นจ๊ฐ„์ƒ‰์ด q์˜ ๋ถ„ํฌ๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ  ์žˆ๋‹ค.  

bimodal q with unimodal p (forward, reverse KL)

 

3. Mutual Information

์ง€๋‚œ ๊ธ€์—์„œ KL-divergence๋Š” p์™€ q๊ฐ€ ์–ผ๋งˆ๋‚˜ ์œ ์‚ฌํ•œ์ง€๋ฅผ ํŒ๋‹จํ•  ์ˆ˜ ์žˆ๋Š” ์ฒ™๋„์˜€๋‹ค. 0 ์ผ์ˆ˜๋ก ์œ ์‚ฌํ•˜๊ณ  ๊ฐ’์ด ํด์ˆ˜๋ก ์œ ์‚ฌํ•˜์ง€ ์•Š์Œ์„ ์•Œ ์ˆ˜ ์žˆ์—ˆ๋‹ค. Mutual Information(MI)๋Š” p์™€ q์˜ ์œ ์‚ฌํ•จ๋ณด๋‹ค๋Š”, ๋‘˜์˜ ์˜์กด์„ฑ์— ๋Œ€ํ•ด ์•Œ ์ˆ˜ ์žˆ๋‹ค. ๋‘ ๋ณ€์ˆ˜ x์™€ y์˜ MI๋Š” I(x;y)๋กœ ๋‚˜ํƒ€๋‚ด๋Š”๋ฐ ์ด๋ฅผ ํ†ตํ•ด x์™€ y๊ฐ€ ์–ผ๋งˆ๋‚˜ dependent ํ•œ ์ง€๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

x์™€ y์˜ dependency๋ฅผ ๋ณด๊ณ  ์‹ถ๊ธฐ ๋•Œ๋ฌธ์— x๊ณผ y์˜ joint probability P(x,y)๋ฅผ ํ†ตํ•ด P(x), P(y)์™€์˜ ์œ ์‚ฌํ•จ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์‹์„ ๊ทธ๋ฆด ์ˆ˜ ์žˆ๋‹ค. ์œ ์‚ฌ์„ฑ์„ ๋ณด๊ธฐ ์œ„ํ•ด์„œ ์šฐ๋ฆฌ๋Š” KL Divergence๋ฅผ ์ด์šฉํ•  ์ˆ˜ ์žˆ์Œ์„ ์•Œ๊ณ  ์žˆ๋‹ค. ์ด๋ฒˆ์—๋„ ์ ์šฉํ•ด ๋ณด์ž. 

์•„๋ž˜์˜ ๋ฐด๋‹ค์ด์–ด๊ทธ๋žจ์„ ํ†ตํ•ด ์œ ์‚ฌ์„ฑ์„ ๋ณด๋ ค๋ฉด p(x,y)๊ฐ€ p(x)p(y)์™€ ๋ฉ€์–ด์งˆ์ˆ˜๋ก ์ข‹์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

x์™€ y๊ฐ€ dependent ํ•  ์ˆ˜๋ก P(x,y)๊ฐ€ P(x)P(y)์™€ ๋”์šฑ ์œ ์‚ฌํ•ด์งˆ ๊ฒƒ์ด๋‹ค.  ๋”ฐ๋ผ์„œ MI๊ฐ€ ์ž‘์„์ˆ˜๋ก x์™€ y๋Š” independentํ•˜๋‹ค. 

MI ํ•ด์„

์•„๋ž˜ ์—”ํŠธ๋กœํ”ผ์— ๋Œ€ํ•œ ๋ฒค๋‹ค์ด์–ด๊ทธ๋žจ์„ ๋ดค์„ ๋•Œ X์˜ ์—”ํŠธ๋กœํ”ผ์™€ Y์˜ ์—”ํŠธ๋กœํ”ผ์˜ ๊ต์ง‘ํ•ฉ์ด MI์— ํ•ด๋‹นํ•˜๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. 

(์ง€๋‚œ ๋‚ด์šฉ์„ recapํ•ด๋ณด์ž. )

  • Entropy H(X) =  - ∑p(x) log p(x)
  • Joint Entropy H(X,Y) = - ∑ p(x,y) log p (x,y)
  • Conditional Entropy H(X|Y) = H(X,Y) - H(Y)

์œ„ ๊ทธ๋ฆผ์—์„œ 2๊ฐ€์ง€ MI ์ˆ˜์‹์„ ์œ ์ถ”ํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ,

1. MI๋Š” Entropy(์ฒซ ๋ฒˆ์งธ ๋ฒค๋‹ค์ด์–ด๊ทธ๋žจ) - Joint Entropy(2๋ฒˆ์งธ ๋ฒค๋‹ค์ด์–ด๊ทธ๋žจ)์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

$$ I(X;Y) = H(X) + H(Y) - H(X,Y) $$

2. MI๋Š” ๊ฐ Entropy(X) - Conditional Entropy(X|Y)๋กœ๋„ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค. 

$$  I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) $$

Normalized MI

์ง€๋‚œ ๊ธ€์—์„œ ์ฆ๋ช…ํ•œ ์—”ํŠธ๋กœํ”ผ์˜ ์„ฑ์งˆ์— ๋”ฐ๋ผ H(X,Y) = H(X|Y) + H(Y) = H(Y|X) + H(X)๋ฅผ ์ƒ๊ฐํ•ด ๋ณด๋ฉด ์‹์€ ๋” ๋‹จ์ˆœํ•ด์ง„๋‹ค. 

$$  I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) $$

์œ„ ์‹์„ ๋ดค์„ ๋•Œ ์•Œ ์ˆ˜ ์žˆ๋Š” ์ ์€ I(X;Y)๋Š” ํ•ญ์ƒ H(X) ๋˜๋Š” H(Y)๋ณด๋‹ค๋Š” ์ž‘์„ ๊ฒƒ์ด๋ž€ ๊ฑฐ๋‹ค. ์ฆ‰ I(X;Y) <= min(H(X), H(Y))๊ฐ€ ์„ฑ๋ฆฝํ•œ๋‹ค! ์ด๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ๋งŒ์•ฝ I(X;Y)๋ฅผ 0~ 1์‚ฌ์ด๋กœ normalize ํ•˜๊ณ  ์‹ถ๋‹ค๋ฉด min(H(X),H(Y))๋กœ ๋‚˜๋ˆ ์ฃผ๋ฉด ๋˜๋ฉฐ, ์ด๋•Œ๋Š” Normalized Mutual Information(NMI)๋ผ๊ณ  ์“ด๋‹ค. MI๋Š” KL divergence ๊ธฐ๋ฐ˜์ด๊ธฐ ๋•Œ๋ฌธ์— ์–ด์ฐจํ”ผ 0๋ณด๋‹ค๋Š” ํฌ๋‹ค.

Normalized Mutual Information

๋งŒ์•ฝ NMI(X;Y)๊ฐ€ 1์ด๊ณ  min(H(X), H(Y)) = H(X)๋ผ๋ฉด, H(X|Y) = 0์„ ์˜๋ฏธํ•œ๋‹ค. conditional entropy H(X|Y)๊ฐ€ 0์ด๋ž€ ๋œป์€ H(Y)๊ฐ€ H(X)์— ๋ฌด์กฐ๊ฑด ์†ํ•˜๋Š” ์ƒํƒœ๋กœ๋„ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ NMI๊ฐ’์ด 1์ด๋ž€ ๋œป์€ ๋‘ ๋ณ€์ˆ˜ ์ค‘ ํ•˜๋‚˜๊ฐ€ ๋ฌด์กฐ๊ฑด ์ƒ๋Œ€ ์—”ํŠธ๋กœํ”ผ์˜ ํฌํ•จ๊ด€๊ณ„์ธ ๊ฒƒ์ด๋‹ค.

2. conditional mutual information

 

[์œ„ํ‚คํ”ผ๋””์•„] Conditional Mutual Information

์ด๋ฒˆ์—” conditional MI๋ฅผ ํ†ตํ•ด MI์—๋„ chain rule์ด ์ ์šฉ๋จ์„ ๋ณด์ผ ๊ฒƒ์ด๋‹ค. ์•„๋ž˜์™€ ๊ฐ™์ด Z๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ์˜ X์™€ Y์˜ MI๋ฅผ ์ „๊ฐœํ•ด ๋ณด์ž. 

์šฐ๋ณ€์„ ํ’€์–ด์จ๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. 

์‹์ด ์–ผ์ถ” ์ •๋ฆฌ๊ฐ€ ๋˜์—ˆ์œผ๋‹ˆ log ๋ฅผ ํ’€์–ด์„œ entropy H ํ˜•ํƒœ๋กœ ์ •๋ฆฌํ•ด ๋ณด์ž. conditional prob๋“ค์„ ๋‹ค joint๋กœ ํ’€์–ด๋ƒˆ๋‹ค.(์ฑ…๊ณผ๋Š” ๋‹ค๋ฅด๊ฒŒ ํ’€์—ˆ๋‹ค.)

์ด์ œ ์ด ์‹์„ MI ์‹์œผ๋กœ ๋ฌถ์–ด๋ณผ ์ˆ˜ ์žˆ๋‹ค. 

๋”ฐ๋ผ์„œ I(X;Y|Z) = I(Y;X,Z) - I(Y;Z) ์ž„์„ ๋ณด์˜€๋‹ค. ๋งŒ์•ฝ ์œ„ ์‹์—์„œ H(y)๊ฐ€ ์•„๋‹Œ H(x)๋ฅผ ๋”ํ•˜๊ณ  ๋บ๋‹ค๋ฉด ์‹์€ ์ด๋ ‡๊ฒŒ๋„ ์ •๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค. 

์ด ์‹์—์„œ Z์— Z1๋ฅผ, Y์— Z2๋ฅผ ๊ฐ๊ฐ ๋Œ€์ž…ํ•ด ๋ณด๋ฉด chain rule์ด ์„ฑ๋ฆฝํ•˜๊ฒ ๊ตฌ๋‚˜๋ฅผ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์•„๋ž˜์™€ ๊ฐ™์ด Mutual Infromation์—์„œ Chain rule์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค!

3. joint gaussian์ผ ๋•Œ 

์ด๋ฒˆ์—” ๋ถ„ํฌ x, y๊ฐ€ join gaussian distribution์„ ๋”ฐ๋ฅธ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด ๋ณธ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ๋‘ ๋ถ„ํฌ์˜ gaussian์€ ์•„๋ž˜์™€ ๊ฐ™์ด ํ‘œํ˜„๋˜๋Š”๋ฐ, ์ด๋•Œ ρ๋Š” ๋‘˜์˜ ์ƒ๊ด€๊ณ„์ˆ˜๋‹ค.

์ด๋•Œ์˜ MI(x;y)๋ฅผ ๊ตฌํ•ด๋ณด์ž. ๋จผ์ € ํ‰๋ฒ”ํ•œ 1 dimension gaussian distribution x์˜ ์—”ํŠธ๋กœํ”ผ ์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์œผ๋ฉฐ, u๋Š” ํ‰๊ท ์„ ์˜๋ฏธํ•œ๋‹ค. 

์ด ์‹์˜ σ ์ž๋ฆฌ์—๋Š” joint distribution์˜ ๋ถ„์‚ฐ์ด ์ž๋ฆฌํ•˜๋ฉด ๋˜๊ธฐ ๋•Œ๋ฌธ์—, det(∑)๊ฐ€ ์ž๋ฆฌํ•˜๊ฒŒ ๋œ๋‹ค. det(A) = ad- bc์˜€์Œ์„ ๊ธฐ์–ตํ•˜๋ฉด X,Y์˜ joint entropy h(X,Y)๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ์ •๋ฆฌ๋œ๋‹ค. 

I(X,Y) ๋Š” H(X) + H(Y) - H(X,Y)์˜€๋‹ค. ๊ฐ ์ž๋ฆฌ์— ๋Œ€์ž…ํ•ด ๋ณด์ž. 

์‹์ด ์ •๋ฆฌ๊ฐ€ ๋๋‹ค. ์ด๋กœ์จ join gaussian distribution์ธ ๋‘˜์˜ MI๋Š” ์ƒ๊ด€๊ณ„์ˆ˜ ρ๋กœ ์ธํ•ด ์ •ํ•ด์ง์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์ด์ œ ρ์ž๋ฆฌ์— 1, -1, 0์„ ๋Œ€์ž…ํ•ด ๋ณด๋ฉฐ MI๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ ์ง€ ๋ณด์ž.

  • ρ = 1 :  I(X,Y)๋Š” ๋ฌดํ•œ๋Œ€๋กœ ๊ฐ€๋ฉฐ ๋‘˜์˜ joint covariance(∑) ๋„ ์–‘์ˆ˜๋‹ค. ์ด๋Š” Y๊ฐ€ X์— ๋Œ€ํ•ด ๋ฌดํ•œ๋Œ€๋กœ ์ •๋ณด๋ฅผ ๊ฐ–๊ณ  ์žˆ์Œ์„ ๋œปํ•œ๋‹ค. 
  • ρ = 0: I(X,Y)๊ฐ’์ด log 1๋กœ 0์ด๋‹ค. ์ฆ‰ X, Y๋Š” ์—ฐ๊ด€์„ฑ์ด ์ „ํ˜€ ์—†๋‹ค. 
  • ρ = -1 :  I(X,Y)๋Š” ๋ฌดํ•œ๋Œ€๋กœ ๊ฐ€๋Š”๋ฐ ๋‘˜์€ ์Œ์˜ ์ƒ๊ด€์„ฑ, X = -Y๋ฅผ ๋งŒ์กฑํ•  ๊ฒƒ์ด๋‹ค.

4. MIC

x, y๊ฐ€  discrete ํ•˜์ง€๋„, ๊ทธ๋ ‡๋‹ค๊ณ  gaussian ๊ณผ ๊ฐ™์ด ํ•ด์„๊ฐ€๋Šฅํ•œ continuous ๋ถ„ํฌ๋„ ์•„๋‹Œ real-valued data (continuous) ๋ผ๋ฉด NMI๋ฅผ ๊ตฌํ•˜๋Š” ๊ฒŒ ์กฐ๊ธˆ ๊นŒ๋‹ค๋กญ๋‹ค. ์ด๋Ÿด ๋• continuousํ•œ variable๋“ค์„ ๊ตฌ๊ฐ„๋ณ„๋กœ ์ชผ๊ฐœ์„œ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ฐ ๊ตฌ๊ฐ„๋ณ„๋กœ information ๊ณ„์ˆ˜๋ฅผ ๊ตฌํ•œ ํ›„ ์ด ๊ตฌ๊ฐ„๋“ค ์ค‘ ๊ฐ€์žฅ ํฐ ๊ฐ’์„ ๊ฐ€์ง„ ๊ณ„์ˆ˜๋ฅผ ํƒํ•˜๋Š”๋ฐ ๊ทธ๋ž˜์„œ ์ด๋ฆ„์ด Maximal Information Coefficient(MIC)์ด๋‹ค. 

์‹์„ ๋ณผ ๋•Œ G๋Š” ๊ฒฉ์ž๋กœ ์ž๋ฅธ ๊ตฌ๊ฐ„์„ ์˜๋ฏธํ•œ๋‹ค. ๊ตฌ๊ฐ„๋“ค ๊ฐ๊ฐ MI๋ฅผ ๊ตฌํ•˜๊ณ , ๊ทธ์ค‘ ๊ฐ€์žฅ ํฐ MI๋ฅผ ๊ฐ€์ง„ ๊ตฌ๊ฐ„์˜ MI๋ฅผ MIC๋กœ ์ •์˜ํ•˜๊ณ  ์žˆ๋‹ค. 

MIC ์ˆ˜์‹

 MI์˜ ํŠน์ง• ์ƒ MIC๊ฐ€ 0์ด๋ผ๋ฉด x, y๊ฐ„ ์–ด๋–ค ๊ด€๊ณ„๋„ ์—†์Œ์„(independent), 1์ด๋ผ๋ฉด noise-freeํ•œ ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ๋ณ€์ˆ˜๊ฐ„ ์ƒ๊ด€์„ฑ์„ ๋ณด๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” ์ƒ๊ด€๊ณ„์ˆ˜(Correlation Coefficient. corr)๋„ ์žˆ๋‹ค. MIC๋Š” ์ƒ๊ด€๊ณ„์ˆ˜์™€ ๋‹ค๋ฅด๊ฒŒ linearํ•œ ๊ด€๊ณ„๋งŒ์„ ๋ณด์ง€๋„ ์•Š๋Š”๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— corr์„ ๊ตฌํ•˜๋Š” ๋Œ€์‹  MIC๋ฅผ ๋ณด๋Š” ๊ฒƒ์ด ์œ ์šฉํ•  ๋•Œ๋„ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์•„๋ž˜์˜ ๊ทธ๋ฆผ์—์„œ E,F,G๋Š” ๊ฐ๊ฐ 2๊ฐœ์˜ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๊ณ„์ˆ˜๋ฅผ ๊ตฌํ•œ ์ง€์ ์ด๋‹ค. ๊ฐ๊ฐ ์ƒ๊ด€๊ณ„์ˆ˜๊ฐ€ 0์— ๊ฐ€๊น์ง€๋งŒ MIC๋ฅผ ๋ดค์„ ๋• 0.5๋ณด๋‹ค ํฌ๋ฏ€๋กœ, ์„ ํ˜•์ ์ธ ์ƒ๊ด€์„ฑ์€ ์—†์„์ง€ ๋ชฐ๋ผ๋„(corr = 0) ์‹ค์ œ๋กœ๋Š” ์ƒ๊ด€์„ฑ์ด ์žˆ๋‹ค. 

5. data processing inequality

์–ด๋–ค ๋ณ€์ˆ˜ X๊ฐ€ Y๋ผ๋Š” ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด Z๋กœ ๋ณ€ํ™˜๋œ๋‹ค๋ฉด(X -> Y -> Z), I(X;Y) >= I(X;Z)๊ฐ€ ์„ฑ๋ฆฝํ•œ๋‹ค. ์ง๊ด€์ ์œผ๋กœ ๋ณผ ๋•Œ X์™€ Y์˜ ์—ฐ๊ด€์„ฑ์ด X์™€ Z์˜ ์—ฐ๊ด€์„ฑ๋ณด๋‹ค๋Š” ๋†’์„ ๊ฑฐ๋ผ๋Š” ๊ฒฐ๋ก ์ด ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š”๋ฐ, ์œ„ conditional mutual information ์ฆ๋ช… ๊ณผ์ •์—์„œ ์กฐ๊ธˆ ๋ณ€ํ˜•ํ•˜๋ฉด ์ˆ˜์‹์ ์œผ๋กœ๋„ ์ฆ๋ช…ํ•  ์ˆ˜ ์žˆ๋‹ค. 

์ฆ๋ช…์„ ํ•ด๋ณด์ž๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด I(X;Y,Z) = I(X;Z) + I(X;Y|Z)๋ฅผ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋‹ค. 

์—ฌ๊ธฐ์„œ Z์™€ Y์˜ ์ž๋ฆฌ๋ฅผ ๋ฐ”๊พธ๋ฉด I(X;Y,Z) = I(X;Y) + I(X;Z|Y)๋„ ์„ฑ๋ฆฝํ•œ๋‹ค.

X์™€ Z|Y๋Š” ์ง๊ตํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— I(X; Z|Y) = 0์ผ ๊ฒƒ์ด๊ณ , I(X;Y|Z)๋Š” ํ•ญ์ƒ 0๋ณด๋‹ค ๊ฐ™๊ฑฐ๋‚˜ ํฌ๊ธฐ ๋•Œ๋ฌธ์—(KL divergence์˜ ์„ฑ์งˆ. ํ•ญ์ƒ 0๋ณด๋‹ค ํฌ๋‹ค.), I(X;Y) > I(X;Z)๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค! 

6. Fano's inequality

MI๊ฐ€ ๋‘ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์ƒ๊ด€์„ฑ์„ ์ธก์ •ํ•˜๊ธฐ ๋•Œ๋ฌธ์— feature selection์—์„œ๋„ ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉ๋  ๊ฑฐ๋‹ค. ํŠน์ • ํ”ผ์ณ X์™€ ํด๋ž˜์Šค ๋ผ๋ฒจ Y ๊ฐ„์˜ ์ƒ๊ด€์„ฑ์„ ๋ณผ ๋•Œ(์ด๋•Œ X๊ฐ€ ์˜ˆ์ธกํ•œ Y๋Š” Y^๋ผ๊ณ  ํ•˜์ž), X์™€ Y์˜ ์ƒ๊ด€์„ฑ์ด ๋†’์€๋ฐ Y์™€  ์ž˜๋ชป ์˜ˆ์ธกํ•œ ๊ฐ’๊ณผ์˜ ์ƒ๊ด€์„ฑ์€ ๋” ๋†’๊ฒŒ ๋‚˜์˜ค๋ฉด ์–ด๋–กํ• ๊นŒ?

๋‹คํ–‰ํžˆ๋„ ์ด๋Ÿฐ ์ผ์€ ์—†๋‹ค. ์ž˜๋ชป ์˜ˆ์ธกํ•œ ๊ฒฝ์šฐ์˜ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ํ•ญ์ƒ ๋” ํฌ๊ธฐ ๋•Œ๋ฌธ์ธ๋ฐ,  ์ด๋ฅผ fano's inequality๋ผ๊ณ  ํ•œ๋‹ค. ์ง€๊ธˆ๋ถ€ํ„ฐ๋Š” ์ด๋ฅผ ์ฆ๋ช…ํ•ด ๋ณผ ๊ฒƒ์ด๋‹ค. 

์ „์ œ - ์šฐ์„  ์—๋Ÿฌ E๋Š” ์‹ค์ œ ๋ผ๋ฒจ Y์™€ ์˜ˆ์ธก๊ฐ’ Y^์ด ๋‹ค๋ฅผ ๊ฒฝ์šฐ๋กœ, ์ด๋•Œ์˜ ํ™•๋ฅ ์„ Pe = P(Y != Y^)๋ผ๊ณ  ๋‚˜ํƒ€๋‚ด๊ฒ ๋‹ค. ์—๋Ÿฌ๊ฐ€ ๋‚  ํ™•๋ฅ ์˜ minimum boundary๋ฅผ H(Y|X) ํ†ตํ•ด ๊ตฌํ•ด๋ณด์ž. (์ฐธ๊ณ ๋กœ ์šฐ๋ฆฌ๊ฐ€ feature selection์—์„œ ๋†’์€์ง€ ์•Œ๊ณ  ์‹ถ์€ MI๋Š” I(X;Y) =  H(Y) - H(Y|X) ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์— H(Y|X)๊ฐ€ ๋‚ฎ์•„์งˆ์ˆ˜๋ก I(X;Y)๋Š” ๋†’์•„์ง„๋‹ค. )

1 - ์ฒซ ๋ฒˆ์งธ๋กœ๋Š” H(Y|X)๊ฐ€ ์–ด๋–ค ์˜๋ฏธ๋ฅผ ๊ฐ€์ง€๋Š”์ง€ ์•Œ์•„๋ณด์ž.

๋จผ์ €, ์—”ํŠธ๋กœํ”ผ๋Š” ํ•ญ์ƒ 1๋ณด๋‹ค ๊ฐ™๊ฑฐ๋‚˜ ์ž‘๊ธฐ ๋•Œ๋ฌธ์— H(Y|X) <= 1์ด ์„ฑ๋ฆฝํ•œ๋‹ค. ์šฐ๋ณ€์— ์–‘์ˆ˜์ธ ๋ฌด์–ธ๊ฐˆ ๋”ํ•œ๋‹ค๊ณ  ํ•ด๋„ ๋ถ€๋“ฑํ˜ธ๋Š” ๋‹ฌ๋ผ์ง€์ง€ ์•Š์„ ๊ฒƒ์ด๋‹ค. ๊ทธ ๋ฌด์–ธ๊ฐ€๋Š” ์—ฌ๊ธฐ์„œ Pe log|Y|๊ฐ€ ๋œ๋‹ค. (|Y|๋Š” ํด๋ž˜์Šค๋ผ๋ฒจ ์ข…๋ฅ˜ ์ˆ˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค.)

์—ฌ๊ธฐ์„œ Pe์— ๋Œ€ํ•ด ์‹์„ ์ •๋ฆฌํ•ด ๋ณด๋ฉด H(Y|X)์— ๋”ฐ๋ผ Pe์˜ ์ตœ์†Œ boundary๊ฐ€ ์ง€์ •๋จ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ H(Y|X)๊ฐ€ ๋‚ฎ์•„์งˆ์ˆ˜๋ก, ์ฆ‰ I(X;Y)๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ์—๋Ÿฌ ํ™•๋ฅ  Pe์˜ miminum๋„ ๋‚ฎ์•„์ง„๋‹ค.

2 - ๋‘ ๋ฒˆ์งธ๋กœ๋Š” H(Y|Y^) <= H(E) + Pe log|Y|์ž„์„ ์ฆ๋ช…ํ•ด ๋ณด์ž.  ์—ฌ๊ธฐ์„œ๋Š” H(Y2,Y1|Y0) = H(Y1|Y0) + H(Y2|Y1,Y0)์ธ chain rule์„ ์‚ฌ์šฉํ•œ๋‹ค. 

๋‘ ๊ฐœ๋ฅผ ๋”ํ•˜๋ฉด H(Y|Y^) = H(E|Y^) + H(Y|E,Y^)๋ฅผ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋‹ค. ์—ฌ๊ธฐ์„œ H(Y|E,Y^)๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ์ƒํ•œ์„ ์ด ์ƒ๊ธด๋‹ค. 

์ด H(Y|E,Y^)๋ฅผ H(Y|Y^) = H(E|Y^) + H(Y|E,Y^)์— ๋Œ€์ž…ํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™์ด ๋˜๋Š”๋ฐ, ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ์—๋Ÿฌ์˜ ์—”ํŠธ๋กœํ”ผ๊ฐ€ X์™€ Y์˜ ์—”ํŠธ๋กœํ”ผ๋ณด๋‹ค ํฌ๋‹ค. 

3 - ๋งˆ์ง€๋ง‰์œผ๋กœ data processing inequality๋กœ ์ธํ•ด  I(Y;Y^) <= I(Y;X)์ด๋‹ค.(Y -> X -> Y^์ธ ์…ˆ.)  H(Y|X) < H(Y|Y^)๋„ ์„ฑ๋ฆฝํ•œ๋‹ค. 

์ด๋กœ์จ Fano's inequality๋ฅผ ์ฆ๋ช…ํ–ˆ๋‹ค. 

์˜ค๋Š˜์€ MI๊ฐ€ x, y์˜ dependence๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ KL divergence๋ฅผ ํ†ตํ•ด ์ˆ˜์‹์ด ์ƒ๊ฒจ๋จน์—ˆ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ์•˜๋‹ค. ๊ทธ๋ฆฌ๊ณ  NMI, Conditional MI๋ฅผ ํ†ตํ•œ chain rule, ๋‘ ๋ณ€์ˆ˜๊ฐ€ joint gaussian distribution์ผ ๋• ์–ด๋–ป๊ฒŒ MI๊ฐ€ ์ „๊ฐœ๋˜๊ณ  ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ์•Œ์•„๋ณด์•˜๋‹ค. MI๊ฐ€ ๋†’์œผ๋ฉด dependence๊ฐ€ ๋†’์€ ๋ณ€์ˆ˜์ธ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์—, feature selection ์‹œ์—๋„ MI๊ฐ€ ๋†’์€ ๋ณ€์ˆ˜๋ฅผ ๊ณ ๋ฅด๋Š” ๋“ฑ ์‚ฌ์šฉ๋œ๋‹ค. 

์ง€๋‚œ ๊ธ€๋ถ€ํ„ฐ ์˜ค๋Š˜ ๊ธ€์„ ํ†ตํ•ด entropy - KL divergence - MI ๊นŒ์ง€ ์™„์ „ ์ •๋ณตํ•ด ๋ณด์•˜๋‹ค. (๊ทธ๋ฆฌ๊ณ  ์ •๋ง ์ƒˆ์‚ผ ์ฑ…์ด ์ฉ ์นœ์ ˆํ•˜์ง€๋Š” ์•Š๊ตฌ๋‚˜๋ฅผ ๋А๊ผˆ๋‹ค..) ์ฝ”๋กœ๋‚˜์— ๊ฑธ๋ ค์„œ ์ด๋ฒˆ์ฃผ๋Š” ์Šคํ‚ตํ•  ๋ป”ํ–ˆ๋Š”๋ฐ, ์ €๋ฒˆ์— ์จ๋‘” ๊ธ€์ด ์žˆ์–ด ์ด๋ฒˆ์ฃผ๋„ ์ด๋ ‡๊ฒŒ ์™„๋ฃŒํ•œ๋‹ค. 

์ฐธ๊ณ 

  •  
๋ฐ˜์‘ํ˜•
์ €์ž‘์žํ‘œ์‹œ ๋น„์˜๋ฆฌ ๋ณ€๊ฒฝ๊ธˆ์ง€ (์ƒˆ์ฐฝ์—ด๋ฆผ)
    DrawingProcess
    DrawingProcess
    ๊ณผ์ •์„ ๊ทธ๋ฆฌ์ž!

    ํ‹ฐ์Šคํ† ๋ฆฌํˆด๋ฐ”