[Study] 혼공학습단 10기: 혼자 공부하는 머신러닝+딥러닝(박해선)

Project Process/Study Report

DrawingProcess 2023. 7. 20. 08:30

스터디

K-최근접 이웃: 이웃한 샘플의 클래스 비율로 확률 기반 분류 모델이지만, 근접한 이웃 수(K)에 연관된 이산적인 확률을 출력하는 단점.

로지스틱 회귀: 선형 방정식을 사용한 분류 알고리즘. 선형 회귀와 달리 시그모이드 함수나 소프트맥스 함수를 사용하여 연속적인 클래스 확률을 출력가능.

scikit-learn

LogisticRegression: 로지스틱 회귀를 위한 클래스
- solver 매개변수: 사용할 알고리즘 선택 가능. 기본값은 '1bfgs'.
  - 사이킷런 0.17에 추가된 'sag'는 확률적 평균 경사 하강법 알고리즘으로 특성과 샘플 수가 많을 때 성능은 빠름
  - 사이 킷런 0.19 버전 에는 'sag'의 개선 버전인 'saga' 가 추가됨
- penalty 매개변수: L2 규제 ( 릿지 방식 ) 와 L1 규제 ( 라쏘 방식 ) 를 선택가능. 기본값은 L2 규제를 의미 하는 '12'.
- C 매개변수: 규제 의 강도를 제어. 기본값은 1.0 이며 값이 작을 수록 규제가 강해짐
predict_proba: 예측 확률을 반환함
- 이진 분류의 경우, 샘플 마다 음성 클래스 와 양성 클래스에 대한 확률 을 반환함
- 다중 분류의 경우, 샘플 마다 모든 클래스에 대한 확률을 반환함
decision_function: 모델이 학습 한 선형 방정식의 출력을 반환함
- 이진 분류의 경우, 양성 클래스의 확률 이 반환함. 0 보다 크면 양성 클래스 작거나 같으면 음성 클래스 로 예측함.
- 다중 분류의 경우, 각 클래스 마다 선형 방정식을 계산하여 가장 큰 값의 클래스가 예측 클래스.

확률적 경사 하강법(Stocastic Gradient Descent, 이하 SDG): 훈련세트에서 샘플을 꺼내 손실함수의 경사를 따라 최적의 모델을 찾는 알고리즘.

손실 함수(loss function): SDG로 최적화할 대상.

이진 분류: 로지스틱 회귀(logistic regression) 또는 이진 크로스엔트로피(binary cross entropy) 손실 함수 사용
다중 분류: 크로스엔트로피(cross entropy) 손실 함수 사용
회귀: 평균 제곱 오차(Mean Square Error) 손실 함수 사용
추가로, 비용 함수(cost function)이란? 훈련세트에 대한 모든 샘플에 대한 손실함수의 합

scikit-learn

SGDClassifier: 확률적 경사 하강법을 사용한 분류 모델.
- loss 매개변수: 확률적 경사 하강법으로 최적화할 손실 함수를 지정. 기본값은 서포트 벡터 머신을 위한 ‘hinge’ 손실 함수이며, 로지스틱 회귀를 위해서는 ‘log’로 지정.
- penalty 매개변수: 규제의 종류를 지정. 기본값은 L2 규제를 위한 ‘l2’. 규제 강도는
- alpha 매개변수: 규제 강도 지정. 기본값은 0.0001.
- max_iter 매개변수: 에포크 횟수를 지정. 기본값은 1000.
- tol 매개변수: 반복을 멈출 조건. n_iter_no_change 매개변수에서 지정한 에포크 동안 손실이 tol 만큼 줄어들지 않으면 알고리즘이 중단됨. tol 매개변수의 기본값은 0.001이고 n_iter_no_change 매개변수의 기본값은 5.
SGDRegressor: 확률적 경사 하강법을 사용한 회귀 모델.
- loss 매개변수: 손실 함수를 지정. 기본값은 제곱 오차를 나타내는 ‘squared_loss’.
- 앞의 SGDClassifier에서 설명한 매개변수는 모두 SGDRegressor에서 동일하게 사용됨