Project Process/Study Report

[Study] 혼공학습단 10기: 혼자 공부하는 머신러닝+딥러닝(박해선) - Chapter 01-02 데이터 다루기(1주차)

DrawingProcess 2023. 7. 7. 22:37
반응형

스터디

스터디 범위

Chapter 01 나의 첫 머신러닝

  • 01-1 인공지능과 머신러닝, 딥러닝 ▶️ 인공지능과 머신러닝, 딥러닝은 무엇일까요?
  • 01-2 코랩과 주피터 노트북 ▶️코랩과 주피터 노트북으로 손코딩 준비하기
  • 01-3 마켓과 머신러닝 ▶️마켓을 예로 들어 머신러닝을 설명합니다.

Chapter 02 데이터 다루기

  • 02-1 훈련 세트와 테스트 세트 ▶️ 모델을 훈련 시키는 훈련 세트와 검증하는 테스트 세트로 나누어 학습하기
  • 02-2 데이터 전처리 ▶️정교한 결과 도출을 위한 데이터 전처리 알아보기

스터디 내용

01-3 마켓과 머신러닝

  • matplotlib의 scatter를 이용하여 점군 데이터를 표출
  • zip() 함수를 이용하여 두 데이터 집합을 두 개의 특성(feature)을 가진 데이터의 집합으로 변환가능
  • sklearn의 KNeighbersClassifier() 메소드를 통해 근처 K-Nearest Neighber 알고리즘을 사용가능
  • sklearn의 fit(), predict(), score()을 통해 각각 모델 훈련, 모델 예측, 모델 성능 측정을 할 수 있음

02-1 훈련 세트와 테스트 세트

  • training 데이터와 test 데이터는 샘플링 편향(sampling bias)가 일어나지 않도록 만들어야 함
  • numpy의 ramdom.shuffle을 이용하여 리스트 내의 데이터를 랜덤하게 섞을 수 있음

02-2 데이터 전처리

  • sklearn.model_selection의 train_test_split을 이용하여 훈련, 테스트 데이터를 간단하게 나눌 수 있음
  • matplotlib 내 xlim, ylim을 통해 시각적으로 보여지는 축의 범위(scale)를 조절할 수 있음
  • 스케일이 다른 특성(feature)을 처리하기 위해 표준 점수(standard score, z score)로 변환하여 비교 분석
    • 분산: 데이터에서 평균을 뺀 값을 모두 제곱한 다음 평균을 냄
    • 표준편차: 분산의 제곱근으로 데이터가 분산된 정도
    • 표준점수: 각 데이터가 원점에서 몇 포준편차만큼 떨어져 있는지를 나타내는 값

미션

기본 미션

코랩 실습화면 캡처하기

선택 미션

Ch.02(02-1) 확인문제 풀고, 풀이 과정 정리하기

  • Q1. 머신러닝 알고리즘의 한 종류로서 샘플의 입력과 타깃을 알고 있을 때 사용할 수 있는 학습방법은 무엇인가요? 
  • A1. 1. 지도학습. 지도학습은 입력과 타깃을 전달하여 모델을 훈련한다음 새로운 데이터를 예측하는데 활용하는 학습방법
  • Q2. 훈련 세트와 테스트 세트가 잘못 만들어져 전체 데이터를 대표하지 못하는 현상을 무엇이라 부르나요?
  • A2. 4. 샘플링 편향. 훈련 데이터와 테스트 데이터가 골고루 분포하도록 구성해야함.
  • Q3. 사이킷런은 입력 데이터(배열)가 어떻게 구성되어 있을 것으로 기대하나요?
  • A3. 2. 행: 샘플, 열: 특성. 모든 특성들의 값을 가진 리스트들의 집합으로 2차원 배열로 표현함.

참고

혼공학습단, 혼공, ⁠혼공머신, 혼자 공부하는, 박해선, 혼자 공부하는 머신러닝+딥러닝

 

 

반응형