# (책) 읽게 된 이유
최근들어 AI 분야가 각광받고 있어 데이터 처리에 관심이 가고 있다. 학교에서 배우고 몇번의 프로젝트를 해본 경험이 있는데, 이를 정리해볼 기회가 마땅치 않아 이번 한빛미디어에서 출간한 "혼자 공부하는 데이터분석 with 파이썬" 이 책을 읽으며 한번 정리해보려 했다.
참고로, 이 책은 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
# 목차
Chapter 01 데이터 분석을 시작하며
- 01-1 데이터 분석이란
- __데이터 분석과 데이터 과학
- __데이터 분석가
- __데이터 분석을 위한 도구
- 01-2 구글 코랩과 주피터 노트북
- __구글 코랩
- __노트북
- 01-3 이 도서가 얼마나 인기가 좋을까요?
- __도서 데이터 찾기
- __코랩에서 데이터 확인하기
- __파이썬으로 CSV 파일 출력하기
- __데이터프레임 다루기: 판다스
- __[문제 해결 과정] 적절한 데이터를 찾아서 업로드하고 읽기
Chapter 02 데이터 수집하기
- 02-1 API 사용하기
- __API란
- __파이썬에서 JSON 데이터 다루기
- __파이썬에서 XML 데이터 다루기
- __API로 20대가 가장 좋아하는 도서 찾기
- __[문제 해결 과정] 공개 API로 웹에서 데이터 가져오기
- 02-2 웹 스크래핑 사용하기
- __도서 쪽수를 찾아서
- __검색 결과 페이지 가져오기
- __HTML에서 데이터 추출하기: 뷰티플수프
- __전체 도서의 쪽수 구하기
- __웹 스크래핑할 때 주의할 점
- __[문제 해결 과정] 웹 스크래핑으로 HTML 수집하기
Chapter 03 데이터 정제하기
- 03-1 불필요한 데이터 삭제하기
- __열 삭제하기
- __행 삭제하기
- __중복된 행 찾기
- __그룹별로 모으기
- __원본 데이터 업데이트하기
- __[문제해결 과정] 일괄 처리 함수 만들기
- 03-2 잘못된 데이터 수정하기
- __데이터프레임 정보 요약 확인하기
- __누락된 값 처리하기
- __정규 표현식
- __잘못된 값 바꾸기
- __누락된 정보 채우기
- __[문제해결 과정] 데이터를 이해하고 올바르게 정제하기
Chapter 04 데이터 요약하기
- 04-1 통계로 요약하기
- __기술통계 구하기
- __평균 구하기
- __중앙값 구하기
- __최솟값, 최댓값 구하기
- __분위수 구하기
- __분산 구하기
- __표준편차 구하기
- __최빈값 구하기
- __[문제해결 과정] 데이터프레임에서 기술통계 구하기
- 04-2 분포 요약하기
- __산점도 그리기
- __히스토그램 그리기
- __상자 수염 그림 그리기
- __[문제해결 과정] 통계량을 시각적으로 표현하기
Chapter 05 데이터 시각화하기
- 05-1 맷플롯립 기본 요소 알아보기
- __Figure 객체
- __rcParams 객체
- __여러 개의 서브플롯 출력하기
- 05-2 선 그래프와 막대 그래프 그리기
- __연도별 발행 도서 개수 구하기
- __주제별 도서 개수 구하기
- __선 그래프 그리기
- __막대 그래프 그리기
- __[문제 해결 과정] 맷플롯립으로 선 그래프와 막대 그래프 그리기
Chapter 06 복잡한 데이터 표현하기
- 06-1 객체지향 API로 그래프 꾸미기
- __pyplot 방식과 객체지향 API 방식
- __그래프에 한글 출력하기
- __출판사별 발행 도서 산점도 그리기
- __[문제 해결 과정] 맷플롯립의 다양한 기능으로 그래프 개선하기
- 06-2 맷플롯립의 고급 기능 배우기
- __실습 준비하기
- __하나의 피겨에 여러 개의 선 그래프 그리기
- __하나의 피겨에 여러 개의 막대 그래프 그리기
- __원 그래프 그리기
- __여러 종류의 그래프가 있는 서브플롯 그리기
- __[문제 해결 과정] 맷플롯립으로 복잡한 그래프 그리기
Chapter 07 검증하고 예측하기
- 07-1 통계적으로 추론하기
- __모수검정이란
- __표준점수 구하기
- __중심극한정리 알아보기
- __모집단의 평균 범위 추정하기: 신뢰구간
- __통계적 의미 확인하기: 가설검정
- __정규분포가 아닐 때 가설 검증하기: 순열검정
- 07-2 머신러닝으로 예측하기
- __알아 두면 좋은 머신러닝 용어
- __모델 훈련하기
- __훈련된 모델을 평가하기: 결정계수
- __연속적인 값 예측하기: 선형회귀
- __카테고리 예측하기: 로지스틱 회귀
- __[문제 해결 과정] 도서권수로 대출건수 예측하기
부록
- 부록 A 한발 더 나아가기: 데이터베이스와 SQL
- 부록 B 이 책에서 배운 함수와 메서드
- 부록 C 에필로그
- __확인 문제 정답
- __찾아보기
# 내용
한줄 요약:
데이터 분석에 필요한 기초 공부부터 데이터로 의미있는 결과를 만들기까지.
KeyPoint:
- 정말 기본적인 데이터를 처리하는 것부터 이를 시각화하기까지의 전과정을 다루고 있음
- 저자가 제공하는 예제 소스 및 질문 게시판으로 손쉽게 따라할 수 있음
- [Github] 예제소스: https://github.com/rickiepark/hg-da
- [Youtube] 저자직강: https://www.youtube.com/playlist?list=PLVsNizTWUw7FGzSRCkQrPEEe-ljVXgS7k
- [Kakao] 오픈채팅: https://open.kakao.com/o/gBF5aQ1c
- 혼공게시판: https://hongong.hanbit.co.kr/
- 기본적인 개념을 설명한 챕터의 마지막에 제공하는 [핵심키워드], [확인문제] 등으로 개념을 복습할 수 있음
- 일부 챕터에 제공되는 프로젝트를 통해 개념을 체득할 수 있음
# 느낀 점
기존에 데이터 관련한 프로젝트를 몇번 해본 입장에서 막 새로운 기술이나 흥미있는 내용을 다루지는 않는 책이었다. 하지만 데이터 분석을 처음 해보는 사람이나 단순히 데이터 분석 프로젝트만 해본 사람이라면 기초적인 개념을 익히기에 충분한 책인 것 같아 추천한다.
읽고 나서 있어보이는 내용으로 흥미유발하는 책이 아닌 기초를 탄탄히 잡을 수 있도록 도와주는 책이라는 느낌을 받았다. 그리고 이를 응용할 수 있도록 약간의 프로젝트를 다루어 주어 어떻게 활용할 수 있는지 알려주어, 배우는 입장에서 왜 배우는지 확 와닿았다.
이번에 이 책을 읽으며 기존에 학교에서 배웠던 지식들을 다시한번 정리할 수 있었고, 활용해보면서 관련하여 더욱 공부하고 싶은 열정이 생겼다.
# 참고
박해선. 『혼자 공부하는 데이터 분석 with 파이썬』. 한빛미디어, 2023.01.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
'Contents > Book' 카테고리의 다른 글
[책] 혼자 공부하는 머신러닝+딥러닝(박해선): 수식없이 이해하기 쉬운 머신러닝 교과서 (0) | 2023.04.23 |
---|---|
[책] 파이썬 기반 금융 인공지능(이브 힐피시) (0) | 2023.03.26 |
[책] 네이버 vs 카카오: 대한민국 양대 빅테크 기업의 성장 동력과 미래 전략(홍성용) (0) | 2023.02.12 |
[책] 결국은 문장력이다: 베스트셀러 100권에서 찾아낸 실전 글쓰기 비법 40(후지요시 유타카, 오가와 마리코) (0) | 2023.02.07 |
[책] 442 시간 법칙: 일론 머스크와 빌 게이츠에게 배우는 시간의 힘(하태호) (4) | 2023.02.05 |