서브메뉴

본문

데이콘 경진대회 1등 솔루션 (다양한 분야의 데이터를 분석하면서 발견하는 데이터 인사이트와 분석 노하우)
데이콘 경진대회 1등 솔루션 (다양한 분야의 데이터를 분석하면서 발견하는 데이터 인사이트와 분석 노하우)
저자 : 김민수1906
출판사 : 위키북스
출판년 : 2021
ISBN : 9791158392390

책소개

다양한 분야의 데이터 분석을 통한 데이터 인사이트와 분석 노하우를 소개합니다

금융, 스포츠, 기상, 지구과학 등 다양한 데이터를 가지고 문제를 해결하는 데이콘(https://www.dacon.io/) 경진대회 중 다섯 대회에서 우승한 팀의 솔루션을 소개합니다. 문제 소개부터 시작해, 도메인 분석, 환경 구축, 데이터 탐색, 전처리, 모델 구축과 검증, 앙상블(ensemble)에 이르는 데이터 분석의 전 과정을 꼼꼼하게 살펴볼 수 있습니다.

◎ KBO 타자 OPS 예측(김민수1906): 프로야구 선수의 내년 성적(출루율, 장타율) 예측
◎ 반도체 박막 두께 분석(Context_KKP): 파이토치를 활용한 반사율 스펙트럼 분석
◎ 퇴근시간 버스 승차인원 예측(제주감귤): 교통카드, 날씨, 금융 데이터와 지오코딩 활용
◎ 상점 신용카드 매출 예측(DB분석가): 파이썬과 R 언어, 자기회귀누적이동평균(ARIMA) 모델을 활용
◎ KBO 외국인 투수 스카우팅 최적화(TNT): 팬그래프와 KBO 데이터를 활용해 투수의 제구력을 평가
[교보문고에서 제공한 정보입니다.]

목차정보

▣ 01장: KBO 타자 OPS 예측
1.1 문제 정의
__1.1.1 경진대회 소개
__1.1.2 평가척도
__1.1.3 도메인 조사
__1.1.4 문제 해결을 위한 접근 방식 소개
__1.1.5 분석환경 구축
1.2 탐색적 데이터 분석
__1.2.1 프리시즌 데이터 분석
__1.2.2 정규시즌 데이터 분석
__1.2.3 일별 데이터 분석
__1.2.4 탐색적 데이터 분석 요약
1.3 데이터 전처리
__1.3.1 결측치 처리 및 데이터 오류 처리
__1.3.2 규정 타수 정의
__1.3.3 시간변수
____시간 반영 함수 정의와 변수 생성
____변수 선택 & 시간 범위
__1.3.4 추가 변수 생성
__1.3.5 데이터 사후 처리
__1.3.6 SLG 데이터 전처리
1.4 모델 구축과 검증
__1.4.1 데이터 분할
__1.4.2 모델 선택
____릿지와 라쏘
____랜덤 포레스트
____XGBoost(eXtra Gradient Boost)
____알고리즘별 성능 비교
__1.4.3 결과 해석 및 평가
____랜덤 포레스트
____라쏘와 릿지 회귀 모델
1.5 성능 향상을 위한 방법
__1.5.1 앙상블
__1.5.2 단순화된 모델 생성
__1.5.3 테스트 데이터 정제
____OBP
____SLG
__1.5.4 반발계수의 변화
1.6 정리

▣ 02장: 반도체 박막 두께 분석
2.1 문제 정의
__2.1.1 경진대회 소개
__2.1.2 평가척도
__2.1.3 문제 해결을 위한 접근 방식
__2.1.4 분석환경 구축
2.2 탐색적 데이터 분석
__2.2.1 데이터 분석 및 통계
____연속형, 수치형 데이터
____데이터 기초 통계
____데이터 시각화
2.3 데이터 전처리
__2.3.1 결측치 처리
__2.3.2 데이터 파이프라인
__2.3.3 커스텀 데이터 클래스
2.4 모델 구축과 검증
__2.4.1 모델 탐색
____회귀 문제에 대한 머신러닝 모델
____회귀 문제에 대한 신경망 모델
__2.4.2 신경망 모델 구축
____모델 소개
____베이스라인 모델 및 대표 모델
____모델 레이어 구성 살펴보기
__2.4.3 모델 검증
2.5 성능 향상을 위한 방법
__2.5.1 정규화 기법 적용하기
__2.5.2 추가 실험하기
____옵티마이저 및 스케줄러 조정
____하이퍼파라미터(배치 크기, 은닉층 노드 개수, 레이어 구성 조정)
__2.5.3 앙상블
2.6 정리

▣ 03장: 퇴근시간 버스 승차인원 예측
3.1 문제 정의
__3.1.1 경진대회 소개
__3.1.2 평가척도
__3.1.3 문제 해결을 위한 접근 방식 소개
____주의할 점
__3.1.4 분석환경 구축
____데이콘 데이터 내려받기
____깃허브에서 데이터 내려받기
____라이브러리 설치
3.2 탐색적 데이터 분석
____데이터 경로 설정
__3.2.1 데이터 설명
____train.csv와 test.csv
____bus_bts.csv
____jeju_financial_life_data.csv
____weather.csv
____rain.csv
__3.2.2 데이터 시각화를 통한 탐색적 데이터 분석
____타깃 변수 분포 확인하기
____단일 변수에 따른 타깃 변수의 변화
____요일에 따른 퇴근시간 평균 탑승객 수
____버스 종류에 따른 탑승객 수
____일별 출퇴근 시간 탑승객 수
3.3 데이터 전처리
__3.3.1 내부 데이터를 통한 변수 생성
____탐색적 데이터 분석을 통한 변수
____도메인 조사를 통한 변수
____시간대를 활용한 변수
____bus_bts를 활용한 변수
____좌표를 활용한 변수
__3.3.2 외부 데이터를 통한 변수 생성
____날씨를 활용한 변수
____jeju_financial_life_data를 활용한 변수
__3.3.3 라벨 인코딩과 원핫 인코딩 변수
____라벨 인코딩 변수
____원핫 인코딩 변수
__3.3.4 전체 변수 정리
3.4 모델 구축과 검증
__3.4.1 머신러닝 모델
____배깅 방식 앙상블 모델
____부스팅 방식 앙상블 모델
__3.4.2 모델 검증
____교차검증
__3.4.3 변수 선택
____최종 데이터 구축
____그리드 탐색
____임의탐색
__3.4.5 최종 모델 구축
____주 모델 선택
____최종 모델 구축
3.5 성능 향상을 위한 방법
__3.5.1 submission 간 앙상블
____결괏값 간 상관계수 확인
____여러 가지 앙상블 기법
3.6 정리

▣ 04장: 상점 신용카드 매출 예측
4.1 문제 정의
__4.1.1 경진대회 소개
__4.1.2 평가척도
__4.1.3 대회 관련 사전 조사
__4.1.4 문제 해결을 위한 접근 방식 소개
____데이터 살펴보기
____데이터의 노이즈
____분석 방향
__4.1.5 분석환경 구축
____아나콘다 가상환경 구축
____주피터 노트북 설치
____rpy2(파이썬에서 R 객체 사용)
____pmdarima(시계열 분석)
____statsmodels(통계 분석)
____seaborn, tqdm 패키지 설치
____주피터 노트북에 가상환경 커널 추가하기
4.2 데이터 전처리
__4.2.1 노이즈 제거
__4.2.2 다운 샘플링
__4.2.3 날짜 지정 범위 생성과 시리즈 객체 변환
4.3 탐색적 데이터 분석
__4.3.1 상점별 매출 특성
____계절성이 있는 상점
____추세가 있는 상점
____휴업 중인 상점
__4.3.2 시계열 데이터의 정상성
____ADF-Test
4.4 모델 구축과 검증
__4.4.1 파이썬에서 R 시계열 패키지 forecast를 통한 모델링
__4.4.2 시계열 모델 선택과 검증
____자기회귀누적이동평균 모델
____지수평활법
____STL 분해를 적용한 지수평활법
4.5 성능 향상을 위한 방법
__4.5.1 상점 매출액의 로그 정규화
__4.5.2 파이썬에서 R 시계열 패키지 forecastHybrid를 통한 앙상블

▣ 05장: KBO 외국인 투수 스카우팅 최적화
5.1 문제 정의
__5.1.1 경진대회 소개
__5.1.2 평가척도
__5.1.3 도메인 조사
__5.1.4 문제 해결을 위한 접근 방식 소개
__5.1.5 분석환경 구축
5.2 탐색적 데이터 분석
__5.2.1 KBO/팬그래프 데이터에 기록된 야구 지표 분석
__5.2.2 스탯캐스트 데이터에 기록된 야구 지표 분석
5.3 데이터 전처리
__5.3.1 가설을 확인하기 위한 투수 집단 선정하기
__5.3.2 유효한 데이터 선정하기
5.4 모델 구축과 검증
__5.4.1 선형회귀분석
__5.4.2 아웃 확률 추정하기
5.5 성능 향상을 위한 방법
__5.5.1 볼 배합 지표
__5.5.2 배럴 타구 허용 비율
5.6 정리

▣ 06장: 부록
A.1 아나콘다 다운로드와 설치
__A.1.1 아나콘다 다운로드
__A.1.2 아나콘다 설치
A.2 파이썬 패키지 확인과 추가 설치
__A.2.1 아나콘다 프롬프트 실행
__A.2.2 기본 설치된 패키지 확인
__A.2.3 파이썬 패키지 추가 설치
A.3 장별 실습에 필요한 패키지를 일괄 설치
__A.3.1 requirements.txt를 사용해 패키지를 일괄 설치
__A.3.2 environment.yml로 가상 환경을 구성하고 패키지를 일괄 설치
A.4 주피터 노트북
__A.4.1 주피터 노트북 시작
__A.4.2 주피터 노트북 사용
__A.4.3 주피터 노트북 종료
[교보문고에서 제공한 정보입니다.]

QuickMenu

  • TOP