서브메뉴

본문

R을 이용한 결측데이터 분석 (최대우도 및 다중투입 기법을 중심으로)
R을 이용한 결측데이터 분석 (최대우도 및 다중투입 기법을 중심으로)
저자 : 백영민
출판사 : 한나래아카데미
출판년 : 2021
ISBN : 9788955662559

책소개

분석결과의 대표성과 타당성 확보를 위한 필수과정, 결측데이터 분석

사회과학 데이터를 분석하다 보면 어떤 방식으로든 결측데이터(missing data), 즉 측정되지 않은 데이터를 마주하게 된다. 특히 사람들의 태도나 의견, 지식이나 과거 행동 등을 측정할 때 ‘모름’, ‘응답거부’ 등과 같은 결측값들이 자주 등장하게 된다. 사회과학 영역이 아니더라도 환자의 진료기록이나 검진기록 등을 다루는 의료데이터에서도 결측데이터는 매우 빈번하게 등장한다.
문제는 데이터 분석에서 결측값이 발생하면 통계적 검증력이 감소한다는 것이다. 결측값이 무작위 발생 메커니즘에서 멀어질수록 통계적 검증력은 대폭 감소하게 된다. 결측데이터가 무시하기 어려운 규모로 발생할 때, 통상적인 결측데이터 제거 방법인 리스트단위 결측제거(listwise deletion)로는 분석결과의 대표성(representativeness)을 확보하기 어려운 것은 물론 타당성(validity)과 정확성(precision)도 확보할 수 없다.

이 책에서는 결측데이터에 대처하는 데이터 분석기법으로 학계에서 가장 널리 사용되는 ‘최대우도(ML, maximum likelihood)’ 결측데이터 분석기법과 ‘다중투입(MI, multiple imputation)’ 기법을 소개하고, R을 통해 두 기법을 실습하는 과정을 제시한다. 결측데이터와 관련된 기본적 개념(이를테면 MCAR, MAR, MNAR 등)을 가급적 쉬운 말로 소개하고, ML 기법과 MI 기법이 어떤 논리로 결측데이터 현상에 대처하는지 설명한 후 R을 통해 각 기법을 실습하였다. 실습과정은 시뮬레이션 데이터와 현실데이터를 사례로 단계별로 제시하였고, ML 기법과 MI 기법이 왜 통상적인 결측데이터 대처방법들에 비해 우수하며 두 기법의 장단점은 무엇인지 쉽게 설명하는 데 집중하였다.

이 책은 R을 소개하는 입문서가 아니라 R을 활용하여 어떻게 결측데이터 분석을 진행하는지를 설명하는 책이다. 따라서 독자들은 R에 대한 기초지식과 함께 (결측데이터의 발생 메커니즘에 대한 가정을 이해하기 위해) 성향점수분석에 대한 어느 정도의 사전지식을 지니고 있어야 한다. 아울러 R tidyverse 패키지의 내장함수들에 대한 기초적 지식도 필요하다.

결측데이터 분석기법이 아무리 발전한다고 하더라도, 가급적 실측된 데이터를 확보하는 것이 가장 좋다. 연구자는 연구를 계획하는 단계부터 데이터를 수집하는 단계까지 결측데이터가 발생하지 않도록 최선을 다해야 한다. 하지만 그럼에도 불구하고 결측데이터 발생을 완전히 막는 것은 불가능하다. 이 책에서 집중적으로 다룬 2가지 기법, 최대우도(ML) 기법과 다중투입(MI) 기법은 결측데이터 분석기법들 중 현재까지 가장 널리 사용되는 것이며, 가장 신뢰할 수 있는 기법이다. 모쪼록 다양한 학문분과의 연구자들이 이 책을 통해 결측데이터 분석기법을 타당하게 적용할 수 있는 방법들을 익히고, 각자의 분야에서 더욱더 신뢰할 수 있는 연구결과를 이끌어낼 수 있기를 기대한다!
[교보문고에서 제공한 정보입니다.]

출판사 서평

분석결과의 대표성과 타당성 확보를 위한 필수과정, 결측데이터 분석



사회과학 데이터를 분석하다 보면 어떤 방식으로든 결측데이터(missing data), 즉 측정되지 않은 데이터를 마주하게 된다. 특히 사람들의 태도나 의견, 지식이나 과거 행동 등을 측정할 때 ‘모름’, ‘응답거부’ 등과 같은 결측값들이 자주 등장하게 된다. 사회과학 영역이 아니더라도 환자의 진료기록이나 검진기록 등을 다루는 의료데이터에서도 결측데이터는 매우 빈번하게 등장한다.

문제는 데이터 분석에서 결측값이 발생하면 통계적 검증력이 감소한다는 것이다. 결측값이 무작위 발생 메커니즘에서 멀어질수록 통계적 검증력은 대폭 감소하게 된다. 결측데이터가 무시하기 어려운 규모로 발생할 때, 통상적인 결측데이터 제거 방법인 리스트단위 결측제거(listwise deletion)로는 분석결과의 대표성(representativeness)을 확보하기 어려운 것은 물론 타당성(validity)과 정확성(precision)도 확보할 수 없다.



이 책에서는 결측데이터에 대처하는 데이터 분석기법으로 학계에서 가장 널리 사용되는 ‘최대우도(ML, maximum likelihood)’ 결측데이터 분석기법과 ‘다중투입(MI, multiple imputation)’ 기법을 소개하고, R을 통해 두 기법을 실습하는 과정을 제시한다. 결측데이터와 관련된 기본적 개념(이를테면 MCAR, MAR, MNAR 등)을 가급적 쉬운 말로 소개하고, ML 기법과 MI 기법이 어떤 논리로 결측데이터 현상에 대처하는지 설명한 후 R을 통해 각 기법을 실습하였다. 실습과정은 시뮬레이션 데이터와 현실데이터를 사례로 단계별로 제시하였고, ML 기법과 MI 기법이 왜 통상적인 결측데이터 대처방법들에 비해 우수하며 두 기법의 장단점은 무엇인지 쉽게 설명하는 데 집중하였다.



이 책은 R을 소개하는 입문서가 아니라 R을 활용하여 어떻게 결측데이터 분석을 진행하는지를 설명하는 책이다. 따라서 독자들은 R에 대한 기초지식과 함께 (결측데이터의 발생 메커니즘에 대한 가정을 이해하기 위해) 성향점수분석에 대한 어느 정도의 사전지식을 지니고 있어야 한다. 아울러 R tidyverse 패키지의 내장함수들에 대한 기초적 지식도 필요하다.



결측데이터 분석기법이 아무리 발전한다고 하더라도, 가급적 실측된 데이터를 확보하는 것이 가장 좋다. 연구자는 연구를 계획하는 단계부터 데이터를 수집하는 단계까지 결측데이터가 발생하지 않도록 최선을 다해야 한다. 하지만 그럼에도 불구하고 결측데이터 발생을 완전히 막는 것은 불가능하다. 이 책에서 집중적으로 다룬 2가지 기법, 최대우도(ML) 기법과 다중투입(MI) 기법은 결측데이터 분석기법들 중 현재까지 가장 널리 사용되는 것이며, 가장 신뢰할 수 있는 기법이다. 모쪼록 다양한 학문분과의 연구자들이 이 책을 통해 결측데이터 분석기법을 타당하게 적용할 수 있는 방법들을 익히고, 각자의 분야에서 더욱더 신뢰할 수 있는 연구결과를 이끌어낼 수 있기를 기대한다!
[알라딘에서 제공한 정보입니다.]

목차정보

1부 결측데이터 분석 개요

1장 결측데이터의 의미와 발생원인
1 결측데이터의 잠재적 문제
2 현실데이터에서의 결측데이터

2장 결측데이터 발생 메커니즘 가정
1 데이터 구분: 완전데이터, 실측데이터, 결측데이터
2 완전무작위 결측발생(MCAR)
3 확률적 결측발생(MAR)
4 비확률적 결측발생(MNAR)
5 결측데이터 발생 메커니즘 정리

3장 예시데이터 및 실습용 R 패키지 소개
1 예시데이터 I: 시뮬레이션 데이터
2 예시데이터 II : 현실데이터
3 실습을 위해 필요한 R 패키지 소개
4 결측데이터 점검

4장 기존 결측데이터 분석기법과 문제점
1 리스트단위 결측제거
2 쌍별 결측제거
3 평균대체
4 회귀투입
5 확률적 회귀투입
6 결측데이터 분석기법들로 얻은 분석결과 비교


2부 최대우도 결측데이터 분석기법

5장 ML 기법 개요
1 최대우도 추정
2 ML 기법을 이용한 기술통계분석
3 ML 기법을 이용한 상관관계분석
4 ML 기법을 이용한 회귀모형추정
5 현실데이터 대상 ML 기법 적용 예시

6장 ML 기법 기반 경로모형, 확증적 인자분석, 구조방정식 모형
1 경로모형: 잠재변수 미포함
2 확증적 인자분석: 잠재변수 포함
3 구조방정식 모형: 잠재변수 포함

7장 보조변수를 포함한 ML 기법
1 보조변수의 의미와 역할
2 보조변수 포함 분석방법: 포화상관모형
3 잠재변수 포함 시 포화상관모형 추정

8장 다차항 및 상호작용효과항이 투입된 ML 기법
1 다차항 추정 실습
2 상호작용효과항 추정 실습

9장 범주형 변수와 ML 기법
1 이분변수와 순위 범주형 변수
2 무순위 범주형 변수

10장 ML 기법 정리


3부 다중투입 결측데이터 분석기법

11장 MI 기법 개요
1 확률적 회귀투입 재검토
2 연쇄방정식 기반 다중투입(MICE) 알고리즘
3 MI 기법 과정: 대체투입(imputing), 분석(analyzing), 통합(pooling)
4 MI 기법을 이용한 기술통계분석
5 MI 기법을 이용한 상관관계분석
6 MI 기법을 이용한 회귀모형 추정
7 결측데이터 발생 상황별 MI 기법 분석결과 비교
8 현실데이터 대상 MI 기법 분석실습

12장 보조변수를 포함한 MI 기법
1 보조변수 포함 분석 실습

13장 다차항 및 상호작용효과항이 투입된 MI 기법
1 ‘투입후 변환’ 대 ‘변환후 투입’
2 다차항 추정 실습
3 상호작용효과항 추정 실습

14장 범주형 종속변수와 MI 기법
1 이분변수: 이항 로지스틱 회귀모형
2 순위 범주형 변수: 순위 로지스틱 회귀모형
3 무순위 범주형 변수: 다항 로지스틱 회귀모형

15장 MI 기법과 잠재변수 포함 모형추정
1 순위 범주형 변수를 설명하는 잠재변수 포함 확증적 인자분석
2 순위 범주형 변수를 설명하는 잠재변수 포함 구조방정식 모형

16장 MI 기법 정리


4부 마무리

17장 MNAR 상황의 결측데이터 분석기법
1 사후 민감도 분석
2 MNAR 가정 기반 결측데이터 분석기법들: 선택모형과 패턴혼합모형
3 MAR 가정 기반 결측데이터 분석기법 보강

18장 다층 데이터와 결측데이터 분석기법

19장 결측데이터 분석 시 고려사항
1 데이터 및 변수 정의
2 결측데이터 발생 메커니즘 가정
3 보조변수 확정
4 결측데이터 점검
5 투입모형 및 분석모형 추정
6 분석모형 추정결과 서술
[교보문고에서 제공한 정보입니다.]

QuickMenu

  • TOP