관리 메뉴

Hyunwoo's DATA

<데이터 분석의 힘>을 읽고 본문

<데이터 분석의 힘>을 읽고

꿈꾸는 데이터분석가 2024. 1. 3. 17:16

일본 경제학자 이토 고이치로 저자의 책으로 실천적인 데이터 분석에 초점을 맞춘 계량경제학 입문서라고 저자는 표현하고 있다.
chapter 1에서는 데이터의 상관관계는 인과관계가 아니다를 시작으로
다음장부터는 그렇다면 어떻게 데이터를 분석해야하는지 분석법과 실제 사례를 책에선 다양하게 소개하고 있다.

 

<기억에 남는 내용 요약>

1장 데이터 분석으로 인과관계를 입증하기 어려운 이유

  1. X가 Y에 영향을 주었을 가능성
  2. Y가 X에 영향을 주었을 가능성
  3. 다른 요인 V가 X와 Y 양쪽에 영향을 주었을 가능성

문제는 데이터 수가 아니라 편향이다

2장 RCT(randomized controlled trial 무작위 비교시행)

AB테스트라고도 부른다
인과관계를 밝히는 가장 좋은 방법이다

원칙
1.인과관계를 밝히기 위해 적절하게 집단을 만든다. 반드시 비교집단을 만들어야한다.
2.집단은 반드시 무작위로 나눈다.
3.각 집단에 충분한 표본수를 배정한다

장점
1.인과관계를 과학적으로 보여준다.
2.분석기법과 결과가 투명하다
3.특정한 요인만이 아닌 온갖 요인에 동질성이 생긴다.
4.투명성이 있고 비전문가에게 설명하기 쉽다.
약점
비용,시간,노력이 많이 들고 각 기관의 협력도 필요하다

3장 RD 디자인

RCT를 실시할 수 없을 때는 자연실험을 활용할 수 있다.
자연 실험이란 실제 경험과 유사한 상황을 이용해 인과관계를 분석하는 기법이다
RD디자인은 온갖 경계선을 활용하여 인과관계에 다가서는 자연실험 기법이다

원칙
경계선을 기준으로 한 가지 요인(X)만 비연속적으로 변화하는 상황을 찾아낸다.
경계선 부근에서 X이외의 비연속적으로 변화하지 않는지 검증한다.

강점
1.가정이 성립하면 경계선 부근에서 RCT와 유사한 상황을 이용할 수 있다.
2.주요 결과를 그래프로 나타냄으로써 이해하기 쉬운 투명한 분석이 가능하다
3.다양한 상황과 장소에 걸쳐 경계선이 존재하므로 RCT를 대체하는 효과적인 분석 기법이다.

약점
1.RD디자인의 가정이 성립할 것이라는 근거를 제시할 수는 있지만 실제로 성립하다는 것을 입증할 수는 없다. 이는 RCT와 비교했을 때 큰 약점이다.
2.RCT는 실험 참가자 전체에 대한 인과관계를 보여주는 반면 RD디자인은 경계선 부근의 데이터에 대한 인과관계만 보여준다.

4장 집군분석

집군분석은 계단식 변화를 이용하여 인과관계를 밝혀낸다.
집군분석은 RD디자인과 달리 가로축의 변수를 조작할 수 있다.

원칙
1. 계단식 인센티브를 분석에 이용할 수 있는지 확인한다.
2. 분석하고 싶은 변수(X)만 계단식으로 변한다. 다른 변수는 계단의 경계점 부근에서 비연속적으로 변화하지 않는다.
3. 인센티브가 크게 바뀌는 경계선에서의 데이터 집적을 분석함으로써 개인이나 기업이 인센티브의 변화에 어떻게 반응했는지 인과관계를 검증한다.

강점
1. 분석에 필요한 가정이 성립하면 경계선 부근에서 마치 RCT가 실시된 듯한 상황을 이용할 수 있다.
2. 결과를 그래프로 보여줌으로써 투명한 분석이 가능하다.
3. 계단식으로 인센티브가 변화하는 상황은 다양하다. RCT가 불가능할 경우 유용한 분석 기법이다.
약점
1. 분석에 필요한 가정이 성립할 것이라는 근거를 제시할 수는 있지만 입증할 수는 없다. RCT에 비해 큰 약점이다.
2. 계단식 인센티브에 반응한 대상(집적한 대상)에 대해서만 인과관계를 분석할 수 있다. 그 때문에 실험 참가자 전체에 대한 인과관계를 분석할 수 있는 RCT에 비해 유용성이 떨어질 때도 있다

5장 패널분석

패널데이터란 복수의 집단에 대하여 복수의 기간에 걸쳐 수집한 데이터를 말한다.
패널 데이터 분석은 RCT가 불가능할 때 사용할 수 있는 자연 실험 기법 중 하나이다.
기존에 존재하는 데이터의 흐름을 변화시킬 수 있는 어떤 조건이 주어졌을때,
해당 조건의 실행에 영향을 받은 집단과 영향을 받지 않은 집단이 있다면 RCT처럼 실험을 하지 않더라도 개입집단과 비교집단이 저절로 만들어질 수 있는데, 이 경우 개입 전후의 두 집단의 데이터가 있다면 설득력이 높은 인과관계의 분석이 가능하다.

원칙
1. 개입을 전후해서 개입집단과 비교집단 양쪽의 데이터를 입수할 수 있는지 확인한다.
2. 평행 트렌드 가정이 성립하는지 검증한다.
3. 평행 트렌드 가정이 성립할 가능성이 높다면 두 집단의 평균값 추이를 그래프로 그림으로써 개입 효과의 평균값을 측정한다.

강점
1. 필요한 데이터만 확보된다면 RD디자인이나 집군분석 이상으로 광범위하게 이용할 수 있다.
2. 결과를 그래프로 보여줄 수 있어 쉽고 투명한 분석이 가능하다.
3. 개입집단 전체에 대한 개입 효과를 분석할 수 있다. 분석 대상이 제한된 RD디자인이나 집군분석에 비해 강점이다.

약점: 1. 분석에 필요한 가정이 성립할 것이라는 근거를 제시할 수는 있지만 입증할 수는 없다. 이는 RCT와 비교했을 때 큰 약점이다.
2. RD디자인이나 집군분석에 필요한 가정에 비해 평행 트렌드 가정은 매우 까다로운 가정이며 실제로는 성립하지 않는 경우도 많다.

6장

데이터 분석의 성공요건

① 데이터 분석 전문가와 협력 관계를 구축한다.
② 데이터에 접근할 수 있는 길을 연다.

7장

불량분석을 피하기 위해서 고려해야 할 내용

데이터 자체에 문제가 있다면 모든 것이 무용지물이다.

  • 데이터 측정에 문제가 있고, 수치도 바르게 기재되어 있지 않다.
  • 관측치에 대한 대량의 결측치가 있다.
  • 데이터를 모든 세대가 아닌 편준됭 표본에서만 확보했다.

개입에 파급효과가 존재할 때의 주의점

개입집단에 대한 개입이 비교집단에는 영향을 주지 않는다는 가정하에 실험이 시작된다.
따라서 파급효과가 파급효과가 있다면 올바른 비교 분석이 성립되지않는다.

서로 영향을 줄 수 있는 가능성이 거의 없는 대상을 범위로 설정하거나
처음부터 개입효과 외에 파급효과도 분석할 수 있도록 실험을 설계함으로 원하는 결과를 얻을 수 있다.