본문 바로가기
통계학/경제통계학 1부 : 그림과 수치를 이용한 자료의 정리

종적 자료의 척도와 정리

by 수스리 2025. 4. 23.

변수의 종류에는 무엇이 있을까?

양적 변수 : 나이, 가족의 수, 가구소득

질적 변수 : 혼인상태, 취업여부 -> 일반적으로 질적 변수도 통계처리 목적상 수치로 코딩하여 사용한다.

이상변수 : 가족 수 처럼 2,3,4 등의 이산적인 값만을 취함.

연속변수 : 나이, 가구소득처럼 연속인 값을 취한다.

  • 컴퓨터를 통해 숫자를 표현하면 이론상 이는 언제나 이산적일 수밖에 없다.
  • 현실적으로는 어떠한 연속변수도 이산적으로 근사 시켜 표현할 수밖에 없다.
  • 이때 그 근사의 정확도를 얼마로 할 것인가가 문제의 본질이다.

척도의 종류

명목척도 - 척도의 명칭만 의미 있다.

  • 예시) 결혼 상태에 대한 코드 : { 미혼 = 1, 기혼 = 2, 이혼 = 3, 사별 = 4}

순서척도 - 명칭 및 순서가 의미를 지닌다

  • 예시) 성적 등급 - {poor = 1, fair = 2, good = 3, very good = 4, excellent = 5}

간격척도 - 명칭, 순서 및 간격이 의미를 지닌다.

  • 예) 온도
  • 온도는 간격 배율 의미가 없다. 0원인 상태는 진짜 0원이지만 0도라는건? 그냥 어는점 일 뿐이다.

비율 척도 - 명칭, 순서, 간격 및 배율 모두 의미를 지닌다.

  • 이들 척도의 경우 이른바 "절대적 원점"이 정의된다.
  • 예시 ) 키, 몸무게, 재산 등

 

실험 연구 VS 경험적 연구

실험 연구

  • 실험 연구와 경험적 연구는 다르다.
  • 많은 경우 연구자는 특정 처리(대학 교육, 백신 투여)의 효과를 처리집단과 통제집단간 반응(예컨대, 소득, 소아마비 발병률 등)을 비교함으로써 파악하고자 한다.
  • 여기서 처리를 가한 집단을 처리집단 처리를 가하지 않은 집단을 통제집단이라고 부른다.

실험 연구의 집단 배정의 원리

  • 무작위 배정
    • 처리집단과 통제집단으로 구분한다
    • 확률에 의존한 부작위 배정을 한다.(동전던지기로 투약 집단 비투약 집단으로 나누기)
  • 이중 눈가림
    • 피험자가 본인이 처리를 받았는지 안 받았는지 모르게 조치하여 피험자의 심리적 효과 내지 위약효과( 가짜 약을 먹고 실제 치료 효과를 느끼는 현상 )를 통제한다.
    • 실험자가 피험자의 소속집단을 모르게 조치하여 실험자가 피험자의 반응을 해석 할 때의 자의성이 개입외지 않도록 한다.
  • 이상적인 실험
    • 무작위로 통제된 이중 눈가림 실험이 이상적인 실험이라 할 수 있다

경험적 연구

경험적 연구는 통제된 실험과 달리 관측자료에 의존한다. 연구자는 개체의 행동이 가져오는 결과를 지켜볼 뿐이다. 예를 들면 흡연의 효과 연구 시 흡연자와 비흡연자의 행동이 가져오는 결과를 지켜 만 본다. 어느 누구도 연구자를 기쁘게 하기 위해 억지로 담배를 피거나 끊지 않는다.  실업자 재교육의 경우 실업자 스스로 직업훈련을 받을지, 안 받을지 결정한다. 이런 다양한 사례가 있다. 

 

경험적 연구에서 인과관계 추론 시의 문제점

혼동요인

통제되지 않은 제 3의 요인이 ㅊ처리 여부와 관련이 있으면서 동시에 처리집단과 통제집단의 반응에 차별적인 영향을 주는 요인을 혼동요인이라고 한다.

  • 예 : 태아 때 초음파에 노출되면 출생 시 저체중이 초래되는가?
    • 태아에 문제가 있다고 느낄 때 초음파 검사를 하는 경향
    • 이는 역인과관계
  • 예: 처방을 잘 따르는 순응자가 비순응자보다 사망률이 낮은 것을 근거로 처방이 효과가 있다고 판단할 수 있는가?
    • 순응자와 비순응자는 건강에 대한 태도 및 생에 대한 애착 정도가 다르다.
    • 건강에 훨씬 더 관심이 있고 자신을 더 잘 보살피는 사람이 스스로 순응자가 된다.

심슨의 역설

하위집단에서 관찰된 관계는 하위집단을이 결합되었을 때 그 관계가 바뀌어 나타날 수 있다. 이를 심슨의 역설이라고 부른다. 심슨의 역설은 혼동요인을 통제할 필요성을 깨워준다.

심슨의 역설 사례 1

 

어느 한 대학원에 남자 8,422명 여자 4,321명이 지원했다. 남성 지원자는 44%가 합격했고 여성 지원자는 35%가 합격했다. 지원한 남녀 모두 능력에서는 차이가 없을때 이 학교는 남녀차별이 있는 대학원이라 할 수 있을까? 만약 여성 지원자가 합격률이 낮은 학과에 몰렸고 남자 지원자가 커트라인이 낮은 학과에 몰렸으면 여성 지원자의 합격률은 남학생에 비해 낮다. 학과별로 남져 차별이 없었음에도 불구하고 전체적으로 남녀 합격률에 차이가 나타난다.

 

심슨의 역설 사례 2

 

아파트 단지별로 따로따로 비교해 보면 새 아파트가 오래된 아파트보다 비싸다. 하지만 단지를 통합해서 보면 구축 아파트가 신축 아파트보다 더 비싸다. 구축 아파트는 이미 대규모 단지에 위치해 있어 편의시설에 해택을 본다. 역시 부동산은 위치!

 

하위집단에서 관찰된 관계는 하위집단들이 결험되었을 그 관계가 바뀌어 나타 날 수 있는 데 이를 심슨의 역설이라고 부른다. 심슨의 역설은 경험적 연구에서 적절한 통제의 중요성을 강조한다.

 

혼돈요인의 통제

보다 동질적인 하위집단을 따로따로 비교해서 혼동요인을 통제하자

  • 흡연자와 비흡연자간 사망률 단순 비교의 문제점 : 흡연자 중에는 남성이 많은데 남성은 여성에 비해 심장질환에 걸릴 가능성이 더 높다. 이럴 때는 분리해서 비교하자. 남성 흡연자와 남성 비흡연자, 여성 흡연자와 여성 비흡연자

나이에 따라 흡엽슨관이 다를 뿐 아니라, 폐암 발병률도 다르다.

  • 더욱 세분새서 비교한다. 나이든 남성 흡연자와 나이든 남성 비흡연자를 비교한다. 나이든 여성 흡연자와 나이든 여성흡연자간 비교

자연실험 사례1. 동경대학 프리미엄은 존재하는가?

동경대학 출신들과 타대학 출신들을 비교하는 건 부적절하다. 일본의 동경대학은 1969년 학내사태로 신입생을 선발하지 않았다. 69학전인 다른 좋은 대학 출신들은 학내 사태가 없었으면 동경대학을 갈 수 있었다. 이들을 동경대 인접 학번인 68내지 70학번들과 비교해 본다. 

결론 : 동경대학 프리미엄은 있었고 민간 부분보다 공공 부분에서 강하다.

 

자연실험 : 이중차분법, 회귀불연속 기법

이중 차분법 : 비교의 비교, 즉 차이의 차이 이용하여 treatment effect 존재하는지 분석하는 기법

회귀불연속 기법 : 아주 작은 차이 => 처리집단과 통제집단의 구분 => 두 집단 간 통계적으로 의미 있는 결과의 차이 존재하는지 분석한다.