본문 바로가기

통계학41

총변동의 분해 산점도 사지을 보자. 각 점은 특정 연도의 통화증가율(x축)과 인플레이션율(y축)을 나타낸다. 파란색 선은 이점들의 전반적인 추세를 보여주는 회귀선이다. 1993녀는 조금 특이하다. 이 해 통화증가ㅠㄹ은 17.54% 였고 인플레이션율은 6.35%. 회귀선보다 위에 있다는 것은 통화증가율만으로 예상되는 것보다 인플레이션이 더 높았다는 의미다. 다시 말해, 다른 요인들도 영향을 미쳤다. 총변동의 분해는 왜 중요할까?이제 통계적으로 왜 1993년 인플레이션이 평균보다 높았는지 에 대한 분석을 해보자.전체 기간의 평균 인플레이션은 4.5%이다. 1993년은 6.35%로 평균보다 1.85% 높다. 이 차이(1.85%)는 왜 발생할까?이 차이를 두 부분으로 나눈다. 1. 통화증가율로 설명되는 부분(R) : 회귀선 .. 2025. 5. 19.
회귀직선 수식적 이해 1. 예시: 컴퓨터 가격지수 작성컴퓨터처럼 기술 발전이 빠른 제품은 단순히 가격만 비교하면 실제 가격 하락을 제대로 측정할 수 없습니다. 예를 들어:2000년 150만원 컴퓨터: CPU 500MHz, 메모리 128MB2010년 150만원 컴퓨터: CPU 3GHz, 메모리 4GB단순 비교하면 가격이 변하지 않았다고 잘못 결론 내릴 수 있습니다.2. 데이터 수집 과정지난 10년간 판매된 데스크탑 컴퓨터 정보 수집각 컴퓨터의 스펙(x): CPU 속도, 메모리 용량 등연도 정보(d₂,...,d₁₀): 첫 해 기준으로 2~10년차 연도 더미변수판매가격(y): 각 컴퓨터의 실제 판매가격3. 분석 방법 (어려운 식 부분 설명)슬라이드의 분석 방법에서 나오는 식은 다음과 같습니다: log(y)를 상수항, x, d₂,... 2025. 5. 15.
회귀직선 수식적 이해 1. 예시: 컴퓨터 가격지수 작성컴퓨터처럼 기술 발전이 빠른 제품은 단순히 가격만 비교하면 실제 가격 하락을 제대로 측정할 수 없습니다. 예를 들어:2000년 150만원 컴퓨터: CPU 500MHz, 메모리 128MB2010년 150만원 컴퓨터: CPU 3GHz, 메모리 4GB단순 비교하면 가격이 변하지 않았다고 잘못 결론 내릴 수 있습니다.2. 데이터 수집 과정지난 10년간 판매된 데스크탑 컴퓨터 정보 수집각 컴퓨터의 스펙(x): CPU 속도, 메모리 용량 등연도 정보(d₂,...,d₁₀): 첫 해 기준으로 2~10년차 연도 더미변수판매가격(y): 각 컴퓨터의 실제 판매가격3. 분석 방법 (어려운 식 부분 설명)슬라이드의 분석 방법에서 나오는 식은 다음과 같습니다: log(y)를 상수항, x, d₂,... 2025. 5. 14.
회귀직선 1. 회귀분석과 최소자승법1. 회귀분석 쉽게 이해하기회귀직선은 두 변수 간의 관계를직선으로 표현한 것이다. 이 직선은 두 가지 요소로 결정된다.절편 : 직선이 y축과 만나는지점기울기 : 직선의 경사도 기울기의 의미기울기는 x가 변할 때 y가 얼마나 변하는가를 보여주는데, 데이터를 어떻게 처리했느냐에 따라 세 가지 다른 해석이 가능합니다. 1. 원래 변수 그대로 사용할때의미 : x가 1단위 증가하면 y는 기울기만큼 증가예 : 교육 1년이 증가하면 월급이 12만원 증가2. x와 y 로그 변환 했을 때의미 : 탄력성을 나타낸다.x가 1% 변하면 y는 기울기% 변한다.예 : 근무시간이 1% 증가하면 생산량이 0.8% 증가3. y만 로그변환 했을 때의미 : x가 1단위 변할 때 y의 퍼센트 변화율예 : 나폴레.. 2025. 5. 14.
회귀직선의 오차 1. 실제값과 추정치의 차이제곱근 평균 제곱 오차(root mean square error) RMSE RMSE란? RMSE는 모델이 예측한 값과 실제 관측값 사이의 차이를 측정하는 방법이다. 쉽게 말해 평균적으로 예측이 실제값으로부터 얼마나 떨어져 있는가를 나타낸다. RMSE의 특징단위 : RMSE는 원래 데이터와 같은 단위를 가진다. 예를 들어, 키를 예측하는 모델이라면 RMSE도 cm단위가 된다.오차 가중치 : RMSE는 제곱을 사용하기 때문에 큰 오차에 더 많은 가중치를 부여한다. 10cm 오차 하나는 10cm 오차 하나는 1cm오차 100개보다 RMSE에 더 큰 영향을 미친다. 자유도 조정 때로는 추정하는 파라미터 수를 고려해 분모를 n 대신 n-p로 사용하기도 한다. 이를 자유도가 조정된 RM.. 2025. 5. 9.
회귀분석의 핵심 개념 요약 회귀분석의 핵심 개념 요약1. 기본 개념회귀분석은 두 변수 간의 관계를 분석하는 방법입니다. 예를 들어, 중간고사 점수(x)로 기말고사 점수(y)를 예측하는 상황을 생각해 볼 수 있습니다.2. 회귀선(Regression Line)회귀선은 데이터 포인트들을 가장 잘 대표하는 직선입니다.이 선은 x값이 주어졌을 때 예상되는 y값을 알려줍니다.예: 중간고사 70점이면 기말고사는 약 75점 정도 예상된다.3. 편차(오차)와 RMSE실제 데이터 포인트들은 이 회귀선에서 조금씩 떨어져 있습니다.이 떨어진 거리를 '편차' 또는 '오차'라고 부릅니다.RMSE(Root Mean Square Error)는 이 오차들의 대표적인 크기를 나타냅니다.쉽게 말하면 "평균적으로 예측값과 실제값의 차이가 얼마나 되는지"를 보여줍니다.. 2025. 5. 7.