excelsu의 공부 기록 블로그

[회귀분석] 회귀모형 실증분석 (논문예시) 본문

통계

[회귀분석] 회귀모형 실증분석 (논문예시)

excelsu 2022. 6. 22. 14:29

https://kiss.kstudy.com/thesis/thesis-view.asp?key=3672902 

 

서울시 상업용 부동산의 경매 매각가격 영향요인에 관한 연구

본 연구에서는 2013~2018년 6월까지의 서울시 상업용 부동산의 경매자료를 이용하여 경매 매각가격에 영향을 미치는 요인들을 분석하였다. 본 연구에서는 상권, 시기, 부동산 시장, 입지, 물건, 경

kiss.kstudy.com

 

 

우선, 본 연구에서는 회귀분석의 기본 가정 중

등분산성을 확인하기 위하여 <표 4>와 같이 White Test를 실시하였다.

검정결과, χ2 의 값이 389.06으로 나타났으며, 유의확률이 5%이하 로 나타나 회귀모형에 이분산성이 존재하는 것으로 나타났다.

Breush-Pagan 검정결과에서도 χ2 의 값은 60.64, 유의확률은 0.0002로 나타나 회귀모형에서 이분산성이 확인되었다. 이에 따라 본 연구에서는 이분산성의 문제를 해결하기 위하여 Robust 추정을 통하여 회귀분석을 실시하였다.

 


*회귀분석 기본가정

 - 등분산성  : 잔차가 특정한 패턴을 보이지않는다. 

             *등분산검정 (0.05이상 일시 등분산)

                      - white test

                      - Breush-Pagan

                      - 잔차 플롯 확인

            /  이분산일시 Robust추정(이상치에 영향을 적게받도록)

 

 

 - 선형성 : target변수y와 독립변수x간 선형성을나타내는가 (산점도 확인)

                    / 선형성을 만족하지않는다면

                            1. 새로운변수추가

                            2. 로그/지수/루트등 변환 (해석어려움)

                            3. 해당변수제거

                            4. 회귀모델을 만들고 변수선택법을 이용 (가장 추천)

 

 

 - 독립성 : 다중공선성(독립변수x들끼리의 상관관계 정도)없도록 (각 변수간 상관계수 확인)

                    /독립성을 만족하지 않는다면

                             다중공선성있는 변수 제거 : 변수선택법(stepwise 등)

          

 

 - 정규성 : 정규분포를 따르는가

                 - Q-Q(Quantile-Quantile plot)plot 그려보기

                 - Shapiro-Wilk 검정

                 - Shapiro-Wilk 검정 적용해보기

                 - 콜모고로프-스미르노프(K-S 검정)

                 - 콜모고로프-스미노로프검정 적용해보기

 

 

**변수선택 stepwise를 사용시 네가지 기본가정을 위배하는 변수를 제거해줌

****하지만 요즘은 stepwise를 사용하지않는것이 추세인듯 (https://brunch.co.kr/@gimmesilver/71)

   ->각각 데이터 검증하고 변수선택x OR lasso,PLS,LAR이용 OR cross validation이용(검증 샘플을 다르게 사용해봄)

 


 

모형의 적합도를 살펴보면,

F 값이 36.67로 모형은 유의수준 1%하에서 유의하게 나타났으 며,

R2 은 0.667, 수정된 R2 은 0.649로 나타나 모형의 설명력이 우수한 것으로 나타났다.

더빈 -왓슨 값도 2.107로 2에 가까운 바, 오차의 자기상관은 발생하지 않으며,

분산팽창계수(VIF) 도 모두 10이하로 나타나 변수들 간의 다중공선성은 발생하지 않았다.

 


*모형적합도

 - F값 = 회귀제곱평균(MSR) / 잔차제곱평균(MSE)

 - R2(결정계수/설명력) = 회귀제곱합(SSR) / 총제곱합(SST)   (전체 편차 중 회귀로 설명 가능한 편차가 몇 %인지 )

          -분석에 사용된 표본크기가 200 이상인 경우에는 Adjusted R Square를 기준으로 해석하는 것이 정확하다.

          - R Square : 학계 : 0.6이상, 마케팅조사 실무: 0.3이상이면 의미가 있다고 해석한다.  (데이터분석 실무에서는 더 높은값을 요구하는듯(0.8이상?)

 

 - 더빈-왓슨 : 잔차끼리의 자기상관 검정 (독립적이어야함)

     - 자기상관 : 시간 또는 공간적으로 연속된 일련의 관측치들간에 존재하는 상관관계.

      - 더빈 왓슨 통계량은 0 ~ 4사이의 값을 갖을 수 있음

                - 0에 가까울수록 → 양의 상관관계

                - 2에 가까울수록 → 오차항의 자기상관이 없음

                - 4에 가까울수록 → 음의 상관관계

 - VIF(분산팽창계수) : 10이하일시 다중공선성 발생x