일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 등분산성
- 등분산검정
- 분류
- VIF
- 엑셀
- contrasts can be applied only to factors with 2 or more levels
- 전처리
- 코딩테스트
- 정규성
- disgusting
- 디시전트리
- cook's distance
- 기본가정
- 다중공선성
- 자기상관
- 오류
- 언어분석
- post man
- 이변량 분석
- 기술통계분석
- 워홀
- KNNImputer
- R
- sql
- 회귀모형
- 회귀분석
- by oneself
- 선형성
- 예측
- 이상치
- Today
- Total
excelsu의 공부 기록 블로그
[회귀분석] 회귀모형 실증분석 (논문예시) 본문
https://kiss.kstudy.com/thesis/thesis-view.asp?key=3672902
서울시 상업용 부동산의 경매 매각가격 영향요인에 관한 연구
본 연구에서는 2013~2018년 6월까지의 서울시 상업용 부동산의 경매자료를 이용하여 경매 매각가격에 영향을 미치는 요인들을 분석하였다. 본 연구에서는 상권, 시기, 부동산 시장, 입지, 물건, 경
kiss.kstudy.com
우선, 본 연구에서는 회귀분석의 기본 가정 중
등분산성을 확인하기 위하여 <표 4>와 같이 White Test를 실시하였다.
검정결과, χ2 의 값이 389.06으로 나타났으며, 유의확률이 5%이하 로 나타나 회귀모형에 이분산성이 존재하는 것으로 나타났다.
Breush-Pagan 검정결과에서도 χ2 의 값은 60.64, 유의확률은 0.0002로 나타나 회귀모형에서 이분산성이 확인되었다. 이에 따라 본 연구에서는 이분산성의 문제를 해결하기 위하여 Robust 추정을 통하여 회귀분석을 실시하였다.
*회귀분석 기본가정
- 등분산성 : 잔차가 특정한 패턴을 보이지않는다.
*등분산검정 (0.05이상 일시 등분산)
- white test
- Breush-Pagan
- 잔차 플롯 확인
/ 이분산일시 Robust추정(이상치에 영향을 적게받도록)
- 선형성 : target변수y와 독립변수x간 선형성을나타내는가 (산점도 확인)
/ 선형성을 만족하지않는다면
1. 새로운변수추가
2. 로그/지수/루트등 변환 (해석어려움)
3. 해당변수제거
4. 회귀모델을 만들고 변수선택법을 이용 (가장 추천)
- 독립성 : 다중공선성(독립변수x들끼리의 상관관계 정도)없도록 (각 변수간 상관계수 확인)
/독립성을 만족하지 않는다면
다중공선성있는 변수 제거 : 변수선택법(stepwise 등)
- 정규성 : 정규분포를 따르는가
- Q-Q(Quantile-Quantile plot)plot 그려보기
- Shapiro-Wilk 검정
- Shapiro-Wilk 검정 적용해보기
- 콜모고로프-스미르노프(K-S 검정)
- 콜모고로프-스미노로프검정 적용해보기
**변수선택 stepwise를 사용시 네가지 기본가정을 위배하는 변수를 제거해줌
****하지만 요즘은 stepwise를 사용하지않는것이 추세인듯 (https://brunch.co.kr/@gimmesilver/71)
->각각 데이터 검증하고 변수선택x OR lasso,PLS,LAR이용 OR cross validation이용(검증 샘플을 다르게 사용해봄)
모형의 적합도를 살펴보면,
F 값이 36.67로 모형은 유의수준 1%하에서 유의하게 나타났으 며,
R2 은 0.667, 수정된 R2 은 0.649로 나타나 모형의 설명력이 우수한 것으로 나타났다.
더빈 -왓슨 값도 2.107로 2에 가까운 바, 오차의 자기상관은 발생하지 않으며,
분산팽창계수(VIF) 도 모두 10이하로 나타나 변수들 간의 다중공선성은 발생하지 않았다.
*모형적합도
- F값 = 회귀제곱평균(MSR) / 잔차제곱평균(MSE)
- R2(결정계수/설명력) = 회귀제곱합(SSR) / 총제곱합(SST) (전체 편차 중 회귀로 설명 가능한 편차가 몇 %인지 )
-분석에 사용된 표본크기가 200 이상인 경우에는 Adjusted R Square를 기준으로 해석하는 것이 정확하다.
- R Square : 학계 : 0.6이상, 마케팅조사 실무: 0.3이상이면 의미가 있다고 해석한다. (데이터분석 실무에서는 더 높은값을 요구하는듯(0.8이상?)
- 더빈-왓슨 : 잔차끼리의 자기상관 검정 (독립적이어야함)
- 자기상관 : 시간 또는 공간적으로 연속된 일련의 관측치들간에 존재하는 상관관계.
- 더빈 왓슨 통계량은 0 ~ 4사이의 값을 갖을 수 있음
- 0에 가까울수록 → 양의 상관관계
- 2에 가까울수록 → 오차항의 자기상관이 없음
- 4에 가까울수록 → 음의 상관관계
- VIF(분산팽창계수) : 10이하일시 다중공선성 발생x
'통계' 카테고리의 다른 글
[통계값] CV(coefficient of variation)값 (0) | 2022.07.08 |
---|---|
[기초통계] 상관분석/교차분석 (0) | 2022.06.27 |
[기초통계] 빈도분석/기술통계분석 (0) | 2022.06.27 |
[머신러닝] 군집(Clustering ) VS 분류(Classification) (0) | 2022.06.24 |
[기초통계] 분산분석(평균검증) t-test, anova (0) | 2022.06.22 |