excelsu의 공부 기록 블로그

이상치(Outlier).. 본문

통계

이상치(Outlier)..

excelsu 2022. 7. 12. 17:25

데이터의 이상치 판단에 있어 일반적인 데이터의 경향에 벗어남 정도를 판단할 근거를 찾는 것은 매우 중요하다.

그러나 완전히 정의되어 있는 기준은 없으며 오히려 수치의 관계보다는 그 자료의 도메인 지식과 관련된 종합적 판단이 우선되어야 한다.

일반적인 기준에서 데이터의 이상치 유무와 그에 대한 적절한 조정은 그 의미를 먼저 고려하여 조정하여야 한다.

 

이러한 이상치를 판단하는 일반적인 기준으론
박스플롯을 계산하는 Q1 - 1.5*IQR   or    Q3 + 1.5*IQR로 판단을 하거나 

표준화된 잔차의 절대값이 3이상인 경우 이상값이라고 판단 되어지며

영향점을 측정하는 도구로 여러 가지가 있는데  그 중에서 cook’s D 값이 1보다 큰경우나 DFFIT의 절대값이 2보다 큰경우 또 다른 값에 비해서 2배 이상 클 때 영향점이라고 합니다

 

이상치의 다양한 방법으로 해결

1. 수정 - 기입하는데에 있어서 오류가 있었더라면 그것을 확인 후 수정합니다. 

2. 변수변환 - 로그나 루트를 취해 줌으로 심하게 쏠린 값들이 아닌 경우로 변하는 경우가 있습니다.

3. 제거 - 좋은 모형을 만들기 위해 혹은 아주 특별히 발생한 경우일 때 제거합니다.

              이상값을 삭제할 수록 좋은 결정계수가 나오는데 엄밀하게 말하면 실제데이터로 

              회귀모형을 적합 하는 것이 아니므로 상당히 위험한 작업일 수 있습니다

              특히나 n이 작을 때는 더더욱요한 개 한개 삭제하는게 엄청 크거든요.

4. 놔두기 - 변수 변환 등으로도 해결이 안되고 제거하기도 애매모호하면 그냥 놔주고 다른 

                  방법으로 해결합니다.

5. 합치기 - 범주형일 경우 가장 패턴이 비슷한 범주로 합칩니다.

 

이상치를 제거하거나 수정하기전에 확실히 데이터를 들여다보고 도메인 관련 자료들을 찾아보면서 제대로된 분석을 할 수 있도록 해야한다.

 

참고 : https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=enshs&logNo=221003182320 

 

outlier(이상치)의 발견

1 이상치(outliers)와 높은 레버리지(leverage) 관찰치1.1 이상치와 레버리지데이터의 분석 과정에서 일반...

blog.naver.com

http://www.datamarket.kr/xe/index.php?mid=board_mXVL91&document_srl=7144&listStyle=viewer 

 

데이터분석 - 4.회귀분석(part2)

4.회귀분석(part2) by 지니상 posted May 05, 2015

www.datamarket.kr