일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 기술통계분석
- 회귀모형
- 디시전트리
- 분류
- 이변량 분석
- contrasts can be applied only to factors with 2 or more levels
- R
- post man
- 코딩테스트
- 오류
- 기본가정
- 전처리
- 엑셀
- 선형성
- disgusting
- 언어분석
- 자기상관
- 워홀
- 예측
- 정규성
- cook's distance
- 이상치
- 회귀분석
- 다중공선성
- KNNImputer
- sql
- VIF
- by oneself
- 등분산검정
- 등분산성
- Today
- Total
excelsu의 공부 기록 블로그
이상치(Outlier).. 본문
데이터의 이상치 판단에 있어 일반적인 데이터의 경향에 벗어남 정도를 판단할 근거를 찾는 것은 매우 중요하다.
그러나 완전히 정의되어 있는 기준은 없으며 오히려 수치의 관계보다는 그 자료의 도메인 지식과 관련된 종합적 판단이 우선되어야 한다.
일반적인 기준에서 데이터의 이상치 유무와 그에 대한 적절한 조정은 그 의미를 먼저 고려하여 조정하여야 한다.
이러한 이상치를 판단하는 일반적인 기준으론
박스플롯을 계산하는 Q1 - 1.5*IQR or Q3 + 1.5*IQR로 판단을 하거나
표준화된 잔차의 절대값이 3이상인 경우 이상값이라고 판단 되어지며
영향점을 측정하는 도구로 여러 가지가 있는데 그 중에서 cook’s D 값이 1보다 큰경우나 DFFIT의 절대값이 2보다 큰경우 또 다른 값에 비해서 2배 이상 클 때 영향점이라고 합니다.
이상치의 다양한 방법으로 해결
1. 수정 - 기입하는데에 있어서 오류가 있었더라면 그것을 확인 후 수정합니다.
2. 변수변환 - 로그나 루트를 취해 줌으로 심하게 쏠린 값들이 아닌 경우로 변하는 경우가 있습니다.
3. 제거 - 좋은 모형을 만들기 위해 혹은 아주 특별히 발생한 경우일 때 제거합니다.
이상값을 삭제할 수록 좋은 결정계수가 나오는데 엄밀하게 말하면 실제데이터로
회귀모형을 적합 하는 것이 아니므로 상당히 위험한 작업일 수 있습니다.
특히나 n이 작을 때는 더더욱요. 한 개 한개 삭제하는게 엄청 크거든요.
4. 놔두기 - 변수 변환 등으로도 해결이 안되고 제거하기도 애매모호하면 그냥 놔주고 다른
방법으로 해결합니다.
5. 합치기 - 범주형일 경우 가장 패턴이 비슷한 범주로 합칩니다.
이상치를 제거하거나 수정하기전에 확실히 데이터를 들여다보고 도메인 관련 자료들을 찾아보면서 제대로된 분석을 할 수 있도록 해야한다.
참고 : https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=enshs&logNo=221003182320
outlier(이상치)의 발견
1 이상치(outliers)와 높은 레버리지(leverage) 관찰치1.1 이상치와 레버리지데이터의 분석 과정에서 일반...
blog.naver.com
http://www.datamarket.kr/xe/index.php?mid=board_mXVL91&document_srl=7144&listStyle=viewer
데이터분석 - 4.회귀분석(part2)
4.회귀분석(part2) by 지니상 posted May 05, 2015
www.datamarket.kr
'통계' 카테고리의 다른 글
[기초통계] 이변량 분석 (0) | 2022.07.15 |
---|---|
[통계값] CV(coefficient of variation)값 (0) | 2022.07.08 |
[기초통계] 상관분석/교차분석 (0) | 2022.06.27 |
[기초통계] 빈도분석/기술통계분석 (0) | 2022.06.27 |
[머신러닝] 군집(Clustering ) VS 분류(Classification) (0) | 2022.06.24 |