일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 전처리
- 선형성
- post man
- 정규성
- 등분산성
- 언어분석
- 다중공선성
- 워홀
- 오류
- 등분산검정
- R
- 분류
- 이상치
- 기술통계분석
- 회귀분석
- disgusting
- by oneself
- 회귀모형
- KNNImputer
- 디시전트리
- 엑셀
- contrasts can be applied only to factors with 2 or more levels
- 이변량 분석
- cook's distance
- 코딩테스트
- VIF
- 자기상관
- 기본가정
- sql
- 예측
- Today
- Total
목록통계 (8)
excelsu의 공부 기록 블로그
연속형 변수끼리 관계를 볼때는 피어슨 상관관계 범주형 변수끼리 관계를 볼때는 카이제곱 검정 범주형 변수에 대해서 연속형 변수를 분석하고 싶을 때는 t-test,분산분석 연속형 변수에 대해서 범주형 변수를 분석하고 싶을 때는 정확한 분석 방법은 아니지만 로지스틱 분석의 p-value값을 확인한다.
데이터의 이상치 판단에 있어 일반적인 데이터의 경향에 벗어남 정도를 판단할 근거를 찾는 것은 매우 중요하다. 그러나 완전히 정의되어 있는 기준은 없으며 오히려 수치의 관계보다는 그 자료의 도메인 지식과 관련된 종합적 판단이 우선되어야 한다. 일반적인 기준에서 데이터의 이상치 유무와 그에 대한 적절한 조정은 그 의미를 먼저 고려하여 조정하여야 한다. 이러한 이상치를 판단하는 일반적인 기준으론 박스플롯을 계산하는 Q1 - 1.5*IQR or Q3 + 1.5*IQR로 판단을 하거나 표준화된 잔차의 절대값이 3이상인 경우 이상값이라고 판단 되어지며 영향점을 측정하는 도구로 여러 가지가 있는데 그 중에서 cook’s D 값이 1보다 큰경우나 DFFIT의 절대값이 2보다 큰경우 또 다른 값에 비해서 2배 이상 클 ..
CV(coefficient of variation)=변동계수=표준편차/평균 낮을수록 변동값이적어서 평균과 비슷한값을볼수있다.(안정적인 데이터이다.) 표준편차를 비교할 때 사용할 수 있다.(상대적인차이를 동일한 평균의 값으로 비교해볼 수 있다.)
상관분석(Corr) : 상관분석은 연구하고자 하는 변수들 간의 관련성을 분석하기 위해 사용하는 분석이다. 한 변수가 다른 변수와의 관련성이 있는지 여부와 관련성이 있다면 어느정도 관련성이 있는지를 알고자 할때 사용한다. (보통 |0.3|이상인 값은 음의상관이든 양의상관이든 상관이 있다고 생각한다.) 두 변수가 연속형일때만 주로 사용한다. 회귀분석을 할때 다중공선성 체크를 하기 위해 상관분석을 하기도 한다. 교차분석(Crosstab) : 교차분석은 명목 및 서열척도의 범주형 변수들을 분석하기위한 것으로써 한 범주를 다른 범주에 따라 빈도를 교차분류하는 교차표를 먼저 작성하고 두 변수간의 독립성과 관련성을 분석한다.
단변량데이터를 분석할때 간단히 요약하여 알려주는 분석 데이터 통계량 시각화 빈도분석 범주형 데이터 변수의 빈도, 누적 퍼센트, 최빈값 등 barchart, piechart, histogram 기술통계분석 연속형 데이터 평균, 중앙값, 표준편차, 사분위수 등 histogram, boxplot, qqplot, 밀도함수그래프, 산포도

분류와 군집의 차이는 사진 하나로 간단하게 설명할 수 있다. *분류(classification)는 정답(label)가 있는 지도학습이며 학습하여 new data가 어느분류인지 맞추는 방법이다. *군집(clustering)은 정답(label)가 없는 비지도학습이다. 그렇기때문에 어떠한 기준이나 규칙에 의해 임의로 나누어 묶어보는것이다. 대표적으로 분류기법에는 knn이 있고, 군집기법에는 k-means알고리즘이 있다. *knn은 new data의 최근접 k개를 참조하여 new data의 label을 정하는 방법 *k-means알고리즘은 k개 임의의 군집 중심점끼리의 거리합이 최소가 될때까지 이동하여 묶는 방법 사진 출처 : http://www.datamarket.kr/xe/board_BoGi29/9880
0. z-test - 모집단의 분산을 알때 사용 (잘 사용하지 않음) 1. t-test (주로 범주형->연속형 데이터에 사용) - 두 집단의 평균이 차이가 있는지 0.05이하 -> 두 집단간 차이가 있다. 1)독립표본 : 독립된 두집단의 차이 2)대응표본 : 한집단의 두가지 경우 3)일표본 : 한집단의 특정값과 비교 - 선행조건 : 등분산, 독립성, 정규성 2. 분산분석(ANOVA/F-test) (주로 범주형->연속형 데이터에 사용) - 세개 이상의 '집단'(세개의변수x) 평균이 차이가 있는지 -> 0.05이하 차이가 있다. 1)일원배치 분산분석 : 하나의 독립변수x->종속변수y 2)이원배치 분산분석 : 두개의 독립변수x->종속변수y 3)다원배치 분산분석 : 세개이상의 독립변수x->종속변수y - 선행조건..
https://kiss.kstudy.com/thesis/thesis-view.asp?key=3672902 서울시 상업용 부동산의 경매 매각가격 영향요인에 관한 연구 본 연구에서는 2013~2018년 6월까지의 서울시 상업용 부동산의 경매자료를 이용하여 경매 매각가격에 영향을 미치는 요인들을 분석하였다. 본 연구에서는 상권, 시기, 부동산 시장, 입지, 물건, 경 kiss.kstudy.com 우선, 본 연구에서는 회귀분석의 기본 가정 중 등분산성을 확인하기 위하여 와 같이 White Test를 실시하였다. 검정결과, χ2 의 값이 389.06으로 나타났으며, 유의확률이 5%이하 로 나타나 회귀모형에 이분산성이 존재하는 것으로 나타났다. Breush-Pagan 검정결과에서도 χ2 의 값은 60.64, 유의확..