'통계' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록통계 (8)

excelsu의 공부 기록 블로그

[기초통계] 이변량 분석

연속형 변수끼리 관계를 볼때는 피어슨 상관관계 범주형 변수끼리 관계를 볼때는 카이제곱 검정 범주형 변수에 대해서 연속형 변수를 분석하고 싶을 때는 t-test,분산분석 연속형 변수에 대해서 범주형 변수를 분석하고 싶을 때는 정확한 분석 방법은 아니지만 로지스틱 분석의 p-value값을 확인한다.

통계 2022. 7. 15. 17:51

이상치(Outlier)..

데이터의 이상치 판단에 있어 일반적인 데이터의 경향에 벗어남 정도를 판단할 근거를 찾는 것은 매우 중요하다. 그러나 완전히 정의되어 있는 기준은 없으며 오히려 수치의 관계보다는 그 자료의 도메인 지식과 관련된 종합적 판단이 우선되어야 한다. 일반적인 기준에서 데이터의 이상치 유무와 그에 대한 적절한 조정은 그 의미를 먼저 고려하여 조정하여야 한다. 이러한 이상치를 판단하는 일반적인 기준으론 박스플롯을 계산하는 Q1 - 1.5*IQR or Q3 + 1.5*IQR로 판단을 하거나 표준화된 잔차의 절대값이 3이상인 경우 이상값이라고 판단 되어지며 영향점을 측정하는 도구로 여러 가지가 있는데 그 중에서 cook’s D 값이 1보다 큰경우나 DFFIT의 절대값이 2보다 큰경우 또 다른 값에 비해서 2배 이상 클 ..

통계 2022. 7. 12. 17:25

[통계값] CV(coefficient of variation)값

CV(coefficient of variation)=변동계수=표준편차/평균 낮을수록 변동값이적어서 평균과 비슷한값을볼수있다.(안정적인 데이터이다.) 표준편차를 비교할 때 사용할 수 있다.(상대적인차이를 동일한 평균의 값으로 비교해볼 수 있다.)

통계 2022. 7. 8. 16:38

[기초통계] 상관분석/교차분석

상관분석(Corr) : 상관분석은 연구하고자 하는 변수들 간의 관련성을 분석하기 위해 사용하는 분석이다. 한 변수가 다른 변수와의 관련성이 있는지 여부와 관련성이 있다면 어느정도 관련성이 있는지를 알고자 할때 사용한다. (보통 |0.3|이상인 값은 음의상관이든 양의상관이든 상관이 있다고 생각한다.) 두 변수가 연속형일때만 주로 사용한다. 회귀분석을 할때 다중공선성 체크를 하기 위해 상관분석을 하기도 한다. 교차분석(Crosstab) : 교차분석은 명목 및 서열척도의 범주형 변수들을 분석하기위한 것으로써 한 범주를 다른 범주에 따라 빈도를 교차분류하는 교차표를 먼저 작성하고 두 변수간의 독립성과 관련성을 분석한다.

통계 2022. 6. 27. 16:41

[기초통계] 빈도분석/기술통계분석

단변량데이터를 분석할때 간단히 요약하여 알려주는 분석 데이터 통계량 시각화 빈도분석 범주형 데이터 변수의 빈도, 누적 퍼센트, 최빈값 등 barchart, piechart, histogram 기술통계분석 연속형 데이터 평균, 중앙값, 표준편차, 사분위수 등 histogram, boxplot, qqplot, 밀도함수그래프, 산포도

통계 2022. 6. 27. 16:40

[머신러닝] 군집(Clustering ) VS 분류(Classification)

분류와 군집의 차이는 사진 하나로 간단하게 설명할 수 있다. *분류(classification)는 정답(label)가 있는 지도학습이며 학습하여 new data가 어느분류인지 맞추는 방법이다. *군집(clustering)은 정답(label)가 없는 비지도학습이다. 그렇기때문에 어떠한 기준이나 규칙에 의해 임의로 나누어 묶어보는것이다. 대표적으로 분류기법에는 knn이 있고, 군집기법에는 k-means알고리즘이 있다. *knn은 new data의 최근접 k개를 참조하여 new data의 label을 정하는 방법 *k-means알고리즘은 k개 임의의 군집 중심점끼리의 거리합이 최소가 될때까지 이동하여 묶는 방법 사진 출처 : http://www.datamarket.kr/xe/board_BoGi29/9880

통계 2022. 6. 24. 10:22

[기초통계] 분산분석(평균검증) t-test, anova

0. z-test - 모집단의 분산을 알때 사용 (잘 사용하지 않음) 1. t-test (주로 범주형->연속형 데이터에 사용) - 두 집단의 평균이 차이가 있는지 0.05이하 -> 두 집단간 차이가 있다. 1)독립표본 : 독립된 두집단의 차이 2)대응표본 : 한집단의 두가지 경우 3)일표본 : 한집단의 특정값과 비교 - 선행조건 : 등분산, 독립성, 정규성 2. 분산분석(ANOVA/F-test) (주로 범주형->연속형 데이터에 사용) - 세개 이상의 '집단'(세개의변수x) 평균이 차이가 있는지 -> 0.05이하 차이가 있다. 1)일원배치 분산분석 : 하나의 독립변수x->종속변수y 2)이원배치 분산분석 : 두개의 독립변수x->종속변수y 3)다원배치 분산분석 : 세개이상의 독립변수x->종속변수y - 선행조건..

통계 2022. 6. 22. 15:08

[회귀분석] 회귀모형 실증분석 (논문예시)

https://kiss.kstudy.com/thesis/thesis-view.asp?key=3672902 서울시 상업용 부동산의 경매 매각가격 영향요인에 관한 연구 본 연구에서는 2013~2018년 6월까지의 서울시 상업용 부동산의 경매자료를 이용하여 경매 매각가격에 영향을 미치는 요인들을 분석하였다. 본 연구에서는 상권, 시기, 부동산 시장, 입지, 물건, 경 kiss.kstudy.com 우선, 본 연구에서는 회귀분석의 기본 가정 중 등분산성을 확인하기 위하여 와 같이 White Test를 실시하였다. 검정결과, χ2 의 값이 389.06으로 나타났으며, 유의확률이 5%이하 로 나타나 회귀모형에 이분산성이 존재하는 것으로 나타났다. Breush-Pagan 검정결과에서도 χ2 의 값은 60.64, 유의확..

통계 2022. 6. 22. 14:29

이전 Prev 1 Next 다음

목록통계 (8)

excelsu의 공부 기록 블로그

티스토리툴바