분류 전체보기 186

Probability Plot / Normal Probability Plot

Probability Plot 4가지 기본 가정 중 고정분포 가정 테스트에 이용 데이터셋이 근사적으로 주어진 분포를 따르는지에 대한 가정을 검사하기 위해 사용하는 Plot 이론상 분포에 대해 데이터를 그리고, 그림이 직선에 가까우면 데이터가 근사적으로 그 분포를 따름 직선 형태에서 멀어질수록 특정 분포의 모양과 데이터의 모양이 다르다는 뜻 ex) weibull 분포를 따르는 데이터셋 rv_weibull = stats.weibull_min.rvs(1.5, size=10000) sns.histplot(rv_weibull, bins=50, stat='density', kde=True) stats.probplot(rv_weibull, dist=stats.weibull_min, sparams=(1.5),plot=..

skewness(왜도) / kurtosis(첨도)

내가 너무너무너무 헷갈려서 정리했다 ... 꼬리 낮은 빈도의 극단값이 존재하는 도수 분포에서의 길고 좁은 부분 left tail : 도수분포 왼쪽에 극단값이 존재right tail : 도수분포 오른쪽에 극단값이 존재 long tail = fat tail : 극단값이 (정규분포보다) 많음 short-tail = thin tail : 극단값이 (정규분포보다) 적음 = 분포가 골고루 퍼져있음 skewness(왜도) 데이터가 대칭이 아닌 정도 정규분포에 비해 얼마나 비대칭인지 나타내는 정도 skewness>0 : 완쪽으로 치우침, 분포의 꼬리가 오른쪽 = right-skewed distribution skewness 중심으로부터 떨어진 데이터들이 얼마나 많은지 첨도는 큰 편차 혹은 이상치가 많을수록 큰 값을 나..

데이터베이스 시스템

데이터베이스 시스템(DataBase System : DBS) 데이터베이스를 데이터에 저장하고, 이를 관리하여 조직에 필요한 정보를 생성해주는 시스템 데이터베이스와 데이터베이스 관리 시스템을 이용해 조직에 필요한 정보를 제공하는 전체 시스템 사용자, 데이터언어, 컴퓨터도 데이터베이스 시스템에 포함 ** 데이터베이스 시스템의 구성, 데이터베이스 / 데이터베이스 관리 시스템 / 데이터베이스 시스템의 차이 스키마와 인스턴스 스키마(Schema) : 데이터베이스에 저장되는 데이터 구조와 제약조건을 정의한것 인스턴스(Instance) : 스키마에 따라 데이터베이스에 실제로 저장된 값 데이터베이스의 3단계 구조 데이터베이스를 쉽게 이해하고 이용할 수 있도록 하나의 데이터베이스를 보는 관점에 따라 3단계로 나눈 것 외..

로지스틱 회귀

https://ratsgo.github.io/machine%20learning/2017/04/02/logistic/ 로지스틱 회귀 · ratsgo's blog 이번 포스팅에선 범주형 변수를 예측하는 모델인 로지스틱 회귀(Logistic Regression)에 대해 살펴보려고 합니다. 이번 글은 고려대 강필성 교수님과 역시 같은 대학의 김성범, 정순영 교수님 강의를 ratsgo.github.io 로지스틱 회귀 한줄요약 : 특정 확률의 비율을 회귀분석하는 model 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1사이 값으로 예측하고, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도학습 문제의식 y가 범주형(categorical) 변수일때는 다중선형회귀모델을 적용할 수 없음..

School/머신러닝 2022.04.12

데이터베이스 관리 시스템(DBMS)

1. 파일 시스템의 문제점과 데이터베이스 관리 시스템의 필요성 파일 시스템 : 데이터를 파일로 관리하기 위해 파일을 생성/삭제/수정/검색하는 기능을 제공하는 SW 응용프로그램마다 필요한 데이터를 별도의 파일로 관리 파일 시스템의 문제점 : 1) 같은 내용의 데이터를 여러 파일에 중복으로 저장 -> 공간 낭비, 데이터 중복성으로 인해 데이터 일관성과 데이터 무결성을 유지하기 어려움 * 무결성 : 필요로 하는 정보의 수정 여부 / 정보가 외부 프로그램에 의해 수정된 경우 무결성이 깨짐 2) 응용프로그램이 데이터파일에 종속되어있음 -> 사용하는 데이터파일의 구조가 바뀌면 응용프로그램도 바뀌어야 함 : 데이터 종속성 3) 데이터 파일에 대한 동시 공유, 보안, 회복 기능이 없음 4) 응용프로그램 개발 난이도 높..

데이터베이스 기본개념

1. 데이터와 정보의 차이 데이터(data) 정보(information) 현실에서 단순히 관찰하거나 측정하여 수집한 사실이나 값 의사결정에 유용하게 활용할 수 있도록 데이터를 처리(가공)한 결과물 이해하기 쉬운 형태로 가시화되어야 함 정보처리 : 데이터에서 정보를 추출하는 과정 혹은 방법 2. 데이터베이스의 필요성 정보시스템 : 조직 운영에 필요한 데이터를 수집하여 저장해두었다가, 필요할 때 유용한 정보를 만들어주는 수단 데이터베이스 : 정보시스템 안에서 데이터를 저장하고 있다가, 필요할 때 제공하는 역할을 담당 -> 현실세게에서 얻어온 데이터를 정보시스템 안에 보관하기 위해 데이터베이스는 정보시스템 내에 존재함. 데이터베이스에는 데이터가 저장되어있음. 정보시스템이 정보를 만들기 위해 데이터를 필요로 할..

선형분류

1. 분류문제의 정의 분류(classification) 학습 데이터가 주어졌을 때, 해당 학습 데이터의 독립변수들을 이용하여 class 를 예측하는 것 * class : 연속된 값이 아닌 특정 그룹을 상징하는 이산적인 값 => input data가 어떤 class(group) 에 속하는지 예측하는 것 (output 은 class) 결정경계(decision boundary)가 선형인 경우 선형 분류모형, 결정경계가 비선형인경우 비선형 분류모형이라고 함 target class 가 2개인 경우 이원(이진)분류, target class 가 3개 이상인 경우 다원(다진)분류 라고 함 2. 분류 알고리즘의 성능 평가 지표 :accuracy / F1-score Accuracy(정확도) 일반적으로 분류문제의 경우 정확..

School/머신러닝 2022.04.06

과적합과 과소적합

머신러닝 알고리즘은 학습과정을 통해 학습데이터에 대하여 오차(학습오차)를 감소시켜나감 우리가 원하는 모델은 도메인에서 주어진 임의의 데이터에 대해 예측 성능이 뛰어난 모델을 원함 즉, 일반화 오차 가 적은 모델을 원하기 때문에, 모델의 일반화 성능(MSE) 평가시 1. 도메인에서 임의로 뽑은 2. 테스트 데이터(학습에 사용되지 않은 데이터) 로 성능을 평가해야함 과적합(overfitting) : 모델이 지나치게 학습 데이터에 맞춰져서 일반화 성능이 오히려 떨어지는 경우 과소적합(underfitting) : 모델이 학습 데이터에 대해 제대로 학습되지 않아 모델의 성능이 떨어지는 경우 test error = training error + generalization gap generalization gap =..

School/머신러닝 2022.03.30

서브셋

최소제곱법의 결정적인 문제점(약점) 두가지 1) 예측 정확도 : 편향은 낮지만 분산은 높게 추정하는 경우가 있음(불안정한 모델이 만들어지는 경우가 있음) 편향이 낮다 = 적합도가 높다 분산이 높다 = 모집단에서 어떤 데이터를 샘플링해서 회귀분석을 하느냐에 따라서 추정되는 모수값이 크게 달라진다 2) 설명력 가장 좋은 효과를 보이는 매우 작은 서브셋은 설명력을 저하시킨다 서브셋 여러개의 독립변수를 포함하는 경우/포함하지 않는 경우 두가지 경우를 모두 고려한 data set k개의 독립변수가 있다면 (2^k-1) 개의 subset 존재 (모든 독립변수 사용하지 않는 경우를 제외) 최적 서브셋 회귀 (오차)^2 의 합을 최소화하는 서브셋을 구하는 과정 회귀분석에서의 변수 선택 Extra Sum of Squar..

School/머신러닝 2022.03.30