CSE/Data Science Basic 3

[Data Science Basic] Linear Regression & Prediction With Orange3

회귀(Regression)라는 것의 사전적 의미는 '되돌아 가다.' 이다. 회귀는 '프랜시스 골턴'의 유전학 연구에서 유래했다. '프랜시스 골턴'은 "부모의 키와 자녀의 키는 유전적으로 어떤 관계가 있는가?"를 주제로 잡고 연구를 했다. 위를 보면 miparentHeight와 childHeight의 상관 계수가 약 0.3 정도 하는 것을 볼 수 있다. 이 말은 상관 관계가 크진 않지만, 상관은 있다는 이야기이다. 부모의 키가 크면 자식의 키가 어느 정도 증가한다는 해석을 내놓을 수 있다. 회귀의 법칙은 부모의 키와 자녀의 키는 선형적인 상관 관계가 성립해야 한다는 말이다. 평균으로의 회귀(regression to the mean)는 부모와 자녀의 키가 가진 선형 관계의 기울기는 1을 넘지 않아야 한다는 ..

[Data Science Basic] About EDA(exploratory data analysis) with Orange3

데이터에 대해서 두 가지 접근법이 존재한다. CDA와 EDA다. CDA 는 확증적 데이터 분석으로 (confirmatory data analysis) 가설을 수립하고 데이터를 통해 통계적 유의성을 검정하는 전통적 분석 기법이다. 로널드 피셔(Ronald Fisher)는 모집단과 표본을 구별하고 모집단에 관한 지식을 정밀한 소표본에 의하여 추정하는 방법을 수립해, 추계 통계학을 창시했다. 가설검정, 신뢰구간(=유의 수준), 유의확률(p-value) 등의 관련 용어들도 존재한다. 그와 다른 EDA, 탐색적 데이터 분석이 존재한다. (exploratory data analysis) 정해진 가설과 모형없이 데이터의 구조와 특성을 통해 통찰을 얻는 분석 기법이다. 존 튜키(John Tukey)는 "EDA는 우리가..

[Data Science Basic] Data and Data Science Process

데이터 과학 이란 무엇인가? 여러가지 방법으로 말할 수 있는데 다음과 같다. 첫 번째, 수학과 통계학, 컴퓨터과학, 기타 여러 학문 간의 학제 간 융합적 학문 분야이다. (interdisciplinary field) 두 번째, 데이터로부터 실행가능한 지식과 통찰을 발견하기 위한 학문이다. (knowledge and insights) 세 번째, 데이터를 과학적 방법으로 연구하는 학문의 한 분야이다. (scientific methods) (교수님께서 "과학적 방법"으로 연구한다는 사실을 강조하셨다.) 데이터 과학의 목적 은 과거를 분석해서 현재를 이해하고 미래를 예측하는 것이다. 데이터 과학 프로세스를 살펴보면 중간 중간 단계도 뒤에서 알 수 있다. 앞서 말했듯, 데이터를 과학적 방법으로 연구하는 학문의 한..