통계학의 기본 이해
확률 (probability) : 표본 공간에서 실험을 통해 어떤 사건으로 결과가 일어날 가능성
표본 공간 (sample space) : 일어날 수 있는 모든 경우의 수의 집합
사건 (incident) : 실험에 의해 벌어진 일이나 그 값
이산형(명목형) 자료 : 양의 정수로 셀 수 있는 자료
연속형 자료 : 연속되는 수치 자료
순서형 자료 : 순위나 순서의 개념을 갖는 자료
통계학 : 일부분으로 전체를 파악하려는 노력, 모집단으로부터 자료를 수집/정리/요약하고 표본 정보로부터 모집단에 대한 최적의 의사 결정을 내릴 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문
통계학의 강점 : 추론을 맞추면 일부분을 가지고 전체를 파악할 수 있음
통계학의 맹점 : 추론이 절대로 정확할 수 없음
기술 통계학 (Descriptive Statistics) : 요약 통계량, 그래프 표 등을 이용해 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법 (차트를 통한 시각화)
추론 통계학 (Inference Statistics) : 데이터가 모집단으로부터 나왔다는 가정하에 모집단으로부터 추출된 표본을 사용하여 모집단의 특성을 파악하는 방법 (가설 검정)
가설 검정
가설 검정 (hypothesis test) : 모집단 실제의 값이 얼마가 된다는 주장과 관련해 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정
귀무 가설 (영 가설, null hypothesis) : 처음부터 버릴 것으로 예상하는 가설
대립 가설 (연구 가설, alternative hypothesis) : 모집단에서 독립변수와 결과변수 사이에 어떤 특정한 관련이 있다고 예상하는 가설
유의 확률 (p-value) : 귀무 가설이 맞다는 전제 하에 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률
p-value를 사용할 때 주의사항
- p-value는 관계나 집단들 사이에 차이가 생겨나는 것이 우연한 것인지, 변수에 의한 것인지 여부를 밝히는 것
- 하지만 이것이 효과나 변화의 정도, 관계의 강도나 크기 등을 설명하는 것은 아님
t-test : 서로 다른 두개의 집단 혹은 하나의 집단의 전/후의 평균에 통계적으로 유의미한 차이가 있는지 검정, 적합한 t-test 방법을 선택하기 위한 f-test 필요
- t-test의 귀무 가설 : 두 집단의 평균에 유의미한 차이가 없다. (p >= 0.05 (유의수준))
- t-test의 대립 가설 : 두 집단의 평균에 유의미한 차이가 있다. (p < 0.05 (유의수준))
f-test : 두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정
- f-test의 귀무 가설 (등분산 가정 t-test) : 두 집단의 분산에 유의미한 차이가 없다. (p >= 0.05 (유의수준))
- f-test의 대립 가설 (이분산 가정 t-test) : 두 집단의 분산에 유의미한 차이가 있다. (p < 0.05 (유의수준))
회귀분석
회귀 분석 (regression analysis) : 두 개 이상의 연속형 변수(수치)인 종속 변수와 독립 변수 간의 관계를 파악하는 분석
- 독립 변수 (x값) : 우리가 알고 있는 값
- 종속 변수 (y값) : 우리가 알고 싶은 값
단순 선형 회귀 분석 : 독립 변수가 한개 / 결정계수가 1에 가까울수록 회귀 모형이 실제 값을 잘 설명함
다중 선형 회귀 분석 : 독립 변수가 여러개 / 조정된 결정계수가 1에 가까울수록 회귀 모형이 실제 값을 잘 설명함
f 값이 0.05 미만이면 회귀모형이 유의미함
오차 : 실제값 - 예측값
시계열 데이터 분석 / 지수 평활법
시계열 데이터 분석 : 시간의 흐름에 따라 발생된 데이터를 분석하는 기법
시계열 데이터 : 시간의 흐름에 따라 정리한 데이터
정상 시계열 데이터 vs. 비정상 시계열 데이터
비정상 시계열 데이터(대부분의 시계열 데이터 유형)는 분석이 어려움 / 보통 정상 시계열 데이터로 변환해 분석함
정상성 : 관측된 시간에 무관한 성질 / 추세나 계절성을 가지고 있지 않음
지수 평활법 (Exponential Smoothing) : 현재 시점에 가까운 시계열 자료에 큰 가중치를 주고, 과거 시계열 데이터일수록 작은 가중치를 주어 미래 시계열 데이터를 예측하는 기법
지수 평활법 엑셀 함수
=FORECAST.ETS(예측할 날짜, 알고 있는 실제 값들, 과거의 날짜들, [계절성 주기], [누락 데이터 처리], [중복시 계열 처리])
계절성 주기 옵션
- 0 : 주기가 없다고 가정하고 선형 예측
- 1 또는 생략 : 엑셀에서 자동으로 계절성을 예측
- 2 이상 : 해당 주기로 데이터를 예측
누락 데이터 처리 옵션
- 1 또는 생략 : 누락된 데이터를 주변 데이터의 평균으로 계산
- 0 : 누락된 데이터를 0으로 계산
중복시 계열 처리 옵션 : 중복된 시계열이 있을 경우 중복된 값을 어떻게 처리할 지 결정
- 1 또는 생략 : AVERAGE (평균으로 반영)
- 2 : COUNT (빈칸이 아닌 숫자만 개수를 세서 반영)
- 3 : COUNTA (빈칸이 아닌 모든 값의 개수를 세서 반영)
- 4 : MAX (최대값만 반영)
- 5 : MEDIAN (중간값으로 반영)
- 6 : MIN (최소값만 반영)
- 7 : SUM (합계를 반영)
머신러닝 vs 딥러닝
- 머신러닝 : 컴퓨터가 스스로 학습 / 어떤 작업의 경험을 학습해 인공지능의 성능을 향상시키는 방법
- 딥러닝 : 인공신경망 방식으로 정보를 처리하는 머신러닝 기법 중 하나 / 인간의 뉴런과 비슷함
머신러닝의 종류
- 지도 학습 (Supervised Learning) : 정답이 있는 데이터를 학습 후 학습한 모델이 얼마나 정답을 정확하게 맞추는지 평가하는 학습
- 분류 (classification) : 연속형 수치의 입력 값을 활용해 특정 수치를 예측하는 지도 학습 (날씨-기온예측, 주식-주가예측 등)
- 회귀 (regression) : 주어진 입력 값을 2개 혹은 여러 개의 결과값으로 분류하는 지도 학습 (스팸 메일 여부 판단, 대출 상환 여부 판단, 구매 고객군 분류 등)
- 비지도 학습 (Unsupervised Learning) : 정답이 없는 데이터를 활용해 데이터를 학습
- 군집 분석(clustering), 시각화 (visualization), 차원 축소 (dimensionality reduction) 등
- 강화 학습 (Reinforcement Learning) : 학습 시스템(에이전트)이 취한 행동에 대해 보상 또는 벌점을 주어 가장 큰 보상을 받는 방향으로 유도하는 방법
- 정책 : 가장 큰 보상을 얻기 위해 에이전트가 해야 할 행동을 선택하는 방법
데이터 시각화
- 데이터 시각화 (data visualization) : 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현해 전달하는 과정 / 새로운 인사이트를 공유하는데 사용됨
- 스토리 : 데이터 시각화의 목적
- 시각적 객체 (visual objects) : 차트, 그래프 등 / 주요 데이터 포인트를 강조 표시하고 복잡한 데이터 세트를 단순화함
- 차트 생성 시 고민할 3가지 문제
- 어떤 숫자로 차트를 그릴 것인가?
- 어떤 차트가 숫자를 가장 잘 설명하는가?
- 차트를 어떻게 디자인하는게 가장 효과적인가?
- 차트의 종류
- 콤보형 차트 : 2개 이상의 정보를 표현
- 거품형 차트 : 숫자(데이터)의 크기나 비율을 혹은 지도 상의 분포도를 거품으로 표현
- 폭포형 차트 : 데이터의 증감을 표현
'데이터 분석 부트캠프 > 주간학습일지' 카테고리의 다른 글
[패스트캠퍼스] 데이터 분석 부트캠프 16기 4주차 - Python의 Selenium을 활용한 데이터 크롤링 (6) | 2024.09.13 |
---|---|
[패스트캠퍼스] 데이터 분석 부트캠프 16기 3주차 - Python 제어문/예외처리/함수/변수/클래스 (7) | 2024.09.05 |
[패스트캠퍼스] 데이터 분석 부트캠프 16기 3주차 - Python 자료형 (1) | 2024.09.03 |
[패스트캠퍼스] 데이터 분석 부트캠프 16기 1주차 - EXCEL (1) | 2024.08.23 |
패스트캠퍼스 데이터 분석 부트캠프 16기 OT (0) | 2024.08.19 |