[패스트캠퍼스] 데이터 분석 부트캠프 16기 2주차 - 기초수학/통계

2024. 8. 30. 16:12·데이터 분석 부트캠프/주간학습일지

통계학의 기본 이해

확률 (probability) : 표본 공간에서 실험을 통해 어떤 사건으로 결과가 일어날 가능성

표본 공간 (sample space) : 일어날 수 있는 모든 경우의 수의 집합

사건 (incident) : 실험에 의해 벌어진 일이나 그 값

 

이산형(명목형) 자료 : 양의 정수로 셀 수 있는 자료

연속형 자료 : 연속되는 수치 자료

순서형 자료 : 순위나 순서의 개념을 갖는 자료

 

통계학 : 일부분으로 전체를 파악하려는 노력, 모집단으로부터 자료를 수집/정리/요약하고 표본 정보로부터 모집단에 대한 최적의 의사 결정을 내릴 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문

통계학의 강점 : 추론을 맞추면 일부분을 가지고 전체를 파악할 수 있음

통계학의 맹점 : 추론이 절대로 정확할 수 없음

 

기술 통계학 (Descriptive Statistics) : 요약 통계량, 그래프 표 등을 이용해 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법  (차트를 통한 시각화)

추론 통계학 (Inference Statistics) : 데이터가 모집단으로부터 나왔다는 가정하에 모집단으로부터 추출된 표본을 사용하여 모집단의 특성을 파악하는 방법 (가설 검정)


가설 검정

가설 검정 (hypothesis test) : 모집단 실제의 값이 얼마가 된다는 주장과 관련해 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정

귀무 가설 (영 가설, null hypothesis) : 처음부터 버릴 것으로 예상하는 가설

대립 가설 (연구 가설, alternative hypothesis) : 모집단에서 독립변수와 결과변수 사이에 어떤 특정한 관련이 있다고 예상하는 가설

 

유의 확률 (p-value) : 귀무 가설이 맞다는 전제 하에 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률

 

p-value를 사용할 때 주의사항

  • p-value는 관계나 집단들 사이에 차이가 생겨나는 것이 우연한 것인지, 변수에 의한 것인지 여부를 밝히는 것
  • 하지만 이것이 효과나 변화의 정도, 관계의 강도나 크기 등을 설명하는 것은 아님

t-test : 서로 다른 두개의 집단 혹은 하나의 집단의 전/후의 평균에 통계적으로 유의미한 차이가 있는지 검정, 적합한 t-test 방법을 선택하기 위한 f-test 필요

  • t-test의 귀무 가설 : 두 집단의 평균에 유의미한 차이가 없다. (p >= 0.05 (유의수준))
  • t-test의 대립 가설 : 두 집단의 평균에 유의미한 차이가 있다. (p < 0.05 (유의수준))

f-test : 두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정

  • f-test의 귀무 가설 (등분산 가정 t-test) : 두 집단의 분산에 유의미한 차이가 없다. (p >= 0.05 (유의수준))
  • f-test의 대립 가설 (이분산 가정 t-test) : 두 집단의 분산에 유의미한 차이가 있다. (p < 0.05 (유의수준))

회귀분석

회귀 분석 (regression analysis) : 두 개 이상의 연속형 변수(수치)인 종속 변수와 독립 변수 간의 관계를 파악하는 분석

  • 독립 변수 (x값) : 우리가 알고 있는 값
  • 종속 변수 (y값) : 우리가 알고 싶은 값

 

단순 선형 회귀 분석 : 독립 변수가 한개 / 결정계수가 1에 가까울수록 회귀 모형이 실제 값을 잘 설명함

다중 선형 회귀 분석 : 독립 변수가 여러개 / 조정된 결정계수가 1에 가까울수록 회귀 모형이 실제 값을 잘 설명함

f 값이 0.05 미만이면 회귀모형이 유의미함

오차 : 실제값 - 예측값

출처 : COSADAMA

 


시계열 데이터 분석 / 지수 평활법

시계열 데이터 분석 : 시간의 흐름에 따라 발생된 데이터를 분석하는 기법

시계열 데이터 : 시간의 흐름에 따라 정리한 데이터

 

정상 시계열 데이터 vs. 비정상 시계열 데이터

비정상 시계열 데이터(대부분의 시계열 데이터 유형)는 분석이 어려움 / 보통 정상 시계열 데이터로 변환해 분석함

정상성 : 관측된 시간에 무관한 성질 / 추세나 계절성을 가지고 있지 않음

 

 

지수 평활법 (Exponential Smoothing) : 현재 시점에 가까운 시계열 자료에 큰 가중치를 주고, 과거 시계열 데이터일수록 작은 가중치를 주어 미래 시계열 데이터를 예측하는 기법

 

지수 평활법 엑셀 함수

=FORECAST.ETS(예측할 날짜, 알고 있는 실제 값들, 과거의 날짜들, [계절성 주기], [누락 데이터 처리], [중복시 계열 처리])

 

계절성 주기 옵션

  • 0 : 주기가 없다고 가정하고 선형 예측
  • 1 또는 생략 : 엑셀에서 자동으로 계절성을 예측
  • 2 이상 : 해당 주기로 데이터를 예측

누락 데이터 처리 옵션

  • 1 또는 생략 : 누락된 데이터를 주변 데이터의 평균으로 계산
  • 0 : 누락된 데이터를 0으로 계산

중복시 계열 처리 옵션 : 중복된 시계열이 있을 경우 중복된 값을 어떻게 처리할 지 결정

  • 1 또는 생략 : AVERAGE (평균으로 반영)
  • 2 : COUNT (빈칸이 아닌 숫자만 개수를 세서 반영)
  • 3 : COUNTA (빈칸이 아닌 모든 값의 개수를 세서 반영)
  • 4 : MAX (최대값만 반영)
  • 5 : MEDIAN (중간값으로 반영)
  • 6 : MIN (최소값만 반영)
  • 7 : SUM (합계를 반영)

머신러닝 vs 딥러닝

  • 머신러닝 : 컴퓨터가 스스로 학습 / 어떤 작업의 경험을 학습해 인공지능의 성능을 향상시키는 방법
  • 딥러닝 : 인공신경망 방식으로 정보를 처리하는 머신러닝 기법 중 하나 / 인간의 뉴런과 비슷함

머신러닝의 종류

  • 지도 학습 (Supervised Learning) : 정답이 있는 데이터를 학습 후 학습한 모델이 얼마나 정답을 정확하게 맞추는지 평가하는 학습
    • 분류 (classification) : 연속형 수치의 입력 값을 활용해 특정 수치를 예측하는 지도 학습 (날씨-기온예측, 주식-주가예측 등)
    • 회귀 (regression) : 주어진 입력 값을 2개 혹은 여러 개의 결과값으로 분류하는 지도 학습 (스팸 메일 여부 판단, 대출 상환 여부 판단, 구매 고객군 분류 등)
  • 비지도 학습 (Unsupervised Learning) : 정답이 없는 데이터를 활용해 데이터를 학습
    • 군집 분석(clustering), 시각화 (visualization), 차원 축소 (dimensionality reduction) 등
  • 강화 학습 (Reinforcement Learning) : 학습 시스템(에이전트)이 취한 행동에 대해 보상 또는 벌점을 주어 가장 큰 보상을 받는 방향으로 유도하는 방법
    • 정책 : 가장 큰 보상을 얻기 위해 에이전트가 해야 할 행동을 선택하는 방법

 


데이터 시각화

  • 데이터 시각화 (data visualization) : 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현해 전달하는 과정 / 새로운 인사이트를 공유하는데 사용됨
  • 스토리 : 데이터 시각화의 목적
  • 시각적 객체 (visual objects) : 차트, 그래프 등 / 주요 데이터 포인트를 강조 표시하고 복잡한 데이터 세트를 단순화함
  • 차트 생성 시 고민할 3가지 문제
    • 어떤 숫자로 차트를 그릴 것인가?
    • 어떤 차트가 숫자를 가장 잘 설명하는가?
    • 차트를 어떻게 디자인하는게 가장 효과적인가?
  • 차트의 종류
    • 콤보형 차트 : 2개 이상의 정보를 표현
    • 거품형 차트 : 숫자(데이터)의 크기나 비율을 혹은 지도 상의 분포도를 거품으로 표현
    • 폭포형 차트 : 데이터의 증감을 표현
     

콤보형 차트 (데이터 출처: CoronaBoard)
거품형 차트 (출처: 위키백과)
폭포형 차트 (출처: 위키백과)

저작자표시 비영리 변경금지 (새창열림)

'데이터 분석 부트캠프 > 주간학습일지' 카테고리의 다른 글

[패스트캠퍼스] 데이터 분석 부트캠프 16기 4주차 - Python의 Selenium을 활용한 데이터 크롤링  (6) 2024.09.13
[패스트캠퍼스] 데이터 분석 부트캠프 16기 3주차 - Python 제어문/예외처리/함수/변수/클래스  (7) 2024.09.05
[패스트캠퍼스] 데이터 분석 부트캠프 16기 3주차 - Python 자료형  (1) 2024.09.03
[패스트캠퍼스] 데이터 분석 부트캠프 16기 1주차 - EXCEL  (1) 2024.08.23
패스트캠퍼스 데이터 분석 부트캠프 16기 OT  (0) 2024.08.19
'데이터 분석 부트캠프/주간학습일지' 카테고리의 다른 글
  • [패스트캠퍼스] 데이터 분석 부트캠프 16기 3주차 - Python 제어문/예외처리/함수/변수/클래스
  • [패스트캠퍼스] 데이터 분석 부트캠프 16기 3주차 - Python 자료형
  • [패스트캠퍼스] 데이터 분석 부트캠프 16기 1주차 - EXCEL
  • 패스트캠퍼스 데이터 분석 부트캠프 16기 OT
MaxH
MaxH
Development and Analysis log by Max H
  • MaxH
    Max’s analog
    MaxH
  • 전체
    오늘
    어제
    • 분류 전체보기 (24)
      • 데이터 분석 부트캠프 (19)
        • 주간학습일지 (11)
        • 회고록 (8)
      • Python (2)
      • SQL (2)
      • AWS (1)
      • Linux (0)
  • 링크

    • GitHub (@missiletoe)
    • LinkedIn (Yong Suk Heo)
  • 인기 글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.1
MaxH
[패스트캠퍼스] 데이터 분석 부트캠프 16기 2주차 - 기초수학/통계
상단으로

티스토리툴바