Skip to content

데이터 사이언스 수학 Repo : Description and Summary of Mathematical concepts and Python libraries commonly used in Data Analysis

License

Notifications You must be signed in to change notification settings

saint-hong/study-math

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Data Analysis and Math

Summary of mathematical concepts and Python libraries commonly used in data analysis

  • 패스트캠퍼스 데이터사이언스 스쿨의 정규과정인 김도형 박사님의 수학강의를 교재와 강의노트를 함께 요약하고 축약된 의미들은 이해한 바데로 풀어서 정리함
  • <김도형의 데이터사이언스 스쿨> 을 바탕으로 추가적인 지식인 필요한 수학개념, 정리, 코드구현 등은 구글링, Documents, API 등을 참고하여 확장함

1. 데이터 사이언스 개괄

1-1. 수학

numpy와 선형대수

  • numpy, 스칼라, 벡터, 텐서, 행렬의 의미와 기호, 행렬의 연산과 성질, 연립방정식

고급선형대수

  • 기하학에서 선형대수의 사용, 고윳값분해, 특잇값분해를 응용하여 주성분분석, 이미지변환 등을 할 수 있다.

sympy와 미적분

  • 머신러닝에서의 함수의 의미, 미적분 공식, 심볼릭 연산으로 미적분하기, 행렬의 미적분, 변분법 사용

scipy와 최적화

  • 최적화 문제와 최대경사법으로 최적화문제 풀기, 사이파이패키지 사용하여 최적화 문제풀기
  • 라그랑주 승수법으로 등식제한조건, 부등식제한조건이 있는 최적화 문제풀기
  • 머신러닝 분야의 LP문제와 QP 문제

pgmpy와 확률론

  • 확률의 수학적 정의, 빈도주의 및 베이지안 확률의 의미
  • 확률분포함수의 정의, 머신러닝에서의 확률이론과 조건부확률
  • 베이즈정리, 피지엠파이 패키지를 이용하여 확률분포 구현하기, 베이즈추정 하기

확률변수와 상관관계

  • 확률변수를 사용한 데이터모형, 기댓값과 분산의 의미, 분산의 기댓값
  • 이산분포 : 베르누이분포, 이행분포, 카테고리분포, 다항분포
  • 연속분포 : 가우시안정규분포, 스튜던트분포, 카이제곱분포, F분포
  • 확률모수 모형 분포 : 베타분포, 디리클레분포, 감마분포

scipy와 확률분포

  • 확률변수의 상관관계, 다변수 정규분포 모형, 조건부 기댓값의 의미
  • 머신러닝의 응용분야인 예측에서의 조건부기댓값의 의미

추정과 검정

  • 데이터기반 판단법, 데이터기반 의사결정인 검정의 의미, 사이파이를 사용한 검정방법
  • 가능도의 의미, 최대가능도 추정법을 사용한 확률분포의 모수추정
  • 모수추정의 불확실성, 베이즈 정리와 베이지안 모수추정법

엔트로피

  • 엔트로피과 지니계수, 확률변수의 정보량과 엔트로피의 관계
  • 쿨벡라이블러발산, 크로스엔트로피를 사용한 확률분호의 유사성 비교

1-2. 머신러닝

  • 회귀문제와 분류문제 : 지도학습
  • 클러스터링 : 비지도학습

1-3. 딥러닝

  • 프레임워크 : 텐서플로우, 파이토치, 케라스 등
  • 인공신경망 구축 :
    • CNN 모형 : 이미지 처리
    • RNN 모형 : 문서 처리
    • GAN 모형 : 이미지 생성

2. 목차

1. 넘파이와 선형대수(numpy and linear algebra)

  • 데이터와 행렬
    • 스칼라, 벡터, 행렬, 텐서
    • 전치연산, 전치행렬
    • 특수한 벡터와 행렬 : 영벡터, 일벡터, 정방행렬, 대각행렬, 항등행렬, 대칭행렬
  • 벡터와 행렬의 연산
    • 요소별연산
    • 브로드캐스팅
    • 선형조합
    • 내적
    • 내적관련 연산
      • 가중합
      • 가중평균
      • 유사도
      • 선형회귀모형
      • 제곱합
    • 잔차
    • 잔차의 크기(RSS)
    • 부분행렬
    • 행렬의 성질
  • 행렬의 성질
    • 부호 : 양의 정부호, 양의 준정부호
    • 크기 : 놈, 대각합, 행렬식
  • 선형연립방정식과 영행렬
    • 선형연립방정식
    • 역행렬 : 계산, 성질, 여러가지 공식
    • 선형연립방정식과 선형예측모델의 관계
    • 최소자승문제
    • 의사역행렬

2. 고급 선형대수(Advanced linear algebra)

  • 선형대수와 해석기하
    • 벡터의 기하학적 의미 : 벡터의 길이
    • 단위벡터
    • 벡터의 선형조합
    • 벡터의 차
    • 유클리드 거리
    • 직교, 정규직교, 코사인 유사도
    • 벡터의 성분과 분해 : 투영성분과 직교성분
    • 직선의 방정식
    • 직선과 점의 거리
  • 좌표와 변환
    • 선형종속과 선형독립
    • 선형종속의 3가지 예
    • 랭크(rank) : 열랭크, 행랭크, 풀랭크, 로우랭크행렬
    • 랭크와 역행렬
    • 벡터공간과 기저벡터
      • 벡터공간
      • 선형독립과 기저벡터의 관계
      • 정규직교인 기저벡터와 벡터공간
    • 표준기저벡터
    • 좌표 : 변환행렬, 좌표변환
    • 이미지 변환
  • 고윳값 분해
    • 고윳값과 고유벡터
    • 고유분해의 의미
    • 특성방정식
    • 고윳값과 대각합, 행렬식의 관계
    • 대각화 : 대각화와 선형독립
    • 고윳값과 역행렬의 관계
    • 대칭행렬과 고유분해 : 랭크-1행렬
    • 대칭행렬과 고윳값의 부호
    • 분산행렬 : 부호, 역행렬과의 관계
    • 고유분해의 성질
  • 특잇값 분해
    • 특잇값과 특이벡터 : 왼쪽 특이벡터, 오른쪽 특이벡터
    • 특잇값분해와 행렬의 크기 : 세로형, 가로형, 축소형
    • 특잇값분해와 고윳값분해의 관계
  • 근사문제
    • 1차원 근사문제
    • 1차원 근사문제의 의미와 풀이
    • 랭크-1 근사문제
    • k차원 근사문제
    • 랭크-k 근사문제

3. 주성분 분석(PCA)

  • PCA의 의미
  • PCA의 기능
  • PCA의 수학적 의미
    • 차원축소와 벡터공간 투영의 관계
    • 역변환행렬의 기능
    • 최적화식을 사용한 PCA 풀이 : 랭크-k차원 근사문제

4. 데이터분석과 함수(Function)

  • 함수
    • 연속과 불연속
    • 역함수
  • 데이터 분석에 사용되는 10가지 함수
    • 다항식 함수
    • 최대함수와 최소함수
    • 렐루 함수
    • 지수함수
    • 로지스틱 함수
    • 로그 함수
    • 소프트 플러스 함수
    • 다변수 함수
    • 분리가능 다변수 함수
    • 다변수 다출력 함수 : 소프트맥스 함수
  • 함수의 이동
  • 함수의 스케일링

5. 데이터분석과 미분(Differentiation)

  • 데이터분석에서의 미분의 의미
    • 예측모형의 성능과 미분
  • 미분
    • 기울기
    • 그래프에서의 기울기
    • 수치미분
    • 미분 가능
  • 미분공식
    • 기본미분공식 : 상수미분, 거듭제곱미분, 지수미분, 로그미분
    • 선형조합법칙
    • 곱셉법칙
    • 연쇄법칙
  • 2차 도함수
    • 도함수의 기울기 : 볼록과 오목
  • 편미분
  • 다변수함수의 연쇄법칙
  • 2차 편미분
  • 접선의 방정식

6. 적분, 행렬의 미분, 범함수(Integral, Matrix differentiation, Functional)

  • 적분
    • 부정적분
    • 편미분과 부정적분
    • 다차도함수와 다중적분
  • 정적분
    • 미적분학의 기본정리(fundamental theorem calculus)
    • 다변수 정적분
    • 수치이중적부
    • 다차원함수의 단일정적분
  • 행렬의 미분
    • 벡터를 스칼라로 미분
    • 행렬을 스칼라로 미분
    • 스칼라를 벡터로 미분
    • 스칼라를 행렬로 미분
    • 벡터를 벡터로 미분
    • 벡터를 행렬로 미분
  • 그레디언트 벡터
    • 스칼라를 벡터로 미분하면 그레디언트 벡터
    • 그레디언트 벡터와 기울기
    • 테일러 전개식
  • 행렬의 미분법칙 5가지
    • 선형모형의 미분
    • 이차형식의 미분 : 벡터를 스칼라로 미분, 벡터를 벡터로 미분
    • 행렬과 벡터의 곱의 미분
      • 자코비안 행렬
    • 헤시안 행렬
      • 스칼라를 행렬로 미분
    • 행렬곱의 대각성분의 미분
    • 행렬식의 로그의 미분
  • 범함수
    • 범함수의 표기
    • 범함수의 계산
    • 변분법
    • 범함수와 테일러 전개
    • 범함수의 도함수
    • 그레디언트 부스팅의 도함수
    • 오일러 라그랑주 공식
    • 최적제어(optional control)
    • GAN

7. 최적화(optimization)

  • 데이터분석의 목표
  • 최적화 기초
    • 최적화 문제
    • 목적함수
    • 그리드서치와 수치적 최적화
    • 기울기 필요조건
    • 최대경사법(steepest gradient decendant)
      • 스텝사이즈
      • 진통현상
    • 뉴턴방법(newton method)
    • 준뉴턴방법(quasi-newton method)
    • 여러가지 최적화 방법론들
    • 전역최적화
    • 컨벡스 문제
  • 제한조건이 있는 최적화 문제
    • 등식제한 조건
    • 라그랑주 승수법
    • 라그랑주 승수의 의미
    • 부등식 제한조건과 최적화
    • 카르시 쿤터커 조건(KKT)
  • 선형계획법과 이차계획법 문제
    • 선형계획법(linear programming, LP문제)
    • 이차계획법(quadratic programming, QP문제)

8. 확률론(probability)

  • 집합
    • 원소
    • 집합의 크기
    • 집합의 종류 : 합집합, 교집합, 전체집합, 부분집합, 여집합, 공집합
    • 합집합과 교집합의 분배법칙
  • 확률의 수학적 정의와 의미
    • 표본공간, 확률표본
    • 사건
  • 확률
    • 콜모고로프의 공리
    • 확률과 함수의 관계
    • 확률과 확률값
  • 확률의 의미
    • 빈도주의적 관점(frequentist)
    • 베이지안 관점(bayesian)
  • 확률의 4가지 성질
    • 공집합의 확률
    • 여집합의 확률
    • 포함-배제 원리
    • 전체확률의 법칙
  • 확률분포 함수
    • 확률질량함수(pmf)
    • 누적분포함수(cdf)
    • 확률밀도함수(pdf)
  • 결합확률과 조건부확률
    • 베이지안 확률론
    • 결합확률(joint probability)
    • 주변확률(marginal probability)
    • 조건부확률(conditional probability)
    • 사건의 독립
    • 조건부확률과 사건의 관계
    • 사슬법칙
  • 확률변수
  • 베이즈 정리
    • 베이즈 정리의 의미
    • 베이즈 정리의 확장 1
    • 멀티클래스 분류
    • 베이즈 정리의 확장 2

9. 확률변수와 상관관계(randomvalue and correlation)

  • 확률변수와 상관관계
    • 확률적 데이터의 의미
    • 분포
  • 기술통계
    • 표본평균
    • 표본중앙값
    • 표본최빈값
    • 단봉분포, 다봉분포
    • 대칭분포
    • 표본분산, 표본표준편차, 비편향 표본분산
    • 표본비대칭도
    • 표본첨도
    • 표본모멘트
  • 확률변수
    • 이산확률변수
    • 연속확률변수
    • 확률변수의 의미
    • 확률변수와 현실데이터의 관계
    • 확률변수를 사용한 데이터 분석의 의미
  • 기댓값과 확률변수의 변환
    • 기댓값(expectation)
    • 확률변수의 변환
    • 기댓값의 성질
    • 통계량(statistics)
    • 기댓값과 표본평균의 관계
  • 확률분포의 분산
    • 분산 : 이산확률변수의 분산, 연속확률변수의 분산
    • 분산의 성질
    • 두 확률변수의 합의 분산
  • 확률변수와 독립과 종속
  • 표본평균의 분산
  • 표본분산의 기댓값
  • 비대칭도(skewness)
  • 첨도(kurtosis)
  • 모멘트(moment)
  • 다변수 확률변수
    • 결합확률질량함수(joint pmf)
    • 주변확률질량함수(marginal pmf)
    • 결합누적확률분포함수(joint cumulative proba distribution function)
    • 결합확률밀도함수(joint pdf)
    • 주변확률밀도함수(marginal pdf)
    • 조건부확률밀도함수(conditional pdf)
  • 독립과 상관
  • 반복시행
  • 조건부 확률분포
  • 독립확률변수의 기댓값과 분산
  • 공분산과 상관계수
    • 표본공분산
    • 표본상관계수
    • 상관계수의 성질
    • 비선형상관관계
    • 앤스콤 데이터와 상관관계
    • 다변수 확률변수의 표본공분산
    • 다변수 확률변수의 공분산
  • 조건부기댓값과 예측문제
    • 조건부기댓값
    • 예측문제의 의미
    • 조건부기댓값의 성질, 법칙
    • 조건부 분산
    • 전체분산의 법칙
    • 편향-분산 상충(bias-variance tradeoff)

10. 사이파이로 공부하는 확률분포(scipy for proba distribution)

  • 확률분포의 종류
    • 이산확률분포 : 범주값 출력
      • 베르누이분포
      • 이항분포
      • 카테고리분포
      • 다항분포
    • 연속확률분포 : 연속값 출력
      • 정규분포
      • 중심극한정리
      • 통계량
      • 데이터간의 상관관계 : 스튜던트t분포, 카이제곱분포, F분포
    • 베이즈 추정 : 베타분포, 감마분포, 디리클레분포
  • 사이파이의 기능
    • 확률분포 클래스
    • 모수지정
    • 확률분포 메서드
  • 베르누이분포와 이항분포
    • 베르누이분포, 모멘트
    • 이항분포, 모멘트
    • 모수추정
    • 베르누이 분포의 활용 : 스펨메일 필터링
  • 카테고리분포와 다항분포
    • 카테고리 확률변수, 모멘트
    • 다중분류 문제
    • 다항분포
  • 정규분포와 중심극한정리
    • 정규분포, 가우스 정규분포, 표준 정규분포
    • 로그정규분포
    • Q-Q플롯
    • 중심극한 정리
    • 통계량 분포 : z통계량
    • 잡음(disturbance)
  • 스튜던트 t분포
  • t통계량
  • 카이제곱분포
  • F분포
  • 선형회귀분석에서의 확률분포의 활용
  • 다변수 정규분포
    • 다변수정규분포와 고윳값 분해
    • 다변수정규분포와 조건부확률분포
    • 다변수정규분포의 주변확률분포
  • 베타분포
  • 감마분포
  • 디리클레분포
  • 베이지안 추정

11. 추정과 검정(estimation and testing)

  • 확률분포의 추정
    • 확률분포 결정 과정
    • 모수추정 방법론(parameter estimation)
    • 모멘트 방법(method of moment)
  • 최대가능도 추정법(MLE)
    • 가능도 함수(likelihood function)
    • 정규분포의 가능도 함수
    • 베르누이분포의 가능도 함수
    • 로그가능도함수
    • 최대가능도 방법과 라그랑주 승수법
    • 베르누이 분포의 최대가능도 모수추정
    • 카테고리분포의 최대가능도 모수추정
    • 정규분포의 최대가능도 모수추정
    • 다변수 정규분포의 최대가능도 모수추정
  • 베이즈 추정법(bayesian estimation)
    • 베이즈 추정법의 원리
    • 모수적 방법
    • 비모수적 방법
    • 베이즈 추정법을 사용한 베르누이 분포의 모수추정
    • 베이즈 추정법의 장점
    • 베이즈 추정법을 사용한 카테고리분포의 모수추정
    • 베이즈 추정법을 사용한 정규분포의 모수추정
  • 검정
    • 가설과 검정
    • 귀무가설(null hypothesis)
    • 대립가성(alternative hypothesis)
    • 검정통계량
    • 베르누이분포 확률변수
    • 정규분포 확률변수와 분산의 관계
    • 유의확률(p-value)
    • 검정과 유의확률의 관계
    • 단측검정 유의확률
    • 우측검점 유의확률
    • 좌측검정 유의확률
    • 유의수준과 기각역
    • 검정방법론 정리
  • scipy : 카이제곱검정
  • scipy : 카이제곱 독립검정
  • scipy : 단일표본 z검정
  • scipy : 단일표본 t검정
  • scipy : 독립표본 t검정
  • scipy : 대응표본 t검정
  • scipy : 등분산 검정
    • 바틀렛, 레빈, 플리그너
  • scipy : 정규성 검정
    • 콜모고로프-스미르노프 검정
    • 샤피로 윌크 검정
    • 옴니버스 검정
    • 자크베라 검정

12. 엔트로피(entropy)

  • 엔트로피
    • 엔트로피의 정의
    • 수학적 의미
    • 엔트로피의 성질
    • 엔트로피의 추정
    • 가변길이 인코딩
    • 엔트로피의 최대화
    • 조건부 엔트로피 : 결합엔트로피, 조건부 엔트로피
  • 교차엔트로피와 쿨벡-라이블러 발산
    • 교차엔트로피(cross entropy)
    • 분류성능 측정
    • 로그손실
    • 카테고리 로그손실
    • 교차엔트로피 계산
    • 쿨벡-라이블러 발산(kullback-leibler divergence)
    • 상대 엔트로피
    • 가변길이 인코딩과 쿨벡-라이블러 발산
  • 상호정보량(mutual information)
    • 상호정보량과 상관관계
    • 이산확률변수의 상호정보량
  • 최대정보 상관계수(maximum information coefficient MIC)

About

데이터 사이언스 수학 Repo : Description and Summary of Mathematical concepts and Python libraries commonly used in Data Analysis

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published