Summary of mathematical concepts and Python libraries commonly used in data analysis
- 패스트캠퍼스 데이터사이언스 스쿨의 정규과정인 김도형 박사님의 수학강의를 교재와 강의노트를 함께 요약하고 축약된 의미들은 이해한 바데로 풀어서 정리함
- <김도형의 데이터사이언스 스쿨> 을 바탕으로 추가적인 지식인 필요한 수학개념, 정리, 코드구현 등은 구글링, Documents, API 등을 참고하여 확장함
- numpy, 스칼라, 벡터, 텐서, 행렬의 의미와 기호, 행렬의 연산과 성질, 연립방정식
- 기하학에서 선형대수의 사용, 고윳값분해, 특잇값분해를 응용하여 주성분분석, 이미지변환 등을 할 수 있다.
- 머신러닝에서의 함수의 의미, 미적분 공식, 심볼릭 연산으로 미적분하기, 행렬의 미적분, 변분법 사용
- 최적화 문제와 최대경사법으로 최적화문제 풀기, 사이파이패키지 사용하여 최적화 문제풀기
- 라그랑주 승수법으로 등식제한조건, 부등식제한조건이 있는 최적화 문제풀기
- 머신러닝 분야의 LP문제와 QP 문제
- 확률의 수학적 정의, 빈도주의 및 베이지안 확률의 의미
- 확률분포함수의 정의, 머신러닝에서의 확률이론과 조건부확률
- 베이즈정리, 피지엠파이 패키지를 이용하여 확률분포 구현하기, 베이즈추정 하기
- 확률변수를 사용한 데이터모형, 기댓값과 분산의 의미, 분산의 기댓값
- 이산분포 : 베르누이분포, 이행분포, 카테고리분포, 다항분포
- 연속분포 : 가우시안정규분포, 스튜던트분포, 카이제곱분포, F분포
- 확률모수 모형 분포 : 베타분포, 디리클레분포, 감마분포
- 확률변수의 상관관계, 다변수 정규분포 모형, 조건부 기댓값의 의미
- 머신러닝의 응용분야인 예측에서의 조건부기댓값의 의미
- 데이터기반 판단법, 데이터기반 의사결정인 검정의 의미, 사이파이를 사용한 검정방법
- 가능도의 의미, 최대가능도 추정법을 사용한 확률분포의 모수추정
- 모수추정의 불확실성, 베이즈 정리와 베이지안 모수추정법
- 엔트로피과 지니계수, 확률변수의 정보량과 엔트로피의 관계
- 쿨벡라이블러발산, 크로스엔트로피를 사용한 확률분호의 유사성 비교
- 회귀문제와 분류문제 : 지도학습
- 클러스터링 : 비지도학습
- 프레임워크 : 텐서플로우, 파이토치, 케라스 등
- 인공신경망 구축 :
- CNN 모형 : 이미지 처리
- RNN 모형 : 문서 처리
- GAN 모형 : 이미지 생성
- 데이터와 행렬
- 스칼라, 벡터, 행렬, 텐서
- 전치연산, 전치행렬
- 특수한 벡터와 행렬 : 영벡터, 일벡터, 정방행렬, 대각행렬, 항등행렬, 대칭행렬
- 벡터와 행렬의 연산
- 요소별연산
- 브로드캐스팅
- 선형조합
- 내적
- 내적관련 연산
- 가중합
- 가중평균
- 유사도
- 선형회귀모형
- 제곱합
- 잔차
- 잔차의 크기(RSS)
- 부분행렬
- 행렬의 성질
- 행렬의 성질
- 부호 : 양의 정부호, 양의 준정부호
- 크기 : 놈, 대각합, 행렬식
- 선형연립방정식과 영행렬
- 선형연립방정식
- 역행렬 : 계산, 성질, 여러가지 공식
- 선형연립방정식과 선형예측모델의 관계
- 최소자승문제
- 의사역행렬
- 선형대수와 해석기하
- 벡터의 기하학적 의미 : 벡터의 길이
- 단위벡터
- 벡터의 선형조합
- 벡터의 차
- 유클리드 거리
- 직교, 정규직교, 코사인 유사도
- 벡터의 성분과 분해 : 투영성분과 직교성분
- 직선의 방정식
- 직선과 점의 거리
- 좌표와 변환
- 선형종속과 선형독립
- 선형종속의 3가지 예
- 랭크(rank) : 열랭크, 행랭크, 풀랭크, 로우랭크행렬
- 랭크와 역행렬
- 벡터공간과 기저벡터
- 벡터공간
- 선형독립과 기저벡터의 관계
- 정규직교인 기저벡터와 벡터공간
- 표준기저벡터
- 좌표 : 변환행렬, 좌표변환
- 이미지 변환
- 고윳값 분해
- 고윳값과 고유벡터
- 고유분해의 의미
- 특성방정식
- 고윳값과 대각합, 행렬식의 관계
- 대각화 : 대각화와 선형독립
- 고윳값과 역행렬의 관계
- 대칭행렬과 고유분해 : 랭크-1행렬
- 대칭행렬과 고윳값의 부호
- 분산행렬 : 부호, 역행렬과의 관계
- 고유분해의 성질
- 특잇값 분해
- 특잇값과 특이벡터 : 왼쪽 특이벡터, 오른쪽 특이벡터
- 특잇값분해와 행렬의 크기 : 세로형, 가로형, 축소형
- 특잇값분해와 고윳값분해의 관계
- 근사문제
- 1차원 근사문제
- 1차원 근사문제의 의미와 풀이
- 랭크-1 근사문제
- k차원 근사문제
- 랭크-k 근사문제
- PCA의 의미
- PCA의 기능
- PCA의 수학적 의미
- 차원축소와 벡터공간 투영의 관계
- 역변환행렬의 기능
- 최적화식을 사용한 PCA 풀이 : 랭크-k차원 근사문제
- 함수
- 연속과 불연속
- 역함수
- 데이터 분석에 사용되는 10가지 함수
- 다항식 함수
- 최대함수와 최소함수
- 렐루 함수
- 지수함수
- 로지스틱 함수
- 로그 함수
- 소프트 플러스 함수
- 다변수 함수
- 분리가능 다변수 함수
- 다변수 다출력 함수 : 소프트맥스 함수
- 함수의 이동
- 함수의 스케일링
- 데이터분석에서의 미분의 의미
- 예측모형의 성능과 미분
- 미분
- 기울기
- 그래프에서의 기울기
- 수치미분
- 미분 가능
- 미분공식
- 기본미분공식 : 상수미분, 거듭제곱미분, 지수미분, 로그미분
- 선형조합법칙
- 곱셉법칙
- 연쇄법칙
- 2차 도함수
- 도함수의 기울기 : 볼록과 오목
- 편미분
- 다변수함수의 연쇄법칙
- 2차 편미분
- 접선의 방정식
- 적분
- 부정적분
- 편미분과 부정적분
- 다차도함수와 다중적분
- 정적분
- 미적분학의 기본정리(fundamental theorem calculus)
- 다변수 정적분
- 수치이중적부
- 다차원함수의 단일정적분
- 행렬의 미분
- 벡터를 스칼라로 미분
- 행렬을 스칼라로 미분
- 스칼라를 벡터로 미분
- 스칼라를 행렬로 미분
- 벡터를 벡터로 미분
- 벡터를 행렬로 미분
- 그레디언트 벡터
- 스칼라를 벡터로 미분하면 그레디언트 벡터
- 그레디언트 벡터와 기울기
- 테일러 전개식
- 행렬의 미분법칙 5가지
- 선형모형의 미분
- 이차형식의 미분 : 벡터를 스칼라로 미분, 벡터를 벡터로 미분
- 행렬과 벡터의 곱의 미분
- 자코비안 행렬
- 헤시안 행렬
- 스칼라를 행렬로 미분
- 행렬곱의 대각성분의 미분
- 행렬식의 로그의 미분
- 범함수
- 범함수의 표기
- 범함수의 계산
- 변분법
- 범함수와 테일러 전개
- 범함수의 도함수
- 그레디언트 부스팅의 도함수
- 오일러 라그랑주 공식
- 최적제어(optional control)
- GAN
- 데이터분석의 목표
- 최적화 기초
- 최적화 문제
- 목적함수
- 그리드서치와 수치적 최적화
- 기울기 필요조건
- 최대경사법(steepest gradient decendant)
- 스텝사이즈
- 진통현상
- 뉴턴방법(newton method)
- 준뉴턴방법(quasi-newton method)
- 여러가지 최적화 방법론들
- 전역최적화
- 컨벡스 문제
- 제한조건이 있는 최적화 문제
- 등식제한 조건
- 라그랑주 승수법
- 라그랑주 승수의 의미
- 부등식 제한조건과 최적화
- 카르시 쿤터커 조건(KKT)
- 선형계획법과 이차계획법 문제
- 선형계획법(linear programming, LP문제)
- 이차계획법(quadratic programming, QP문제)
- 집합
- 원소
- 집합의 크기
- 집합의 종류 : 합집합, 교집합, 전체집합, 부분집합, 여집합, 공집합
- 합집합과 교집합의 분배법칙
- 확률의 수학적 정의와 의미
- 표본공간, 확률표본
- 사건
- 확률
- 콜모고로프의 공리
- 확률과 함수의 관계
- 확률과 확률값
- 확률의 의미
- 빈도주의적 관점(frequentist)
- 베이지안 관점(bayesian)
- 확률의 4가지 성질
- 공집합의 확률
- 여집합의 확률
- 포함-배제 원리
- 전체확률의 법칙
- 확률분포 함수
- 확률질량함수(pmf)
- 누적분포함수(cdf)
- 확률밀도함수(pdf)
- 결합확률과 조건부확률
- 베이지안 확률론
- 결합확률(joint probability)
- 주변확률(marginal probability)
- 조건부확률(conditional probability)
- 사건의 독립
- 조건부확률과 사건의 관계
- 사슬법칙
- 확률변수
- 베이즈 정리
- 베이즈 정리의 의미
- 베이즈 정리의 확장 1
- 멀티클래스 분류
- 베이즈 정리의 확장 2
- 확률변수와 상관관계
- 확률적 데이터의 의미
- 분포
- 기술통계
- 표본평균
- 표본중앙값
- 표본최빈값
- 단봉분포, 다봉분포
- 대칭분포
- 표본분산, 표본표준편차, 비편향 표본분산
- 표본비대칭도
- 표본첨도
- 표본모멘트
- 확률변수
- 이산확률변수
- 연속확률변수
- 확률변수의 의미
- 확률변수와 현실데이터의 관계
- 확률변수를 사용한 데이터 분석의 의미
- 기댓값과 확률변수의 변환
- 기댓값(expectation)
- 확률변수의 변환
- 기댓값의 성질
- 통계량(statistics)
- 기댓값과 표본평균의 관계
- 확률분포의 분산
- 분산 : 이산확률변수의 분산, 연속확률변수의 분산
- 분산의 성질
- 두 확률변수의 합의 분산
- 확률변수와 독립과 종속
- 표본평균의 분산
- 표본분산의 기댓값
- 비대칭도(skewness)
- 첨도(kurtosis)
- 모멘트(moment)
- 다변수 확률변수
- 결합확률질량함수(joint pmf)
- 주변확률질량함수(marginal pmf)
- 결합누적확률분포함수(joint cumulative proba distribution function)
- 결합확률밀도함수(joint pdf)
- 주변확률밀도함수(marginal pdf)
- 조건부확률밀도함수(conditional pdf)
- 독립과 상관
- 반복시행
- 조건부 확률분포
- 독립확률변수의 기댓값과 분산
- 공분산과 상관계수
- 표본공분산
- 표본상관계수
- 상관계수의 성질
- 비선형상관관계
- 앤스콤 데이터와 상관관계
- 다변수 확률변수의 표본공분산
- 다변수 확률변수의 공분산
- 조건부기댓값과 예측문제
- 조건부기댓값
- 예측문제의 의미
- 조건부기댓값의 성질, 법칙
- 조건부 분산
- 전체분산의 법칙
- 편향-분산 상충(bias-variance tradeoff)
- 확률분포의 종류
- 이산확률분포 : 범주값 출력
- 베르누이분포
- 이항분포
- 카테고리분포
- 다항분포
- 연속확률분포 : 연속값 출력
- 정규분포
- 중심극한정리
- 통계량
- 데이터간의 상관관계 : 스튜던트t분포, 카이제곱분포, F분포
- 베이즈 추정 : 베타분포, 감마분포, 디리클레분포
- 이산확률분포 : 범주값 출력
- 사이파이의 기능
- 확률분포 클래스
- 모수지정
- 확률분포 메서드
- 베르누이분포와 이항분포
- 베르누이분포, 모멘트
- 이항분포, 모멘트
- 모수추정
- 베르누이 분포의 활용 : 스펨메일 필터링
- 카테고리분포와 다항분포
- 카테고리 확률변수, 모멘트
- 다중분류 문제
- 다항분포
- 정규분포와 중심극한정리
- 정규분포, 가우스 정규분포, 표준 정규분포
- 로그정규분포
- Q-Q플롯
- 중심극한 정리
- 통계량 분포 : z통계량
- 잡음(disturbance)
- 스튜던트 t분포
- t통계량
- 카이제곱분포
- F분포
- 선형회귀분석에서의 확률분포의 활용
- 다변수 정규분포
- 다변수정규분포와 고윳값 분해
- 다변수정규분포와 조건부확률분포
- 다변수정규분포의 주변확률분포
- 베타분포
- 감마분포
- 디리클레분포
- 베이지안 추정
- 확률분포의 추정
- 확률분포 결정 과정
- 모수추정 방법론(parameter estimation)
- 모멘트 방법(method of moment)
- 최대가능도 추정법(MLE)
- 가능도 함수(likelihood function)
- 정규분포의 가능도 함수
- 베르누이분포의 가능도 함수
- 로그가능도함수
- 최대가능도 방법과 라그랑주 승수법
- 베르누이 분포의 최대가능도 모수추정
- 카테고리분포의 최대가능도 모수추정
- 정규분포의 최대가능도 모수추정
- 다변수 정규분포의 최대가능도 모수추정
- 베이즈 추정법(bayesian estimation)
- 베이즈 추정법의 원리
- 모수적 방법
- 비모수적 방법
- 베이즈 추정법을 사용한 베르누이 분포의 모수추정
- 베이즈 추정법의 장점
- 베이즈 추정법을 사용한 카테고리분포의 모수추정
- 베이즈 추정법을 사용한 정규분포의 모수추정
- 검정
- 가설과 검정
- 귀무가설(null hypothesis)
- 대립가성(alternative hypothesis)
- 검정통계량
- 베르누이분포 확률변수
- 정규분포 확률변수와 분산의 관계
- 유의확률(p-value)
- 검정과 유의확률의 관계
- 단측검정 유의확률
- 우측검점 유의확률
- 좌측검정 유의확률
- 유의수준과 기각역
- 검정방법론 정리
- scipy : 카이제곱검정
- scipy : 카이제곱 독립검정
- scipy : 단일표본 z검정
- scipy : 단일표본 t검정
- scipy : 독립표본 t검정
- scipy : 대응표본 t검정
- scipy : 등분산 검정
- 바틀렛, 레빈, 플리그너
- scipy : 정규성 검정
- 콜모고로프-스미르노프 검정
- 샤피로 윌크 검정
- 옴니버스 검정
- 자크베라 검정
- 엔트로피
- 엔트로피의 정의
- 수학적 의미
- 엔트로피의 성질
- 엔트로피의 추정
- 가변길이 인코딩
- 엔트로피의 최대화
- 조건부 엔트로피 : 결합엔트로피, 조건부 엔트로피
- 교차엔트로피와 쿨벡-라이블러 발산
- 교차엔트로피(cross entropy)
- 분류성능 측정
- 로그손실
- 카테고리 로그손실
- 교차엔트로피 계산
- 쿨벡-라이블러 발산(kullback-leibler divergence)
- 상대 엔트로피
- 가변길이 인코딩과 쿨벡-라이블러 발산
- 상호정보량(mutual information)
- 상호정보량과 상관관계
- 이산확률변수의 상호정보량
- 최대정보 상관계수(maximum information coefficient MIC)