- 주어진 데이터로부터 우리가 원하는 출력데이터를 만들어주는 다양한 함수들 중에서 좋은 분석용 함수를 찾는다.
- 함수의 성능을 고쳐서 더 좋은 함수로 만든는 방식으로 최적의 함수를 찾는다.
- 분석용 함수를 찾았다면 함수의 성능을 따져서 더 좋은 함수로 개선한다.
- 데이터 분석의 목표 예측오차가 가장 작은 최적의 예측모형을 찾는 것이다.
- 최적의 예측모형을 찾기위해서는 예측모형 함수의 모수를 변화시켜야 한다.
- 모수에 따라서 값이 달라지기 때문이다.
- 예측모형 함수를 목적함수 objective function 이라고 부른다.
- 목적함수의 종류에 따라서 함수의 최대값과 최소값의 의미가 달라진다.
- 성능함수 performance function : 예측모형의 성능을 의미한다. 값이 클 수록 예측모형이 좋다.
- 성능을 나타내는 값이므로 최대값의 위치가 중요하다.
- 손실함수 loss function, 비용함수 cost function, 오차함수 erorr function : 예측값과 원래값의 오차, 차이를 나타낸다.
- 원래값과 예측값의 차이를 나타내므로 최소값의 위치가 중요하다.
- 성능함수 performance function : 예측모형의 성능을 의미한다. 값이 클 수록 예측모형이 좋다.
- 즉 예측함수의 최대값 또는 최소값을 이루는 입력값 즉 모수를 찾는 것이 데이터분석의 목표이다.
- 모든 데이터분석은 주어진 기준에 가장 적합한 수식을 찾는다는 의미
- 따라서 일종의 최적화 optimization 문제를 푸는 과정이다.
- 최적화 문제의 수식 : 함수 f(x)의 값을 max 또는 min 으로 만드는 x 의 값 x*
- 일반적으로 f(x) 를 -f(x) 로 바꾸어서 최소값을 찾는다.
- 최소화하려는 함수 :
- 목적함수 objective function, 비용함수, cost function, 손실함수 loss function, 비용함수 cost funtion, 오차함수 erorr function 등이 있다.
- J, C, L, E 로 표기 하는 경우가 많다.
어떤 목적함수의 그래프에서 가장 작은 최소값에 해당하는 x 값을 구하는 것과 같다.
그리드서치 grid search 방법
: 일반적으로 어떤 목적함수에서 가장은 최소값을 찾는 방법은 여러가지 x값에 해당하는 출력값을 비교하는 것이다.- 단점 : x값에 해당하는 모든 목적함숫값을 구해야한다. 모든 트레이닝 데이터에 대해서 예측값과 타깃값의 차이를 구해야하므로 계산량이 매우 크다.
수치적 최적화 numerical optimization
: 반복적 시행 착오 trial and erorr 에 의해서 최적화 필요조건에 만족하는 값 x* 을 찾는 방법이다.- 함수의 위치가 최적점이 될때까지 가능한 최소의 횟수로 찾는 방식이다.
- 두 가지 알고리즘을 필요로 한다.
- 현재 위치 x_k가 최적점인지 확인하는 알고리즘
- 현재 위치가 최적점이 아닌경우 다음 위치로 옮기는 알고리즘
현재 위치가 최적점(최대 또는 최소)이라면 기울기와 도함수 값이 0이다.
- 단변수 함수 : 미분값이 0 이어야 한다.
- 다변수 함수 : 모든 입력변수에 대한 편미분값이 0 이어야 한다. 즉 그레디어트 벡터의 값이 0 이어야 한다.
-
기울기가 0이면 최대 또는 최소 지점이다. (반드시 최소지점은 아니다.)
- 따라서 2차 도함수의 값을 구했을때 양수이면 최소값, 음수이면 최대값이다.
-
그레디언트 벡터 : 벡터 입력, 스칼라 출력 함수를 입력값 벡터로 미분한 것
- 열벡터이고 모든 요소가 도함수로 이루어져 있다.
- 함수를 한번 미분한 것
- 다변수 함수의 그레디언트 벡터는 컨투어 플롯에서 기울기 방향을 나타내는 화살표와 같다.
최대경사법 steepest gradient decendent
: 현재 위치에서의 기울기값을 이용하여 다음 위치를 찾는 방법- 최대경사법에서는 스텝사이즈와 시작점에 따라서 최적화 결과가 결정된다.
- 스텝사이즈가 너무 크면 최적점으로부터 멀어지게 된다.
- 다변수 함수의 컨투어 플롯에서는 곡면이 계곡과 같은 지점에서 시작할 경우 진동 현상 oscillation 이 발생한다. 좌우를 왔다갔다하면서 최적점을 찾는데 오래 걸린다.
- 진동 현상을 없애는 방법
뉴턴 방법 Newton method
: 목적함수가 2차함수 일 경우 최적점을 한번에 찾아준다.- 한번에 찾아준다는 점이 특징이다.
- 단변수 함수일 경우 : 현재 지점과 그 주변의 지점에서의 1차 도함수와 2차 도함수를 이용하여 최적점을 찾는방식
- 테일러 전개식을 사용하여 현재 지점과 주변의 어떤 지점 t를 나타낸다.
- 다음식에 의해서 어떠한 점에서 시작하더라도 한번에 최적점을 찾는다.
- 다변수 함수일 경우 : 최대경사법에서 mu 대신에 2차 도함수인 헤시안 행렬의 역행렬을 곱한다.
다음 식에 의해서 어떤 점 x_n 에서 시작하더라도 바로 최저점으로 이동한다.
- 뉴턴방법은 도함수 (그레디언트 벡터)와 2차 도함수 (헤시안 행렬)를 둘다 구해야하고 2차 함수의 형태가 아닌 경우 최적화가 안되는 경우가 있다.
준뉴턴 방법 Quasi-Newton method
: 뉴턴 방법을 기반으로 단점을 보완한 방법, 헤시안 행렬 대신에 기울기 벡터를 분석하고 업데이트하여 최적점을 찾는다.- 준뉴턴 방법으로는 BFGS, SR1 fomula, BHHH 방법 등이 있으며, BFGS 방법이 일반적으로 많이 사용 된다.
BFGS 방법 Broyden-Fletcher-Goldfarb-shanno
: 자코비안 행렬을 업데이트하여 최적점을 찾는다.CG 방법 conjugated gradient
: 헤시안 행렬 대신 변형된 그레디언트 벡터를 바로 계산한다.
- 이 외에도 함수의 종류나 데이터의 형태 등에 따라서 다양한 최적화 방법이 있다.
- 핵심은 기울기 필요조건을 만족하면서 어떤 함수냐에 따라 다음 지점을 찾는 효율적인 방법을 찾아내는 것이다.
- scipy.github 페이지에 여러가지 최적화 방법들이 소개되어 있다.
- scalar functions optimization
- minimize_scalar(method='') : brant, bounded, golden
- local (multivariate) optimization
- minimize(method='') : CG, BFGS, Newton-CG, Powell, TNC, L-BFGS-B, SLSQP, ...
- global (multivariate) optimization
- basinhopping, brute, differntial_evolution, ...
- scalar functions optimization
- 최적화하려는 함수에 복수의 국소 최저점 local minima 있을 경우 수치적 최적화 방법으로 전역 최적점 global minimum에 도달하지 못할 수도 있다.
- 전역 최적점 : 전체 함수에서 가장 작은 지점
- 국소 최적점 : 함수의 특정 구간에서 가장 작은 지점
- 전역 최적점이 국소 최적점보다 더 작다.
- 국소 최적점은 한개일 수도 있고, 여러개일 수도 있다.
- 초기 추정값이나 알고리즘에 따라서 결과가 달라지게 된다.
- 여러가지 다른 최적화 알고리즘을 사용해 보면 좋을 것 같다.
- 컨벡스 문제 convex problem : 목적함수의 2차 도함수 값이 항상 0 이사이 되는 영역에서만 정의된 최적화 문제
- 2차 도함수 값이 0 이상이면 원래 목적함수의 형태는 볼록한 형태 (볼록도 convex) 이므로 최소점을 갖는 함수이다.
- 다변수 목적함수에서는 주어진 영역ㅇ서 헤시안 행렬은 항상 양의 준정부호 positive semidefinite 이다.
- 볼록도 convexity, 오목도 concave : 그래프 아래에서 위로 올려다 봤을 때의 형태를 떠올리면 쉽다.
- 아래로 볼록한 그래프가 최소점, 위로 오목한 그래프가 최대점
- 볼록한 함수와 오목한 함수를 정의하는 식 : 볼록함수는 x에 t배 만큼 x2에 1-t배 만큼 곱한 값을 더한 위치의 함수값은 x, x2의 함수값에 각각 t, 1-t배 만큼 곱한 값의 합보다 항상 작다. 오목함수는 반대로 적용
- 일반적으로 최적화는 컨벡스 문제를 다루며, 딥러닝도 복잡한 다변수 함수의 최적점을 찾는 문제와 같다.
- 따라서 목적함수의 볼록도, 오목도에따라 최적화 방식도 다르다.
- 제한조건이 있는 최적화 constrained optimization
- 등식제한 조건 equality constraint
- 최적화의 조건과 등식제한 조건을 함께 충족해야한다. : M개의 연립방정식이 0이어야 한다.
- 라그랑주 승수법 lagrange multiplier : 등식제한 조건이 있는 최적화 문제를 푸는 방법, 라그랑주 승수 를 사용한다.
- 새로운 목적함수 h(x, 람다)를 만든다. 원래 목적함수 f(x) 와 라그랑주 승수인 새로운 변수를 등식제한 조건 g_j 와 곱한 후 더한다.
- 새로운 함수 h는 라그랑주 승수 M개를 추가했기때문에 입력변수는 x N개, 람다 M개 이다.
- 입력변수가 늘어난 만큼 그레디언트 벡터를 영벡터로 만드는 최적화 조건이 된다.
- 모든 입력변수로 편미분한 값이 0이어야 한다. (x_1 ~ x_N, 람다_1 ~ 람다_M, N+M 개의 입력변수)
- 이 연립방정식을 풀면 나오는 해에서 라그랑주 승수를 제외한 x_1~x_N 을 구할 수 있다.
- 최적화를 위한 2가지 조건
- 기울기 필요조건 : 현재 지점 x가 최적점인지 판단하는 조건
- 단변수함수 : x로 미분한 값 = 0
- 다변수함수 : x1-xN 으로 편미분한 값이 모두 = 0
- 다음 위치를 결정하는 알고리즘 : 최대경사법, 목적함수의 모양, 데이터의 특징에 따라서 여러가지 알고리즘이 있다.
- 기울기 필요조건 : 현재 지점 x가 최적점인지 판단하는 조건
- 최적화 문제에서 제한조건이 있는 경우와 제한조건이 없는 경우의 최적화의 값이 다르려면 라그랑주 승수가 0이 아니어야한다.
- 라그랑주 승수의 값이 0이면 제한조건이 있을때와 없을때의 최적화 값이 같게 된다.
부등식 제한조건 inequality constraints
: 등식 제한조건과 다르게 제한조건에 부등호가 있다.- 부등식 제한조건이 있는 최적화 문제도 라그랑주 승수법과 마찬가지로 목적함수를 h로 바꾸어서 풀 수 있다.
KKT Karush-Kuhn-Tucker 조건
: 부등식 제한조건 최적화문제의 필요조건은 등식 제한조건 최적화문제와 다르다.부등식 제한조건이 있는 최적화 문제는 각 제한조건의 영역,범위에 대해서 KKT 조건을 따져보면서 최적해를 구해야 한다.
- 2번째 조건을 만족하는 경우는 라그랑주 승수 값 자체가 0이거나 미분한 값이 0이면 된다.
- 즉 1번 조건과 달리 라그랑주 승수로 목적함수 h를 미분한 값은 0이거나 0이 아니어도 된다.
- 이 조건을 '라그랑주 승수의 의미'와 함께 생각해 보면
- g_j가 0이면 λ는 0이 아니다. : 등식제한 조건이 된다. 그러므로 라그랑주 승수의 의미를 따른다. argminf와 argminh의 값이 다르다.
- (g_j=0 자체가 등식제한 조건에 해당함)
- g_j가 0이 아니면 λ는 0이다. : argminf와 argminh 값이 같으므로, 부등식제한 조건이 쓸모없다. 목적함수 h(x, λ)은 λg항이 있든 없든 항상 값이 같다.
- 그래프로 나타내면 부등식 제한조건이 허용하는 영역에 원래 목적함수 f의 최적해가 포함되어 있는지 아닌지 확인할 수 있다.
부등식 제한조건이 있는 최적화 문제는 각 제한조건의 영역,범위에 대해서 KKT 조건을 따져보면서 최적해를 구해야 한다.
-
선형계획법 linear programming
: 방정식(등식제한조건)이나 부등식 제한조건을 가지는 선형 모형 linear model의 값을 최소화 하는 문제, LP문제선형 모형 : 선형 조합 linear combination 으로 만든 예측 모형 선형 조합 : 벡터나 행렬에 스칼라를 곱한 후 더하거나 뺀 것 >>
>>선형 회귀 모형 linear regression model : 독립변수 x에서 종속변수 y를 예측하는 방법, 단순하면서 널리쓰이는 예측모형 >>
-
LP 문제는 여러가지 형태가 있으며 이와 같은 형태를 선형계획법 문제의 기본형 standard from 이라고 한다.
-
어떤 공장에서 두 가지 상품을 생산하는 조건
- 제품 A와 제품 B 각각 150개씩 생산해야 한다.
- 생산 시간은 300시간 이다.
- 제품 A는 생산하는데 1시간 걸리고, B는 2시간 걸린다.
- 특정 부품이 8000개 밖에 없다.
- A는 생산하는데 부품을 4개 필요하고, B는 6개 필요하다.
- A의 생산이익은 3만원, B의 생산이익은 5만원이다.
-
제품 A와 B의 생산량을 x1, x2 라고 하면 A와 B를 각각 몇개씩 생산할 때 이익이 최대가 될까?
-
정규형 선형계획법 문제로 표기
-
이차계획법 문제 quadratic programming
: 방정식(등식 제한조건)이나 부등식 제한조건을 가지는 일반화 된 이차형식 quadratic form의 값을 최소화하는 문제, QP 문제 -
이차형식 quadratic form
: 어떤 벡터와 정방행렬이 '행벡터x정방행렬x행벡터' 형식으로 되어 있는 것선형회귀 분석의 결과로 얻은 예측값들과 이에 상응하는 실제값들 간의 차이를 잔차 residual라고 한다. (혹은 오차 erorr)
모든 입력변수에 대한 잔차를 구하고 이를 잔차벡터로 만들 수 있다.
-
잔차 제곱합을 최소화하는 예측 모형에 추가적인 제한조건이 있으면 이차계획법 문제가 된다.
- 이차계획법에 대해서 좀 더 알아 볼것!!!
def f1(x) :
return (x-2)**2 + 2
xx = np.linspace(-1, 4, 100)
plt.plot(xx, f1(xx), 'g-')
plt.plot(2, 2, 'ro', ms=10)
plt.xlabel('$x$')
plt.ylabel('$f_1(x)$')
plt.title('1차원 목적함수')
plt.xlim(-1, 4)
plt.ylim(0, 10)
plt.show() ;
- 로젠브룩 Rosenbrock 함수
- 다변수 함수
def f2(x, y) :
return (1-x)**2 + 100.0 * (y-x**2)**2
xx = np.linspace(-4, 4, 800)
yy = np.linspace(-3, 3, 600)
X, Y = np.meshgrid(xx, yy)
Z = f2(X, Y)
# 로그 분할로 이루어진 배열을 적용
levels = np.logspace(-1, 3, 10)
plt.contourf(X, Y, Z, alpha=0.3, levels=levels)
# levels에 넣는 값에 따라서 그려지는 선이 달라진다. 선하나가 level 하나에 해당
plt.contour(X, Y, Z, colors='grey', levels=[0.4, 3, 15, 50, 150, 500, 1500, 5000])
plt.plot(1, 1, 'ro', ms=10)
plt.xlim(-4, 4)
plt.ylim(-3, 3)
plt.xticks(np.linspace(-4, 4, 9))
plt.yticks(np.linspace(-3, 3, 7))
plt.xlabel('$x$')
plt.ylabel('$y$')
plt.title('2차원 로젠브룩 함수 $f_2(x, y)$')
plt.show() ;
- log10(x) 의 값에 해당하는 범위를 분할하여 반환해준다.
- log10(0.1) = -1 부터 log10(1000) = 3 까지의 범위를 10개로 분할하여 실수 반환
test = np.logspace(-1, 3, 10) 0.4, 3, 15, 50, 150, 500, 1500,
for c in test :
print(c)
=====<print>=====
0.1
0.2782559402207124
0.774263682681127
2.1544346900318834
5.994842503189409
16.68100537200059
46.41588833612777
129.15496650148827
359.38136638046257
1000.0
- 수치적 최적화에서 현재 위치 이후 다음 위치를 결정하는 알고리즘
- x_k+1 = x_k - mu f'(x_k)
- 여기에서 f'(x_k)는 그레디언트 벡터
- mu 는 경험적으로 정하거나 알고리즘으로 구한다.
# f1 함수의 도함수
def f1d(x) :
return 2 * x - 4
xx = np.linspace(-1, 5, 100)
plt.plot(xx, f1(xx), 'g-')
# step size
mu = 0.4
# k = 0
x = 0
plt.plot(x, f1(x), 'ro', ms=10)
plt.plot(xx, f1d(x)*(xx-x) + f1(x), 'b--', linewidth=0.7, label="$\mu=0.4$")
plt.text(x+0.1, f1(x)+0.1, '1차 시도', fontsize=8)
print("1차 시도 : x_1 = {:.2f}, g_1 = {:.2f}".format(x, f1d(x)))
x_2 = x - mu * f1d(x)
plt.plot(x_2, f1(x_2), 'ro', ms=10)
plt.plot(xx, f1d(x_2) * (xx-x_2) + f1(x_2), 'b--', linewidth=0.7)
plt.text(x_2 - 0.15, f1(x_2) + 0.3, '2차시도', fontsize=8)
print("2차 시도 : x_2 = {:.2f}, g_2 = {:.2f}".format(x_2, f1d(x_2)))
x_3 = x_2 - mu * f1d(x_2)
plt.plot(x_3, f1(x_3), 'ro', ms=10)
plt.plot(xx, f1d(x_3) * (xx-x_3) + f1(x_3), 'b--', linewidth=0.7)
plt.text(x_3 + 0.1, f1(x_3) + 0.2, '3차시도', fontsize=8)
print("3차 시도 : x_3 = {:.2f}, g_3 = {:.2f}".format(x_3, f1d(x_3)))
plt.xlabel('$x$')
plt.ylabel('$y$')
plt.ylim(0, 10)
plt.legend(loc="center right")
plt.show() ;
=====<print>=====
1차 시도 : x_1 = 0.00, g_1 = -4.00
2차 시도 : x_2 = 1.60, g_2 = -0.80
3차 시도 : x_3 = 1.92, g_3 = -0.16
- step size 를 너무 크게 설정하면 최대경사법에서 오히려 최저점 바깥으로 향하게 된다.
- 위에서 설정한 step size : 0.4, 다시 설정한 step size : 1.1
- step size를 너무 크게 설정하면 최적점에서 오히려 멀어지는 경향이 나타난다.
- 최적화 실패
xx = np.linspace(-3, 8, 100)
plt.plot(xx, f1(xx), 'g')
# step size
mu = 1.1
# k = 0
x = 0
plt.plot(x, f1(x), 'ro', ms=10)
plt.plot(xx, f1d(x) * (xx-x) + f1(x), 'b--', linewidth=0.7, label="$\mu=1.1$")
plt.text(x+0.2, f1(x)+0.3, '1차 시도', fontsize=10)
print("1차 시도 : x = {:.2f}, g_1 = {:.2f}".format(x, f1d(x)))
x = x - mu * f1d(x)
plt.plot(x, f1(x), 'ro', ms=10)
plt.plot(xx, f1d(x) * (xx-x) + f1(x), 'b--', linewidth=0.7)
plt.text(x+0.2, f1(x)+0.3, '2차 시도', fontsize=10)
print("2차 시도 : x = {:.2f}, g_2 = {:.2f}".format(x, f1d(x)))
x = x - mu * f1d(x)
plt.plot(x, f1(x), 'ro', ms=10)
plt.plot(xx, f1d(x) * (xx-x) + f1(x), 'b--', linewidth=0.7)
plt.text(x+0.2, f1(x)+0.3, '3차 시도', fontsize=10)
print("3차 시도 : x = {:.2f}, g_3 = {:.2f}".format(x, f1d(x)))
x = x - mu * f1d(x)
plt.plot(x, f1(x), 'ro', ms=10)
plt.plot(xx, f1d(x) * (xx-x) + f1(x), 'b--', linewidth=0.7)
plt.text(x+0.2, f1(x)+0.3, '4차시도', fontsize=10)
print("4차 시도 : x = {:.2f}, g_4 = {:.2f}".format(x, f1d(x)))
plt.xlabel('$x$')
plt.ylabel('$y$')
plt.title('최대경사법을 사용한 1차함수의 최적화')
plt.ylim(0, 15)
plt.legend(loc="lower right")
plt.show() ;
=====<print>=====
1차 시도 : x = 0.00, g_1 = -4.00
2차 시도 : x = 4.40, g_2 = 4.80
3차 시도 : x = -0.88, g_3 = -5.76
4차 시도 : x = 5.46, g_4 = 6.91
- 2차원 로젠브룩 함수의 도함수, 입력변수 x와 y로 각각 편미분 한 것
'''f2(x, y) 의 도함수, x와 y 각각으로 편미분한 것'''
def f2g(x, y) :
return np.array((2.0 * (x-1) - 400.0 * x * (y - x**2), 200.0 * (y - x**2)))
- 2차원 로젠브룩 함수의 최적화
- 서로 다른 시작점에서 최적점을 찾아가도록 해보았다.
- 시작점이 어디냐에 따라서 최적화에 성공할 수도 있고 못할 수도 있다.
def f2(x, y) :
return (1-x)**2 + 100.0 * (y-x**2)**2
xx = np.linspace(-4, 4, 800)
yy = np.linspace(-3, 3, 600)
X, Y = np.meshgrid(xx, yy)
Z = f2(X, Y)
levels = np.logspace(-1, 3, 10)
plt.contourf(X, Y, Z, alpha=0.2, levels=levels)
plt.contour(X, Y, Z, colors='green', levels=levels, zorder=0)
plt.plot(1, 1, 'ro', ms=10)
# step size
mu = 8e-4
# arrow head size
s = 0.95
''시적점을 다르게 해서 최적점 찾아보기''
x, y = -1, -1
for i in range(10) :
g = f2g(x, y)
plt.arrow(x, y, -s * mu * g[0], -s * mu * g[1],
head_width=0.04, head_length=0.04, fc='k', ec='k', lw=1)
x = x - mu * g[0]
y = y - mu * g[1]
x, y = -0.7, 1
for i in range(10) :
g = f2g(x, y)
plt.arrow(x, y, -s * mu * g[0], -s * mu * g[1],
head_width=0.04, head_length=0.04, fc='k', ec='k', lw=1)
x = x - mu * g[0]
y = y - mu * g[1]
x, y = 0.8, 0
for i in range(10) :
g = f2g(x, y)
plt.arrow(x, y, -s * mu * g[0], -s * mu * g[1],
head_width=0.04, head_length=0.04, fc='k', ec='k', lw=1)
x = x - mu * g[0]
y = y - mu * g[1]
plt.xlabel('$x$')
plt.ylabel('$y$')
plt.title('최대경사법을 사용한 2차함수의 최적화')
plt.xlim(-3, 3)
plt.ylim(-2, 2)
plt.xticks(np.linspace(-3, 3, 7))
plt.yticks(np.linspace(-2, 2, 5))
plt.show() ;
- make_position(x, y) 함수를 만들고, 여러가지 시작점을 생성한다.
- 시작점에서 최대경사법을 이용하여 최적점을 찾아본다.
xx = np.linspace(-4, 4, 800)
yy = np.linspace(-3, 3, 600)
X, Y = np.meshgrid(xx, yy)
Z = f2(X, Y)
levels = np.logspace(-1, 3, 10)
plt.contourf(X, Y, Z, alpha=0.2, levels=levels)
plt.contour(X, Y, Z, colors='green', levels=levels, zorder=0)
plt.plot(1, 1, 'ro', ms=10)
# step size
mu = 8e-4
# arrow head size
s = 0.95
# x, y의 모든 조합으로 좌표를 만들어주는 함수
def make_position(x, y) :
navi = []
for i in range(len(x)) :
for j in range(len(x)) :
g = (x[i][j], y[i][j])
navi.append(g)
return navi
test_x = np.linspace(-1, 1, 6, dtype=float)
test_y = np.linspace(-1, 1, 6, dtype=float)
test_xx, test_yy = np.meshgrid(test_x, test_y)
# 튜플로 반환된 좌표의 값을 사용하여 여러가지 시작점에서 최저점을 찾아보기
for x, y in make_position(test_xx, test_yy) :
for i in range(5) :
g = f2g(x, y)
plt.arrow(x, y, -s * mu * g[0], -s * mu * g[1],
head_width=0.02, head_length=0.02, fc='k', ec='k', lw=1)
x = x - mu * g[0]
y = y - mu * g[1]
plt.xlabel('$x$')
plt.ylabel('$y$')
plt.title('최대경사법을 사용한 2차함수의 최적화')
plt.xlim(-1.5, 1.5)
plt.ylim(-1.5, 1.5)
plt.show() ;
- 소수점 표기
- 8e-4 : 0.0008 : 8에서부터 앞으로 소수점 4개 이동
- 1.8e-4 : 0.00018 : 1과 8사이에서 앞으로 소수점 4개 이동
- 18e-5 : 0.00018 : 8에서부터 앞으로 소수점 5개 이동
- 최적화는 시작점의 위치와 스텝사이즈에 영향을 받는다.
- 2차원 로젠브룩함수에서 곡면이 계곡과 같은 지점에서 시작점에 따라서 최적점에 다가가기까지 진동현상 osciliation 이 발생할 수 있다.
- 이러한 단점을 보완하는 여러가지 최적화 방법이 있다. 뉴턴방법, 준뉴턴방법, CG 방법 등...
xx = np.linspace(-4, 4, 800)
yy = np.linspace(-3, 3, 600)
X, Y = np.meshgrid(xx, yy)
Z = f2(X, Y)
levels = np.logspace(-1, 3, 10)
plt.contourf(X, Y, Z, alpha=0.2, levels=levels)
plt.contour(X, Y, Z, colors='green', levels=levels, zorder=0)
plt.plot(1, 1, 'ro', markersize=10)
plt.plot(1.5, 1.5, 'ko', markersize=10)
plt.text(1.5+0.07, 1.5+0.07, '시작점', fontsize=15)
mu = 1.8e-3
s = 0.95
x, y = 1.5, 1.5
for i in range(15) :
g = f2g(x, y)
plt.arrow(x, y, -s * mu * g[0], -s * mu * g[1],
head_width=0.04, head_length=0.04, fc='k', ec='k', lw=2)
x = x - mu * g[0]
y = y - mu * g[1]
plt.xlabel('$x$')
plt.ylabel('$y$')
plt.title('최대경사법을 사용한 2차함수의 최적화 진동현상')
plt.xlim(0, 3)
plt.ylim(0, 2)
plt.xticks(np.linspace(0, 3, 4))
plt.yticks(np.linspace(0, 2, 3))
plt.show() ;
- 준뉴턴 방법 Quasi Newton 의 일종인 BFGS 방법을 사용한다.
- BFGS 방법은 해당 지점의 부근에서 다른 x좌표에 해당하는 함숫값을 구하고, 이를 통해 2차도함수의 근사값을 계산하는 방식
- CG 방법은 헤시안행렬 대신에 변형된 그레디언트 벡터를 사용한다.
- 사용법
- sp.optimize.minmize(func, x0, jac=jac)
- func : 목적함수, x0 : 시작점, jac : 그레디언트 벡터를 출력하는 함수
- minimize 의 결과 : OptimizeResult 클래스 객체
- fun : x 위치에서의 함수값 (최적화 값)
- hess_inv : x위치에서의 헤시안 행렬의 값
- jac : x위치에서 자코비안(그레디언트) 벡터의 값
- message : 메시지 문자열, 최적화 결과에 대한 메시지
- nfev : 최적화를 구하기 위해 목적함수를 호출한 횟수 (회수가 많으면 계산이 느리다는 것)
- nit : x의 이동 횟수 (회수가 작을 수록 빨리 최적화 한 것)
- njev : 최적화를 구하기 위해 자코비안 벡터를 계산한 횟수
- status : 종료 상태. 최적화에 성공하면 0을 반환
- success : 최적화에 성공하면 True 반환
- 사이파이의 최적화 라이브러리의 옵션에 대한 설명, 여러가지 최적화 방법에 대한 옵션이 나온다.
from scipy.optimize import show_options
show_options(solver="minimize")
- 1차원 목적함수의 최적화
- 시작점 : 0
def f1(x) :
return (x - 2)**2 + 2
x0 = 0
result = sp.optimize.minimize(f1, x0)
print(result)
=====<print>=====
fun: 2.0
hess_inv: array([[0.5]])
jac: array([0.])
message: 'Optimization terminated successfully.'
nfev: 6
nit: 2
njev: 3
status: 0
success: True
x: array([1.99999999])
- nfev 값이 높다는 것은 계산과정에서 목적함수를 여러번 호출 했다는 의미이다.
- BFGS 방법은 기본적으로 현재 x위치의 주변의 여러점에서 그레디언트 벡터의 근사값을 구하는 방식이다.
- 이런 경우는 jac 옵션으로 그레디언트 벡터값을 직접 입력해준다.
def f1p(x) :
return 2 * (x-2)
''jac의 값으로 1차원 목적함수의 도함수를 입력해준다''
x0 = 0
result = sp.optimize.minimize(f1, x0, jac=f1p)
print(result)
=====<print>=====
''nfev 목적함수 호출 횟수가 줄어들었다''
fun: 2.0
hess_inv: array([[0.5]])
jac: array([0.])
message: 'Optimization terminated successfully.'
nfev: 3
nit: 2
njev: 3
status: 0
success: True
x: array([2.])
- optimize 라이브러리에는 여러가지 최적화 방법들이 내장되어 있다.
- 그중에서 BFGS 방법이 아닌 newton-cg 방법을 사용해 최적화 해 보았다.
- 같은 명령어에 옵션으로 method="Newton-CG" 를 입력해준다.
- 최적화 방법마다 입력변수의 데이터 타입 등 사용방법이 다를 수 있고, 특정 함수의 형태에서만 사용할 수 있는 경우도 있다. 사이파이 docs 참조할 것.
x0 = 0
result_2 = sp.optimize.minimize(f1, x0, method="Newton-CG", jac=f1p,
options={'disp':True})
print(result_2)
=====<print>=====
Optimization terminated successfully.
Current function value: 2.000000
Iterations: 2
Function evaluations: 2
Gradient evaluations: 3
Hessian evaluations: 0
fun: array([2.])
jac: array([0.])
message: 'Optimization terminated successfully.'
nfev: 2
nhev: 0
nit: 2
njev: 3
status: 0
success: True
x: array([2.])
- 목적함수가 벡터 인수이어야 한다.
- 2차원 로젠브룩 함수의 최적화
- nfev 값이 높은 것으로 봐서 입력변수가 하나인 함수보다 계산량이 많다는 것을 알 수 있다.
def f2(x) :
return (1 - x[0])**2 + 100.0 * (x[1] - x[0]**2)**2
x0 = (-1, -1)
result = sp.optimize.minimize(f2, x0, options={'disp':True})
print(result)
=====<print>=====
Optimization terminated successfully.
Current function value: 0.000000
Iterations: 31
Function evaluations: 120
Gradient evaluations: 40
fun: 1.9949924665089535e-11
hess_inv: array([[0.50844028, 1.01641749],
[1.01641749, 2.0369327 ]])
jac: array([ 2.78534581e-07, -1.27303812e-07])
message: 'Optimization terminated successfully.'
nfev: 120
nit: 31
njev: 40
status: 0
success: True
x: array([0.99999553, 0.99999106])
- 시작점을 바꾸니 최적화에 실패했다.
def f2(x) :
return (1 - x[0])**2 + 100.0 * (x[1] - x[0]**2)**2
x0_2 = (-1, -3)
result = sp.optimize.minimize(f2, x0_2, jac=None)
result
=====<print>=====
fun: 5.2746347107862e-12
hess_inv: array([[0.49947896, 0.99887136],
[0.99887136, 2.00255462]])
jac: array([ 8.69215799e-05, -3.99714600e-05])
message: 'Desired error not necessarily achieved due to precision loss.'
nfev: 236
nit: 35
njev: 75
status: 2
success: False
x: array([0.99999901, 0.99999782])
- jac 인수로 도함수를 설정해주니 nfev 값이 줄어들었다.
def f2(x) :
return (1 - x[0])**2 + 100.0 * (x[1] - x[0]**2)**2
## f2 함수의 1차도함수인 그레디언트 벡터
def f2g(x) :
return np.array((2.0 * (x[0]-1) - 400.0 * x[0] * (x[1] - x[0]**2), 200.0 * (x[1] - x[0]**2)))
x0_new_2 = (2, 1)
result_2 = sp.optimize.minimize(f2, x0_new_2, jac=f2g)
result_2
=====<print>=====
fun: 7.147230338222425e-15
hess_inv: array([[0.519503 , 1.03596321],
[1.03596321, 2.07129296]])
jac: array([ 2.96697997e-06, -1.43910928e-06])
message: 'Optimization terminated successfully.'
nfev: 20
nit: 16
njev: 20
status: 0
success: True
x: array([1.00000004, 1.00000008])
- 국소 최적점과 전역 최적점이 있는 함수의 경우 반드시 전역 최적점에 도달한다는 보장이 없다.
def f_global(x) :
return x**2 - 20 * np.cos(x)
x = np.arange(-10, 10, 0.1)
plt.plot(x, f_global(x))
plt.scatter(0, f_global(0), s=200)
plt.xlabel('$x$')
plt.ylabel('$y$')
plt.title('전역 최적화 문제')
plt.show() ;
- 국소 최적점 부근과 전역 최적점 부근의 서로 다른 시작점에서 최적화를 진행하면 다른 결과가 나온다.
- 시작점이 어디냐에 따라서 최적점의 결과가 다르다.
def f_global(x) :
return x**2 - 20 * np.cos(x)
x = np.arange(-10, 10, 0.1)
plt.plot(x, f_global(x))
plt.scatter(0, f_global(0), s=200)
plt.text(0-2.5, f_global(0)+0.7, '전역 최적점')
x0_1 = 4
plt.plot(x0_1, f_global(x0_1), 'go', markersize=10)
plt.text(x0_1, f_global(x0_1)+8, '시작점 1')
plt.scatter(x_sol, f_global(x_sol), s=200)
plt.text(x_sol+0.7, f_global(x_sol)+0.7, '시작점 1에서 찾은 국소 최적점')
x0 = 3
plt.plot(x0, f_global(x0), 'go', markersize=10)
plt.text(x0-2, f_global(x0)+6, '시작점 2')
plt.scatter(x_sol_bh, f_global(x_sol_bh), s=200)
plt.text(x_sol_bh+0.7, f_global(x_sol_bh)+0.7, '시작점 2에서 찾은 국소 최적점')
plt.xlabel('$x$')
plt.ylabel('$y$')
plt.title('전역 최적화에서 국소 최적점에 수렴하는 경우')
plt.show() ;
- convex : 볼록도, 볼록함수
- 컨벡스 문제는 2차 도함수가 양수인 목적함수의 최적점을 찾는 것과 같다.
- 컨벡스 문제는 항상 전역 최저점이 존재한다.
def f2(x) :
return (1 - x[0])**2 + 100.0 * (x[1] - x[0]**2)**2
def f2prime(x) :
return np.array([2 * (x[0] - 1) + 400 * x[0] * (x[0]**2 - x[1]),
200 * x[1] * (x[1] - x[0]**2)])
result = sp.optimize.minimize(f2, (2, 0.3), jac=f2prime)
result
=====<print>=====
fun: 6.084206599035288e-16
hess_inv: array([[0.50013531, 1.000134 ],
[1.000134 , 2.00510248]])
jac: array([ 9.85365952e-07, -4.89697928e-07])
message: 'Optimization terminated successfully.'
nfev: 27
nit: 20
njev: 27
status: 0
success: True
x: array([1., 1.])
- 연립방정식 또는 등식 제한조건 : 라그랑주 승수를 사용하여 최적화한다.
- 부등식 제한조건 : KKT 조건을 이용하여 최적화 한다.
''목적함수''
def f1(x1, x2) :
return x1**2 + x2**2
x1 = np.linspace(-5, 5, 100)
x2 = np.linspace(-3, 3, 100)
X1, X2 = np.meshgrid(x1, x2)
Y = f1(X1, X2)
''등식 제한조건 식''
x2_g = 1 - x1
plt.contour(x1, x2, Y, colors='gray', levels=[0.5, 2, 8, 25])
plt.plot(x1, x2_g, 'g-')
plt.plot(0, 0, 'rP')
plt.plot(0.5, 0.5, 'ro', ms=10)
plt.xlim(-5, 5)
plt.ylim(-3, 3)
plt.xticks(np.linspace(-4, 4, 9))
plt.yticks(np.linspace(-3, 3, 7))
plt.xlabel('$x1$')
plt.ylabel('$x2$')
plt.title('등식 제한 조건이 있는 최적화 문제')
plt.show() ;
- sp.optimize.fmin_slsqp(func, x0, eqcons=[eq_constraint])
- func : 목적함수, x0 : 시작점 넘파이의 배열, eqcons : 제한조건을 리스트에 넣어서 입력
import scipy.optimize
def f1array(x) :
return x[0]**2 + x[1]**2
def eq_constraint(x) :
return x[0] + x[1] - 1
sp.optimize.fmin_slsqp(f1array, np.array([1, 1]), eqcons=[eq_constraint])
=====<print>=====
Optimization terminated successfully (Exit mode 0)
Current function value: 0.5000000000000002
Iterations: 2
Function evaluations: 6
Gradient evaluations: 2
array([0.5, 0.5])
- KKT 조건에 따라서 부등식 제한조건의 영역과 목적함수의 최적점을 비교하여 최적점을 찾는다.
- 최적화 결과에 영향을 주지 않는 쓸모없는 제한조건 : 제한조건이 있으나 없으나 최적화 값이 같은 경우
- 라그랑주 승수가 0인 경우
- 최적화 결과에 영향을 주는 등식인 제한조건 : 제한조건에 의해 원래 목적함수 f의 최적화 값과 달라지는 경우
- 라그랑주 승수가 0이 아닌 경우
def f1array(x1, x2) :
return x1**2 + x2**2
def eq_constraint(x) :
return x[0] + x[1] - 1
x1 = np.linspace(-4, 4, 100)
x2 = np.linspace(-5, 5, 100)
X1, X2 = np.meshgrid(x1, x2)
Y = f1array(X1, X2)
x2_g = 1 - x1
plt.figure(figsize=(13, 7))
ax1 = plt.subplot(121)
plt.contour(X1, X2, Y, colors='gray', levels=[0.5, 2, 8])
plt.plot(x1, x2_g, 'g-')
plt.plot(0, 0, 'ro', ms=10)
## 그래프의 특정 영역 색으로 채우기
ax1.fill_between(x1,-20, x2_g, alpha=0.5)
## xlim, ylim 을 정해주지 않으면 fill_between 으로 인해서 그래프 크기가 늘어난다.
plt.xlim(-3, 3)
plt.ylim(-5, 5)
plt.xticks(np.linspace(-4, 4, 9))
plt.yticks(np.linspace(-5, 5, 11))
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.title('최적해가 부등식과 관계없는 경우')
ax2 = plt.subplot(122)
plt.contour(X1, X2, Y, colors='gray', levels=[0.5, 2, 8])
plt.plot(x1, x2_g, 'g-')
plt.plot(0, 0, 'bo', ms=5)
plt.plot(0.5, 0.5, 'ro', ms=10)
ax2.fill_between(x1, 20, x2_g, alpha=0.5)
plt.xlim(-3, 3)
plt.ylim(-5, 5)
plt.xticks(np.linspace(-4, 4, 9))
plt.yticks(np.linspace(-5, 5, 11))
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.title('최적해가 부등식에 의해 결정되는 경우')
plt.suptitle('부등식 제한조건이 있는 최적화 문제')
plt.show() ;
def f2plt(x1, x2) :
return np.sqrt((x1 - 4)**2 + (x2 - 2)**2)
x1 = np.linspace(-2, 5, 100)
x2 = np.linspace(-1.5, 3, 100)
X1, X2 = np.meshgrid(x1, x2)
Y = f2plt(X1, X2)
plt.contour(X1, X2, Y, colors='gray', levels=np.arange(0.5, 5, 0.5) * np.sqrt(2))
# 4개의 제한조건을 그리고 해당하는 범위를 표시
# 제한조건의 상수
k = 1
ax = plt.gca()
x12 = np.linspace(-k, 0, 10)
x13 = np.linspace(0, k, 10)
ax.fill_between(x12, x12 + k, -k - x12, color='g', alpha=0.5)
ax.fill_between(x13, x13 - k, k - x13, color='g', alpha=0.5)
x1_sol = 1
x2_sol = 0
plt.plot(x1_sol, x2_sol, 'ro', ms=10)
plt.xlim(-2, 5)
plt.ylim(-1.5, 3)
plt.xticks(np.linspace(-2, 5, 8))
plt.yticks(np.linspace(-1, 3, 5))
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.title('$|x1| + |x2| \leq 1 \;$ 제한조건을 가지는 최적화 문제', y=1.05)
plt.show() ;
- sp.optimize.fmin_slsqp(func, x0, ieqcons=[ieq_constraint_1, ieq_constriant_2, ...]
- func : 목적함수, x0 : 시작점 넘파이의 배열형태, ieqcons : 여러개의 제한 조건을 리스트로 입력
import scipy.optimize
def f2(x) :
return np.sqrt((x[0] - 4)**2 + (x[1] - 2)**2)
k = 1
def ieq_constraints(x) :
return np.atleast_1d(k - np.sum(np.abs(x)))
result_2 = sp.optimize.fmin_slsqp(f2, np.array([0,0]), ieqcons=[ieq_constraints])
result_2[0], result_2[1]
=====<print>=====
Optimization terminated successfully (Exit mode 0)
Current function value: 3.605551280732028
Iterations: 11
Function evaluations: 66
Gradient evaluations: 11
(0.9999999810058195, 1.89941791507163e-08)
from functools import partial
def f2plt(x1, x2) :
return np.sqrt((x1-4)**2 + (x2-2)**2)
def f2(x) :
return np.sqrt((x[0]-4)**2 + (x[1]-2)**2)
def ieq_constraint2(x, k) :
return np.atleast_1d(k - np.sum(np.abs(x)))
def plot_opt(k_list) :
x1 = np.linspace(-8, 8, 100)
x2 = np.linspace(-8, 8, 100)
X1, X2 = np.meshgrid(x1, x2)
Y = f2plt(X1, X2)
N = 2
M = 2
fig = plt.figure(figsize=(15, 10))
plt.subplots_adjust(top=0.5, bottom=0, hspace=0.5, wspace=0.05)
''k 값에 따라서 각각의 플롯에 그래프를 그려주는 코드''
for i in range(N) :
for j in range(M) :
temp = i * M + j
ax = fig.add_subplot(N, M, temp+1)
ax = plt.gca()
ax.contour(X1, X2, Y, colors='gray', levels=np.arange(0.5, 20, 0.5) * np.sqrt(2))
k = round(k_list[temp], 1)
x12 = np.linspace(-k, 0, 10)
x13 = np.linspace(0, k, 10)
ax.fill_between(x12, x12 + k, -k - x12, color='g', alpha=0.4)
ax.fill_between(x13, x13 - k, k - x13, color='g', alpha=0.4)
x_sol = sp.optimize.fmin_slsqp(f2, np.array([0,0]), ieqcons=[partial(ieq_constraint2, k=k)], iprint=0)
ax.plot(x_sol[0], x_sol[1], 'ro', ms=8)
ax.set_xlim(-3, 7)
ax.set_ylim(-5, 5)
ax.set_title('k : {}, 최적점 : ({}, {})'.format(k, round(x_sol[0], 2), round(x_sol[1], 2), fontsize=10), y=1.03)
ax.set_xlabel("$x_1$")
ax.set_ylabel("$x_2$")
plt.tight_layout()
plt.show() ;
- k 값으로 1, 2, 3, 4, 5 로 하여 함수를 호출
test_sample = np.linspace(1, 5, 5)
plot_opt(test_sample)
from functools import partial
def f2plt(x1, x2) :
return np.sqrt((x1-4)**2 + (x2-2)**2)
def f2(x) :
return np.sqrt((x[0]-4)**2 + (x[1]-2)**2)
def ieq_constraint2(x, k) :
return np.atleast_1d(k - np.sum(np.abs(x)))
def plot_opt_2(k) :
x1 = np.linspace(-10, 10, 100)
x2 = np.linspace(-10, 10, 100)
X1, X2 = np.meshgrid(x1, x2)
Y = f2plt(X1, X2)
plt.contour(X1, X2, Y, colors='gray', levels=np.arange(0.5, 5, 0.5) * np.sqrt(2))
ax = plt.gca()
x12 = np.linspace(-k, 0, 10)
x13 = np.linspace(0, k , 10)
ax.fill_between(x12, x12+k, -x12-k, color='g', alpha=0.4)
ax.fill_between(x13, x13-k, -x13+k, color='g', alpha=0.4)
x_sol = sp.optimize.fmin_slsqp(f2, np.array([0,0]), ieqcons=[partial(ieq_constraint2, k=k)], iprint=0)
plt.plot(x_sol[0], x_sol[1], 'ro', ms=15)
plt.xlim(-2, 5)
plt.ylim(-1.5, 3)
plt.xticks(np.linspace(-2, 5, 8))
plt.yticks(np.linspace(-1, 3, 5))
plt.title("$|x_1| + |x_2| \leq {}$".format(k))
def f2(x) :
return np.sqrt((x[0]-4)**2 + (x[1]-2)**2)
def ieq_constraint(k) :
return lambda x : np.atleast_1d(k - np.sum(np.abs(x)))
opt = []
k_range = np.linspace(0.1, 10, 100)
for k in k_range :
opt += [
sp.optimize.fmin_slsqp(f2, np.array([0, 0]), ieqcons=[ieq_constraint(k)], iprint=0)
]
plt.plot(k_range, np.array(opt)[:, 0], 'g-', label='x1의 해')
plt.plot(k_range, np.array(opt)[:, 1], 'r-', label='x2의 해')
plt.title("k의 변화에 따른 최적해의 변화")
plt.xlabel('k')
plt.ylabel('최적해')
plt.legend()
plt.show() ;
- linprog(c, A, b)
- c : 목적함수의 계수 벡터
- A : 등식 제한조건의 계수 행렬
- b : 등식 제한조건의 상수 벡터
import scipy.optimize
A = np.array([[-1, 0], [0, -1], [1, 2], [4, 5]])
b = np.array([[-100, -100, 500, 9800]])
c = np.array([-3, 5])
result = sp.optimize.linprog(c, A, b)
result
=====<print>=====
con: array([], dtype=float64)
fun: -399.9999998623001
message: 'Optimization terminated successfully.'
nit: 6
slack: array([2.00000000e+02, 4.50999948e-09, 2.93632638e-08, 8.10000000e+03])
status: 0
success: True
x: array([299.99999996, 100. ])