-
Notifications
You must be signed in to change notification settings - Fork 18
/
Copy pathnumerical-optimization.qmd
2464 lines (2081 loc) · 77.9 KB
/
numerical-optimization.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
# 数值优化 {#sec-numerical-optimization}
```{r}
#| echo: false
source("_common.R")
# 加载 ROI 时不要自动加载插件
Sys.setenv(ROI_LOAD_PLUGINS = FALSE)
```
::: callout-tip
## 本章亮点
1. 比较全面地展示各类优化问题的 R 语言实现,其覆盖面之广,远超市面上同类 R 语言书籍。从线性优化到凸优化(包含凸二次优化和凸锥优化),从简单整数线性优化到混合整数非线性优化,再到一般的非线性优化,触及最前沿的热门话题。
2. 对每类优化问题都给出示例及 R 语言实现,涉及 10 余个各类优化器。参考 Lingo 和 1stOpt 等国内外商业优化建模软件的官方示例,也参考开源软件 Octave (语法大量兼容 Matlab 的科学计算软件)的非线性优化示例,给出 R 语言实现。经过对比,发现 R 语言求解器的效果可以达到同类开源和商业软件的水平。
3. 对于 R 语言社区难以求解的复杂优化问题,也都给出了开源替代方案,并总结了实战经验。比如,混合整数非线性优化,通过 **rAMPL** 包 [@rAMPL2023] 连接 [AMPL](https://ampl.com/ce/) 软件,调用开源的优化求解器 [Couenne](https://github.com/coin-or/Couenne) 求解。R 语言社区的优化建模扩展包相比于商业软件的最大优势是免费易获取,可以随时查找相关 R 包的论文和源码深入研究,了解优化算法的理论和实现过程。
:::
本章介绍五类典型的优化问题及 R 语言求解过程,按从易到难的顺序分别是线性优化、凸二次优化、凸锥优化、非线性优化、整数优化。学习完本章内容,读者可以灵活运用各类软件工具包解决各类标准优化问题。本章内容不涉及优化算法理论,对理论感兴趣的读者可以寻着 R 包参考文献或者相关书籍[@wen2020]进一步学习。
除了 R 软件内置一些数值优化求解器,R 语言社区还有大量数值优化方面的函数和 R 包。特别是 **ROI** 包 [@ROI2020],它通过插件包对 20 多个 R 包提供统一的函数调用方式,相当于一个运筹优化方面的基础设施平台,极大地方便学习和使用。
```{mermaid}
%%| label: fig-roi-plugin
%%| fig-width: 6.5
%%| fig-cap: 数值优化扩展包、插件包和 ROI 包的关系图
flowchart TB
Rglpk --> ROI_Rglpk(ROI.plugin.glpk)
ROI_Rglpk --> ROI(ROI)
nloptr --> ROI_nloptr(ROI.plugin.nloptr)
ROI_nloptr --> ROI(ROI)
scs --> ROI_scs(ROI.plugin.scs)
ROI_scs --> ROI(ROI)
ECOSolveR --> ROI_escs(ROI.plugin.escs)
ROI_escs --> ROI(ROI)
quadprog --> ROI_quadprog(ROI.plugin.quadprog)
ROI_quadprog --> ROI(ROI)
```
**ROI** 包通过插件包来实际调用第三方做数值优化的 R 包。**Rglpk** 包 [@Rglpk2023] 可以求解大规模线性优化、整数线性优化和混合整数线性优化,**ROI** 包通过插件包 **ROI.plugin.glpk** 与之连接调用。**nloptr** 包 [@nloptr2023] 可以求解二次优化和非线性优化,**ROI** 包通过插件包 **ROI.plugin.nloptr** 与之连接调用。**scs** 包 [@scs2016] 可以求解凸锥优化,**ROI** 包通过插件包 **ROI.plugin.scs** 与之连接调用。**ECOSolveR** 包 [@ECOSolveR2023] 可以求解含整数变量约束的凸锥优化,**ROI** 包通过插件包 **ROI.plugin.ecos** 与之连接调用。**quadprog** 包 [@quadprog2019] 可以求解凸二次优化,**ROI** 包通过插件包 **ROI.plugin.quadprog** 与之连接调用。本文不能一一概括,相信读者之后可以举一反三。
```{r}
#| message: false
library(ROI)
library(ROI.plugin.glpk) # 线性和整数线性优化
library(ROI.plugin.nloptr) # 非线性优化
library(ROI.plugin.scs) # 凸锥优化
library(ROI.plugin.ecos) # 可含整数变量的凸锥优化
library(ROI.plugin.quadprog) # 凸二次优化
library(lattice)
# 自定义作图用的调色板
custom_palette <- function(irr, ref, height, saturation = 0.9) {
hsv(
h = height, s = 1 - saturation * (1 - (1 - ref)^0.5),
v = irr
)
}
```
## 线性优化 {#sec-linear-optimization}
线性优化是指目标函数和约束条件都是线性的优化问题。考虑如下线性优化问题:
$$
\begin{aligned}
\min_{\boldsymbol{x}} \quad & -6x_1 -5x_2 \\
\text{s.t.} \quad & \left\{
\begin{array}{l}
x_1 + 4x_2 \leq 16\\
6x_1 + 4x_2 \leq 28\\
2x_1 - 5x_2 \leq 6
\end{array} \right.
\end{aligned}
$$
其中,目标函数是 $-6x_1 -5x_2$,$\min$ 表示求目标函数的最小值,$\boldsymbol{x} = (x_1,x_2)^{\top}$ 表示决策变量,无特殊说明,决策变量都取实数。$\text{s.t.}$ 是 subject to 的缩写,专指约束条件。上述线性优化问题写成矩阵形式,如下:
$$
\begin{aligned}
\min_{\boldsymbol{x}} \quad &
\begin{bmatrix}
-6 \\
-5
\end{bmatrix}
^{\top} \boldsymbol{x} \\
\text{s.t.} \quad & \left\{
\begin{array}{l}
\begin{bmatrix}
1 & 4 \\
6 & 4 \\
2 & -5
\end{bmatrix}
\boldsymbol{x} \leq
\begin{bmatrix}
16 \\
28 \\
6
\end{bmatrix}
\end{array} \right.
\end{aligned}
$$
用 $\boldsymbol{d}$ 表示目标函数的系数向量,$A$ 表示约束矩阵,$\boldsymbol{b}$ 表示右手边的向量。上述优化问题用矩阵表示,如下:
$$
\begin{aligned}
\min_{\boldsymbol{x}} \quad &
\boldsymbol{d}^{\top} \boldsymbol{x} \\
\text{s.t.} \quad &
A\boldsymbol{x} \leq
\boldsymbol{b}
\end{aligned}
$$
用 **ROI** 包提供的一套使用语法表示该线性优化问题,代码如下:
```{r}
# 定义优化问题
op <- OP(
objective = L_objective(L = c(-6, -5)),
constraints = L_constraint(
L = matrix(c(
1, 4,
6, 4,
2, -5
), ncol = 2, byrow = TRUE),
dir = c("<=", "<=", "<="),
rhs = c(16, 28, 6)
),
types = c("C", "C"),
maximum = FALSE
)
# 优化问题描述
op
# 求解优化问题
res <- ROI_solve(op, solver = "glpk")
# 最优解
res$solution
# 目标函数值
res$objval
```
函数 `OP()` 定义一个优化问题,参数如下:
- `objective` :指定目标函数,用函数 `L_objective()` 表示线性优化中的目标函数,函数名中 L 表示 Linear(线性),包含数值型向量。
- `constraints` :指定约束条件,用函数 `L_constraint()` 表示线性优化中的约束条件,函数名中 L 表示 Linear(线性),包含约束矩阵 $A$ ,约束分量的方向可为 `>=` 、`<=` 或 `=` ,本例中为 `<=`,右手边的向量 $b$ 。
- `types` :指定决策变量的类型,分三种情况, `B` 表示 0-1 变量,字母 B 是 binary 的意思,`I` 表示整型变量,字母 I 是 integer 的意思,`C` 表示数值型变量,字母 C 是 continuous 的意思。本例中,两个变量都是连续型的,`types = c("C", "C")` 。
- `maximum` :指定目标函数需要求极大还是极小,默认求极小,取值为逻辑值 `TRUE` 或 `FALSE`。
不同类型的目标函数和约束条件组合在一起可以构成非常丰富的优化问题。**ROI** 包支持的目标函数、约束条件及相应的代码见下表。后续将根据优化问题,逐个介绍用法。
| 目标函数 | 代码 | 约束条件 | 代码 |
|------------|-----------------|------------|------------------|
| 线性函数 | `L_objective()` | 无约束 | 留空 |
| 二次函数 | `Q_objective()` | 箱式约束 | `V_bound()` |
| 非线性函数 | `F_objective()` | 线性约束 | `L_constraint()` |
| | | 二次约束 | `Q_constraint()` |
| | | 锥约束 | `C_constraint()` |
| | | 非线性约束 | `F_constraint()` |
: **ROI** 包可以表示的目标函数和约束条件
## 凸二次优化 {#sec-quadratic-optimization}
二次优化分严格凸二次和非严格凸二次优化问题,严格凸要求矩阵对称正定,非严格凸要求矩阵对称半正定。对于矩阵负定的情况,不是凸优化问题,暂不考虑。二次优化的一般形式如下:
$$
\begin{aligned}
\min_{\boldsymbol{x}} \quad & \frac{1}{2}\boldsymbol{x}^{\top}D\boldsymbol{x} + \boldsymbol{d}^{\top}\boldsymbol{x} \\
\text{s.t.} \quad & A\boldsymbol{x} \leq \boldsymbol{b}
\end{aligned}
$$
二次优化不都是凸优化,当且仅当矩阵 $D$ 半正定时,上述二次优化是凸二次优化,当矩阵 $D$ 正定时,上述二次优化是严格凸二次优化。下面举个严格凸二次优化的具体例子,令
$$
D = \begin{bmatrix}
2 & -1\\
-1 & 2
\end{bmatrix}, \quad
\boldsymbol{d} =
\begin{bmatrix}
3 \\
-2
\end{bmatrix}, \quad
A = \begin{bmatrix}
-1 & -1 \\
1 & -1 \\
0 & 1
\end{bmatrix}, \quad
\boldsymbol{b} = \begin{bmatrix}
-2 \\
2 \\
3
\end{bmatrix}
$$
即目标函数
$$
Q(x_1,x_2) = x_1^2 + x_2^2 - x_1 x_2 + 3x_1- 2x_2
$$
二次优化中的数据矩阵和向量 $D,\boldsymbol{d},A,\boldsymbol{b}$ 依次用 `Dmat`、`dvec`、`Amat`、`bvec` 表示出来。
```{r}
Dmat <- matrix(c(2, -1, -1, 2), nrow = 2, byrow = TRUE)
dvec <- c(3, -2)
Amat <- matrix(c(-1, -1, 1, -1, 0, 1), ncol = 2, byrow = TRUE)
bvec <- c(-2, 2, 3)
```
同样,也是在函数 `OP()`中传递目标函数,约束条件。在函数 `Q_objective()` 中定义二次优化的目标函数,字母 Q 是 Quadratic 的意思,表示二次部分,字母 L 是 Linear 的意思,表示线性部分。函数 `L_constraint()` 的使用同线性优化,不再赘述。根据 **ROI** 包的使用接口定义的参数,定义目标优化。
```{r}
op <- OP(
objective = Q_objective(Q = Dmat, L = dvec),
constraints = L_constraint(L = Amat, dir = rep("<=", 3), rhs = bvec),
maximum = FALSE
)
op
```
**nloptr** 包有许多优化求解器,可用于求解二次优化的也有好几个。对于一个目标优化,函数 `ROI_applicable_solvers()` 可以找到能够求解此优化问题的求解器。
```{r}
ROI_applicable_solvers(op)
```
下面使用其中的 `nloptr.slsqp` 来求解。
```{r}
nlp <- ROI_solve(op, solver = "nloptr.slsqp", start = c(1, 2))
nlp$objval
nlp$solution
```
作为对比,移除线性不等式约束,求解无约束优化问题。目标函数仍然是二次型,但是已经没有线性约束条件,所以不是二次优化问题,再用求解器 `nloptr.slsqp` 求解的结果已不是无约束优化的解。
```{r}
op2 <- OP(
objective = Q_objective(Q = Dmat, L = dvec),
maximum = FALSE
)
op2
nlp2 <- ROI_solve(op2, solver = "nloptr.slsqp", start = c(1, 2))
nlp2$objval
nlp2$solution
```
在可行域上画出等高线,标记目标解的位置, @fig-quadprog 展示无约束和有约束条件下的解。图中橘黄色线围成的三角形区域是可行域,红点表示无约束下求解器 `nloptr.slsqp` 获得的解 $(0,1)$ ,真正的无约束解是蓝点所在位置为 $(-4/3,1/3)$ ,黄点表示线性约束下求解器 `nloptr.slsqp` 获得的解 $(1/6,11/6)$ 。所以,不能用二次优化的求解器去求解无约束的二次优化问题。
```{r}
#| label: fig-quadprog
#| fig-cap: "对比无约束和有约束条件下的解"
#| fig-width: 5
#| fig-height: 3.33
#| fig-showtext: true
#| code-fold: true
#| echo: !expr knitr::is_html_output()
# 约束解
qp_sol <- nlp$solution
# 无约束解
uc_sol <- nlp2$solution
dat <- expand.grid(x1 = seq(-2, 5.5, length.out = 50),
x2 = seq(-1, 3.5, length.out = 50))
# 二次优化的目标函数
dat$fn <- with(dat, x1^2 + x2^2 - x1 * x2 + 3 * x1 - 2 * x2)
levelplot(fn ~ x1 * x2, data = dat, aspect = .7,
xlab = expression(x[1]), ylab = expression(x[2]),
xlim = c(-2.2, 5.7), ylim = c(-1.1, 3.6),
panel = function(...) {
panel.levelplot(...)
panel.polygon(x = c(2, 5, -1), y = c(0, 3, 3),
border = "orange", lwd = 2, col = "transparent"
)
panel.points(
x = c(uc_sol[1], qp_sol[1], -4/3),
y = c(uc_sol[2], qp_sol[2], 1/3),
lwd = 5, col = c("red", "yellow", "blue"), pch = 19
)
},
# 减少图形的边空
lattice.options = list(
layout.widths = list(
left.padding = list(x = 0, units = "inches"),
right.padding = list(x = 0, units = "inches")
),
layout.heights = list(
bottom.padding = list(x = -1.5, units = "inches"),
top.padding = list(x = -1.5, units = "inches")
)
),
scales = list(
x = list(alternating = 1, tck = c(1, 0)),
y = list(alternating = 1, tck = c(1, 0))
), contour = TRUE, colorkey = TRUE,
col.regions = hcl.colors
)
```
**quadprog** 包在求解约束条件下的严格凸二次优化问题时,同时给出无约束条件下的解。这个包自定义了一套二次优化问题的符号,查看求解函数 `solve.QP()` 的说明,略作对应后,求解上述优化问题的代码如下。
```{r}
library(quadprog)
sol <- solve.QP(
Dmat = Dmat, dvec = -dvec, Amat = t(-Amat), bvec = -bvec
)
sol
```
其中,返回值的 `unconstrained.solution` 表示无约束下的解,与预期的解一致,这就没有疑惑了。可见,约束二次优化问题和无约束二次优化问题的求解器不同。
## 凸锥优化 {#sec-cone-optimization}
### 锥与凸锥 {#sec-cone-convex-cone}
二维平面上,圆盘和扇面是凸锥。三维空间中,球,圆锥、椭球、椭圆锥都是凸锥,如 @fig-convex-cone 所示。
```{r}
#| label: fig-convex-cone
#| fig-cap: 常见的三维凸锥
#| echo: false
#| out-width: 80%
knitr::include_graphics(path = "images/cone.png")
```
锥定义在对称的矩阵上,凸锥要求矩阵正定。一个 2 阶对称矩阵 $A$ 是正定的
$$
A = \begin{bmatrix}
a_{11} & a_{12} \\
a_{21} & a_{22}
\end{bmatrix}
$$
意味着 $a_{11} > 0, a_{22} > 0, a_{12} = a_{21}, a_{11}a_{22} - a_{12}a_{21} > 0$ 。一般地,将 $n$ 阶半正定的对称矩阵 $A$ 构成的集合记为 $\mathcal{K}_{+}^n$ 。
$$
\mathcal{K}_{+}^n = \{A \in \mathbb{R}^{n \times n}|\boldsymbol{x}^{\top}A\boldsymbol{x} \geq 0, ~ \forall \boldsymbol{x} \in \mathbb{R}^n\}
$$
目标函数为线性的凸锥优化的一般形式如下:
$$
\begin{aligned}
\min_{\boldsymbol{x}} \quad &\boldsymbol{d}^{\top}\boldsymbol{x} \\
\text{s.t.} \quad & A\boldsymbol{x} + \boldsymbol{k} = \boldsymbol{b} \\
& \boldsymbol{k} \in \mathcal{K}.
\end{aligned}
$$
其中,集合 $\mathcal{K}$ 是一个非空的封闭凸锥。在一个凸锥里,寻求一个线性目标函数的最小值。专门求解此类问题的 **scs** 包也在 **ROI** 包的支持范围内,可以求解的锥优化包括零锥、线性锥、二阶锥、指数锥、幂锥和半正定锥。
下面举个例子说明凸锥,含参对称矩阵 $A(m_1,m_2,m_3)$ 如下:
$$
A(m_1,m_2,m_3) = \begin{bmatrix}
1 & m_1 & m_2 \\
m_1 & 1 & m_3 \\
m_2 & m_3 & 1
\end{bmatrix}.
$$
而 $\boldsymbol{k} = \boldsymbol{b} - A\boldsymbol{x}$ 是非空封闭凸锥集合 $\mathcal{K}$ 中的元素。半正定矩阵 $A$ 生成的集合(凸锥) $K$ 如下:
$$
K = \{ (m_1,m_2,m_3) \in \mathbb{R}^3 \mid A(m_1,m_2,m_3) \in \mathcal{K}_{+}^3 \},
$$
集合 $K$ 是有界半正定的,要求含参矩阵 $A$ 的行列式大于等于 0。 矩阵 $A$ 的行列式如下:
$$
\det(A(m_1,m_2,m_3)) = - (m_1^2 + m_2^2 + m_3^2 -2m_1 m_2 m_3 -1)
$$
集合 $K$ 的边界可表示为如下方程的解:
$$
m_1^2 + m_2^2 + m_3^2 -2m_1 m_2 m_3 = 1
$$
或等价地表示为如下矩阵形式:
$$
\begin{split}\left[
\begin{array}{c}
m_1\\m_2
\end{array}\right]^{\top}
\left[\begin{array}{rr}
1 & -m_3\\-m_3 &1
\end{array}\right]
\left[\begin{array}{c}
m_1\\m_2
\end{array}\right] = 1 - m_3^2.
\end{split}
$$
当 $m_3 = 0$ 时,集合 $K$ 的边界表示平面上的一个单位圆,当 $m_3 \in [-1, 1]$ ,集合 $K$ 的边界表示一个椭圆。为了获得一个直观的印象,将集合 $K$ 的边界绘制出来,如 @fig-convex-cone 所示,边界是一个三维曲面,曲面及其内部构成一个凸锥。
```{r}
#| label: fig-cone
#| fig-cap: 锥
#| fig-width: 4.5
#| fig-height: 4.5
#| fig-showtext: true
#| code-fold: true
#| echo: !expr knitr::is_html_output()
# 分两部分绘图
fn1 <- function(x) {
x[1] * x[2] + sqrt(x[1]^2 * x[2]^2 - x[1]^2 - x[2]^2 + 1)
}
fn2 <- function(x) {
x[1] * x[2] - sqrt(x[1]^2 * x[2]^2 - x[1]^2 - x[2]^2 + 1)
}
df2 <- df1 <- expand.grid(
x = seq(-1, 1, length.out = 51),
y = seq(-1, 1, length.out = 51)
)
# 计算函数值
df1$fnxy <- apply(df1, 1, fn1)
df2$fnxy <- apply(df2, 1, fn2)
# 添加分组变量
df1$group <- "1"
df2$group <- "2"
# 合并数据
df <- rbind(df1, df2)
# 绘图
wireframe(
data = df, fnxy ~ x * y, groups = group,
shade = TRUE, drape = FALSE,
xlab = expression(m[1]),
ylab = expression(m[2]),
zlab = expression(m[3]),
scales = list(arrows = FALSE, col = "black"),
shade.colors.palette = custom_palette,
# 减少三维图形的边空
lattice.options = list(
layout.widths = list(
left.padding = list(x = -0.5, units = "inches"),
right.padding = list(x = -1.0, units = "inches")
),
layout.heights = list(
bottom.padding = list(x = -1.5, units = "inches"),
top.padding = list(x = -1.5, units = "inches")
)
),
par.settings = list(axis.line = list(col = "transparent")),
screen = list(z = 30, x = -65, y = 0)
)
```
### 零锥 {#sec-zero-cone}
零锥的定义如下:
$$
\mathcal{K}_{zero} = \{0\}
$$
常用于表示线性等式约束。
### 线性锥 {#sec-linear-cone}
线性锥(Linear Cone)的定义如下:
$$
\mathcal{K}_{lin} = \{x \in \mathbb{R}|x \geq 0\}
$$
常用于表示线性不等式约束。
### 二阶锥 {#sec-second-order-cone}
二阶锥(Second-order Cone)的定义如下:
$$
\mathcal{K}_{soc}^{n} = \{(t,x) \in \mathbb{R}^n|x \in \mathbb{R}^{n-1}, t\in\mathbb{R},\| x \|_2 \leq t\}
$$
常用于凸二次优化问题。考虑如下二阶锥优化 SOCP 问题:
$$
\begin{aligned}
\max_{(\boldsymbol{y},t)} \quad & y_1 + y_2 \\
\text{s.t.} \quad & \sqrt{(2 + 3y_1)^2 + (4+5y_2)^2} \leq 6 + 7t \\
& y_1,y_2 \in \mathbb{R}, ~~ t \in (-\infty,9].
\end{aligned}
$$
令 $\boldsymbol{x} = (y_1, y_2, t)^{\top}$ ,$\boldsymbol{b} = (b_1,b_2,b_3)^\top$
$$
A = \begin{bmatrix}
\boldsymbol{a_1}^{\top}\\
\boldsymbol{a_2}^{\top}\\
\boldsymbol{a_3}^{\top}
\end{bmatrix}
$$
上述 SOCP 问题的非线性不等式约束等价于
$$
\sqrt{(b_2 - \boldsymbol{a_2}^{\top}\boldsymbol{x})^2 + (b_3 -\boldsymbol{a_3}^{\top}\boldsymbol{x})^2} \leq b_1 - \boldsymbol{a_1}^{\top}\boldsymbol{x}
$$
其中,
$$
A = \begin{bmatrix}
0 & 0 & -7 \\
-3 & 0 & 0 \\
0 & -5 & 0
\end{bmatrix}, \quad
\boldsymbol{b} = \begin{bmatrix}
6 \\
2 \\
4
\end{bmatrix}
$$
**scs** 包不能求解此类优化问题,下面调用 **ECOSolveR** 包求解。
```{r}
library(ROI.plugin.ecos)
op <- OP(
objective = c(1, 1, 0),
constraints = C_constraint(
L = rbind(
c(0, 0, -7),
c(-3, 0, 0),
c(0, -5, 0)
),
cones = K_soc(3), rhs = c(6, 2, 4)
), maximum = TRUE,
bounds = V_bound(ld = -Inf, ui = 3, ub = 9, nobj = 3)
)
sol <- ROI_solve(op, solver = "ecos")
# 最优解
sol$solution
# 目标函数值
sol$objval
```
对决策变量 $y_1$ 添加整数约束,则只有 **ECOSolveR** 包可以求解。
```{r}
op <- OP(
objective = c(1, 1, 0),
constraints = C_constraint(
L = rbind(
c(0, 0, -7),
c(-3, 0, 0),
c(0, -5, 0)
),
cones = K_soc(3), rhs = c(6, 2, 4)
), maximum = TRUE,
# 决策变量约束
types = c("I", "C", "C"),
bounds = V_bound(ld = -Inf, ui = 3, ub = 9, nobj = 3)
)
sol <- ROI_solve(op, solver = "ecos")
# 最优解
sol$solution
# 目标函数值
sol$objval
```
### 指数锥 {#sec-exponential-cone}
指数锥(Exponential Cone)的定义如下:
$$
\mathcal{K}_{\text{expp}} = \{(x_1, x_2,x_3) \in \mathbb{R}^3 | x_2 > 0,x_2\exp\big(\frac{x_1}{x_2}\big) \leq x_3\} \cup \{(x_1, 0, x_3) \in \mathbb{R}^3 | x_1 \leq 0, x_3 \geq 0 \}
$$
它的对偶如下:
$$
\mathcal{K}_{\text{expd}} = \{(x_1, x_2,x_3) \in \mathbb{R}^3 | x_1 < 0, - x_1\exp\big(\frac{x_2}{x_1}\big) \leq \exp(1)x_3\} \cup \{(0, x_2, x_3) \in \mathbb{R}^3 | x_2 , x_3 \geq 0 \}
$$
考虑一个锥优化问题
$$
\begin{aligned}
\max_{(\boldsymbol{x}, \boldsymbol{t})} \quad & x_1 + 2 x_2 \\
\text{s.t.} \quad & \exp(7 + 3x_1 + 5 x_2) \leq 9 + 11 t_1 + 12t_2 \\
\quad & x_1,x_2 \in (-\infty,20], ~ t_1,t_2 \in (-\infty, 50]
\end{aligned}
$$
约束条件 $\exp(7 + 3x_1 + 5 x_2) \leq 9 + 11 t_1 + 12t_2$ 可以用指数锥来表示
$$
\begin{aligned}
u &= 7 + 3y_1 + 5y_2 \\
v &= 1 \\
w &= 9 + 11t_1 + 12t_2
\end{aligned}
$$
记 $\boldsymbol{x} = (y_1,y_2,t_1,t_2)^{\top}$ ,则线性约束矩阵 $A$ 和约束向量 $\boldsymbol{b}$ 如下:
$$
A = \begin{bmatrix}
-3 & -5 & 0 & 0 \\
0 & 0 & 0 & 0 \\
0 & 0 & -11 & -12
\end{bmatrix}, \quad
\boldsymbol{b} = \begin{bmatrix}
7 \\
1 \\
9
\end{bmatrix}
$$
指数锥用函数 `K_expp()` 表示,锥优化问题的代码如下:
```{r}
# 目标优化
op <- OP(
objective = c(1, 2, 0, 0),
# 锥约束
constraints = C_constraint(L = rbind(
c(-3, -5, 0, 0),
c(0, 0, 0, 0),
c(0, 0, -11, -12)
), cone = K_expp(1), rhs = c(7, 1, 9)),
bounds = V_bound(ld = -Inf, ub = c(20, 20, 50, 50)),
maximum = TRUE
)
op
```
对于锥优化,可以调用 **scs** 包来求解。
```{r}
# 调用 scs 包
library(ROI.plugin.scs)
sol <- ROI_solve(op, solver = "scs")
# 最优解
sol$solution
# 目标函数值
sol$objval
```
### 幂锥 {#sec-power-cone}
一个三维幂锥(Power Cone)的定义如下:
$$
\mathcal{K}_{\text{powp}}^{\alpha} = \{(x_1, x_2,x_3) \in \mathbb{R}^3 | x_1,x_2 \geq 0,x_1^{\alpha}x_2^{1-\alpha} \geq |x_3| \}, \alpha \in [0,1]
$$
它的对偶形式如下:
$$
\mathcal{K}_{\text{powp}}^{\alpha} = \Big\{(x_1, x_2,x_3) \in \mathbb{R}^3 | x_1,x_2 \geq 0,\big(\frac{x_1}{\alpha}\big)^{\alpha}\big(\frac{x_2}{1 - \alpha}\big)^{1-\alpha} \geq |x_3| \Big\}, \alpha \in [0,1]
$$
考虑如下锥优化问题
$$
\begin{aligned}
\min_{\boldsymbol{x}} \quad & 3x_1 + 5 x_2 \\
\text{s.t.} \quad & 5 + x_1 \leq (2 + x_2)^4 \\
\quad & x_1 \geq 0, ~ x_2 \geq 2
\end{aligned}
$$
约束条件 $5 + x_1 \leq (2 + x_2)^4$ 可以重新表示为幂锥
$$
\begin{aligned}
u &= 5 + y_1\\
v &= 1 \\
w &= 2 + y_2 \\
\alpha &= 1/4
\end{aligned}
$$
记 $\boldsymbol{x} = (y_1,y_2)^{\top}$ ,约束矩阵和约束向量如下
$$
A = \begin{bmatrix}
-1 & 0 \\
0 & 0 \\
0 & -1
\end{bmatrix}, \quad
\boldsymbol{b} = \begin{bmatrix}
5 \\
1 \\
2
\end{bmatrix}
$$
幂锥用函数 `K_powp()` 表示,锥优化问题的代码如下:
```{r}
A <- rbind(c(-1, 0), c(0, 0), c(0, -1))
cpowp <- C_constraint(L = A, cones = K_powp(1 / 4), rhs = c(5, 1, 2))
op <- OP(
objective = c(3, 5),
constraints = cpowp,
bounds = V_bound(lb = c(0, 2))
)
op
```
```{r}
sol <- ROI_solve(op, solver = "scs", max_iter = 1e6)
# 最优解
sol$solution
# 目标函数值
sol$objval
```
### 半正定锥 {#sec-positive-semi-definite-cone}
如果矩阵 $A$ 是半正定的,记为 $A \succeq 0$ ,如果矩阵 $A$ 是正定的,记为 $A \succ 0$ 。记 $n$ 阶实对称矩阵的集合为 $\mathcal{S}^{n}$ 。半正定锥(Positive Semi Definite Cone)的定义如下:
$$
\mathcal{K}_{\text{psd}}^{n} = \{A | A \in \mathcal{S}^{n}, \boldsymbol{x}^{\top}A\boldsymbol{x} \geq 0, \forall \boldsymbol{x} \in \mathbb{R}^n \}
$$
考虑如下锥优化问题
$$
\begin{aligned}
\min_{\boldsymbol{x}} \quad & x_1 + x_2 - x_3 \\
\text{s.t.} \quad &
x_1 \begin{bmatrix}
10 & 3 \\
3 & 10
\end{bmatrix} +
x_2 \begin{bmatrix}
6 & -4 \\
-4 & 10
\end{bmatrix} +
x_3 \begin{bmatrix}
8 & 1 \\
1 & 6
\end{bmatrix} \preceq
\begin{bmatrix}
16 & -13 \\
-13 & 60
\end{bmatrix}
\\
\quad & x_1,x_2,x_3 \geq 0
\end{aligned}
$$
函数 `K_psd()` 表示半正定锥,函数 `vech()` 将对称矩阵的上三角部分拉成一个向量。
```{r}
(A <- toeplitz(x = 3:1))
vech(A)
```
锥优化的表示如下
```{r}
F1 <- rbind(c(10, 3), c(3, 10))
F2 <- rbind(c(6, -4), c(-4, 10))
F3 <- rbind(c(8, 1), c(1, 6))
F0 <- rbind(c(16, -13), c(-13, 60))
# 目标优化
op <- OP(
objective = L_objective(c(1, 1, -1)),
constraints = C_constraint(
L = vech(F1, F2, F3),
cones = K_psd(3),
rhs = vech(F0)
)
)
op
```
仍然调用 **scs** 包求解器。
```{r}
sol <- ROI_solve(op, solver = "scs")
# 最优解
sol$solution
# 目标函数值
sol$objval
```
## 非线性优化 {#sec-nonlinear-optimization}
非线性优化按是否带有约束,以及约束是线性还是非线性,分为无约束优化、箱式约束优化、线性约束优化和非线性约束优化。箱式约束可看作是线性约束的特殊情况。
| | `nlm()` | `nlminb()` | `constrOptim()` | `optim()` |
|----------|---------|------------|-----------------|-----------|
| 无约束 | 支持 | 支持 | 不支持 | 支持 |
| 箱式约束 | 不支持 | 支持 | 支持 | 支持 |
| 线性约束 | 不支持 | 不支持 | 支持 | 不支持 |
: R 软件内置的非线性优化函数
R 软件内置的 **stats** 包有 4 个数值优化方面的函数,函数 `nlm()` 可求解无约束优化问题,函数 `nlminb()` 可求解无约束、箱式约束优化问题,函数 `constrOptim()` 可求解箱式和线性约束优化。函数 `optim()` 是通用型求解器,包含多个优化算法,可求解无约束、箱式约束优化问题。尽管这些函数在 R 语言中长期存在,在统计中有广泛的使用,如非线性最小二乘 `stats::nls()`,极大似然估计 `stats4::mle()` 和广义最小二乘估计 `nlme::gls()` 等。但是,这些优化函数的求解能力有重合,使用语法不尽相同,对于非线性约束无能为力,下面仍然主要使用 **ROI** 包来求解多维非线性优化问题。
### 一元非线性优化 {#sec-one-dimensional-optimization}
求如下一维分段非线性函数的最小值,其函数图像见 @fig-one-dimensional-optimization ,这个函数是不连续的,更不光滑。
$$
f(x) =
\begin{cases}
10 & x \in (-\infty,-1] \\
\exp(-\frac{1}{|x-1|}) & x \in (-1,4) \\
10 & x \in [4, +\infty)
\end{cases}
$$
```{r}
fn <- function(x) ifelse(x > -1, ifelse(x < 4, exp(-1 / abs(x - 1)), 10), 10)
```
```{r}
#| echo: false
options(
tinytex.engine = "xelatex",
tikzDefaultEngine = "xetex",
tikzDocumentDeclaration = "\\documentclass[tikz]{standalone}\n",
tikzXelatexPackages = c(
"\\usepackage[fontset=fandol]{ctex}",
"\\usepackage{amsfonts,mathrsfs,amssymb}\n"
)
)
# 用 magick 将 pdf 格式图片转化为 png 格式
to_png <- function(fig_path) {
png_path <- sub("\\.pdf$", ".png", fig_path)
magick::image_write(magick::image_read_pdf(fig_path),
format = "png", path = png_path,
density = 300, quality = 100
)
return(png_path)
}
```
```{r}
#| label: fig-one-dimensional-optimization
#| fig-cap: 一维函数图像
#| fig-width: 4
#| fig-height: 3
#| dev: 'tikz'
#| fig-process: !expr to_png
#| code-fold: true
#| echo: !expr knitr::is_html_output()
op <- par(mar = c(4, 4, 0.5, 0.5))
curve(
expr = fn, from = -2, to = 5, lwd = 2,
panel.first = grid(),
xlab = "$x$", ylab = "$f(x)$"
)
on.exit(par(op), add = TRUE)
```
函数 `optimize()` 可以求解一元函数的极值问题,默认求极小值,参数 `f` 表示目标函数,参数 `interval` 表示搜索在此区间内最小值。函数返回一个列表,元素 `minimum` 表示极小值点,`objective` 表示极值点对应的目标函数值。
```{r}
optimize(f = fn, interval = c(-4, 20), maximum = FALSE)
optimize(f = fn, interval = c(-7, 20), maximum = FALSE)
```
值得注意,对于不连续的分段函数,在不同的区间内搜索极值,可能获得不同的结果,可以绘制函数图像帮助选择最小值。
### 多元隐函数优化 {#sec-implicit-function-optimization}
这个优化问题来自 1stOpt 软件的帮助文档,下面利用 R 语言来求该多元隐函数的极值。
$$
\begin{aligned}
\min_{\boldsymbol{x}} y = & ~\sin\Big((yx_1 -0.5)^2 + 2x_1 x_2^2 - \frac{y}{10} \Big)\cdot \\
&~\exp\Big(-\Big( \big(x_1 - 0.5 -\exp(-x_2 + y)\big)^2 + x_2^2 - \frac{y}{5} + 3 \Big)\Big)
\end{aligned}
$$
其中, $x_1 \in [-1,7],x_2 \in [-2,2]$ 。
对于隐函数 $f(x_1,x_2,y)=0$ ,常规的做法是先计算隐函数的偏导数,并令偏导数为 0,再求解非线性方程组,得到各个驻点,最后,将驻点代入原方程,比较驻点处函数值,根据优化目标选择最大或最小值。
$$
\begin{aligned}
\frac{\partial f(x_1,x_2,y)}{\partial x_1} = 0 \\
\frac{\partial f(x_1,x_2,y)}{\partial x_2} = 0
\end{aligned}
$$
如果目标函数很复杂,隐函数偏导数难以计算,可以考虑暴力网格搜索。先估计隐函数值 $z$ 的大致范围,给定 $x,y$ 时,计算一元非线性方程的根。
```{r}
fn <- function(m) {
subfun <- function(x) {
f1 <- (m[1] * x - 0.5)^2 + 2 * m[1] * m[2]^2 - x / 10
f2 <- -((m[1] - 0.5 - exp(-m[2] + x))^2 + m[2]^2 - x / 5 + 3)
x - sin(f1) * exp(f2)
}
uniroot(f = subfun, interval = c(-1, 1))$root
}
```
在位置 $(1,2)$ 处函数值为 0.0007368468。
```{r}
# 测试函数 fn
fn(m = c(1, 2))
```
将目标区域网格化,通过一元非线性方程求根的方式获得每个格点处的函数值。
```{r}
df <- expand.grid(
x1 = seq(from = -1, to = 7, length.out = 81),
x2 = seq(from = -2, to = 2, length.out = 41)
)
# 计算格点处的函数值
df$fn <- apply(df, 1, FUN = fn)
```
在此基础上,绘制隐函数图像,如 @fig-implicit-function 所示,可以获得关于隐函数的大致情况。
```{r}
#| label: fig-implicit-function
#| fig-width: 4.5
#| fig-height: 4.5
#| fig-cap: 隐函数图像
#| fig-showtext: true
#| code-fold: true
#| echo: !expr knitr::is_html_output()
# 绘图
wireframe(
data = df, fn ~ x1 * x2,
shade = TRUE, drape = FALSE,
xlab = expression(x[1]), ylab = expression(x[2]),
zlab = list(expression(
italic(f) ~ group("(", list(x[1], x[2]), ")")
), rot = 90),
scales = list(arrows = FALSE, col = "black"),
shade.colors.palette = custom_palette,
# 减少三维图形的边空
lattice.options = list(
layout.widths = list(
left.padding = list(x = -0.5, units = "inches"),
right.padding = list(x = -1.0, units = "inches")
),
layout.heights = list(
bottom.padding = list(x = -1.5, units = "inches"),
top.padding = list(x = -1.5, units = "inches")
)
),
par.settings = list(axis.line = list(col = "transparent")),
screen = list(z = 30, x = -65, y = 0)
)
```
最后,获得暴力网格搜索的结果,目标函数在 $(2.8,-0.9)$ 处取得最小值 $-0.02159723$。总的来说,这是一个近似结果,如果进一步缩小搜索区域,将网格划分得越细,搜索的结果将越接近全局最小值。
```{r}
df[df$fn == min(df$fn), ]
```
将求隐函数极值的问题转为含非线性等式约束的非线性优化问题。
$$
\begin{aligned}
\min_{\boldsymbol{x}} \quad & y \\
\text{s.t.} \quad & f(x_1,x_2,y) = 0
\end{aligned}
$$
由于等式约束非常复杂,手动计算等式约束的雅可比矩阵不可行,可以用 **numDeriv** 包的函数 `jacobian()` 计算等式约束的雅可比矩阵。考虑到本例中仅含有一个等式约束,雅可比矩阵退化为梯度向量,这可以用 **numDeriv** 包的另一个函数 `grad()` 计算。
```{r}
# 等式约束
heq <- function(x) {
f1 <- (x[1] * x[3] - 0.5)^2 + 2 * x[1] * x[2]^2 - x[3] / 10
f2 <- (x[1] - 0.5 - exp(-x[2] + x[3]))^2 + x[2]^2 - x[3] / 5 + 3
x[3] - sin(f1) * exp(-f2)
}
# 等式约束的梯度
heq.jac <- function(x) {
numDeriv::grad(func = heq, x = x)
}