-
Notifications
You must be signed in to change notification settings - Fork 2
/
esl_notes_compile.lyx
9532 lines (7091 loc) · 212 KB
/
esl_notes_compile.lyx
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
#LyX 2.0 created this file. For more info see http://www.lyx.org/
\lyxformat 413
\begin_document
\begin_header
\textclass article
\use_default_options true
\maintain_unincluded_children false
\language english
\language_package default
\inputencoding utf8
\fontencoding global
\font_roman 黑体
\font_sans 仿宋
\font_typewriter 楷体
\font_default_family default
\use_non_tex_fonts true
\font_sc false
\font_osf false
\font_sf_scale 100
\font_tt_scale 100
\graphics default
\default_output_format default
\output_sync 0
\bibtex_command default
\index_command default
\paperfontsize default
\spacing single
\use_hyperref false
\papersize default
\use_geometry false
\use_amsmath 1
\use_esint 1
\use_mhchem 1
\use_mathdots 1
\cite_engine basic
\use_bibtopic false
\use_indices false
\paperorientation portrait
\suppress_date false
\use_refstyle 1
\index Index
\shortcut idx
\color #008000
\end_index
\secnumdepth 3
\tocdepth 3
\paragraph_separation indent
\paragraph_indentation default
\quotes_language english
\papercolumns 1
\papersides 1
\paperpagestyle default
\tracking_changes false
\output_changes false
\html_math_output 0
\html_css_as_file 0
\html_be_strict false
\end_header
\begin_body
\begin_layout Title
≪统计学习精要(TheElementsofStatisticalLearning)≫课堂笔记
\end_layout
\begin_layout Section
导论和课程大纲
\end_layout
\begin_layout Standard
\align left
前两天微博上转出来的,复旦计算机学院的吴立德吴老师在开
\emph on
《统计学习精要(TheElementsofStatisticalLearning)
\emph default
》这门课,还在张江...大牛的课怎能错过,果断请假去蹭课...为了减轻心理压力,还拉了一帮同事一起去听,eBay浩浩荡荡的十几人杀过去好不壮观!总感觉我们的人有超过复旦本身
学生的阵势,五六十人的教室坐的满满当当,壮观啊。
\end_layout
\begin_layout Standard
\align left
这本书正好前阵子一直在看,所以才会屁颠屁颠的跑过去听。确实是一本深入浅出讲dataminingmodels的好书。作者网站上提供免费的电子版下载,爽!
\begin_inset CommandInset href
LatexCommand href
name "http://www-stat.stanford.edu/~tibs/ElemStatLearn/"
target "http://www-stat.stanford.edu/~tibs/ElemStatLearn/"
\end_inset
\end_layout
\begin_layout Standard
\align left
从这周开始,如无意外我会每周更新课堂笔记。另一方面,也会加上自己的一些理解和实际工作中的感悟。此外,对于datamining感兴趣的,也可以去coursera听
课~貌似这学期开的machinelearning评价不错。我只在coursera上从众选了一门「ModelThinking」,相对来说比较简单,但是相当的优雅!
若有时间会再写写这门课的上课感受。笔记我会尽量用全部中文,但只是尽量...
\end_layout
\begin_layout Standard
\align left
------------课堂笔记开始--------
\end_layout
\begin_layout Standard
\align left
第一次上课,主要是导论,介绍这个领域的关注兴趣以及后续课程安排。对应本书的第一章。
\end_layout
\begin_layout Standard
\align left
1.统计学习是?从数据中学习知识。简单地说,我们有一个想预测的结果(outcome),记为
\begin_inset Formula $Y$
\end_inset
,可能是离散的也可能是连续的。同时,还有一些观察到的特征(feature),记为
\begin_inset Formula $X$
\end_inset
,
\begin_inset Formula $X$
\end_inset
既可能是一维的也可能是多维的。对于每一个观测个体,我们都会得到一个行向量
\begin_inset Formula $(x_{1},...,x_{p})$
\end_inset
,对应它的p个特征的观测值,以及一个观测到的结果值
\begin_inset Formula $y$
\end_inset
。如果总共有
\begin_inset Formula $N$
\end_inset
个个体,那么我们对于每个个体都会得到这些值,则有
\begin_inset Formula $(y_{1},...,y_{n})_{T}$
\end_inset
为观测结果的列向量以及
\begin_inset Formula $X(n*p)$
\end_inset
矩阵。这样的数据称之为训练数据集(trainingset)。这里更多是约定一些notation.
\end_layout
\begin_layout Standard
\align left
2.统计学习分类?一般说来,我们有个观测到的结果
\begin_inset Formula $Y$
\end_inset
,然后找到一个适合的模型根据
\begin_inset Formula $X$
\end_inset
预测
\begin_inset Formula $Y$
\end_inset
,这样的称之为有监督的学习(supervisedlearning)。而有些时候,
\begin_inset Formula $Y$
\end_inset
是无法观测到的,那么只是通过
\begin_inset Formula $X$
\end_inset
来学习,称之为无监督的学习(unsupervisedlearning)。这本书主要侧重有监督的学习。
\end_layout
\begin_layout Standard
\align left
3.回归和分类器。这个主要和
\begin_inset Formula $Y$
\end_inset
有关。如果
\begin_inset Formula $Y$
\end_inset
为离散,比如红黄蓝不同颜色,则称之为分类器(学习模型);反之,若
\begin_inset Formula $Y$
\end_inset
为连续,比如身高,则称之为回归(学习模型)。这里更多只是称谓上的区别。
\end_layout
\begin_layout Standard
\align left
4.统计学习的任务?预测。通过什么来预测?学习模型(learningmodels)。按照什么来学习?需要一定的准则,比如最小均方误差MSE,适用于分类器的0-1准
则等。基于这些准则、优化过的实现方法称之为算法。
\end_layout
\begin_layout Standard
\align left
5.统计学习举例?
\end_layout
\begin_layout Standard
\align left
分类器:依据邮件发信人、内容、标题等判断是否为垃圾邮件;
\end_layout
\begin_layout Standard
\align left
回归:前列腺特异抗原(PSA)水平与癌症等因素的关系;
\end_layout
\begin_layout Standard
\align left
图形识别:手写字母的识别;
\end_layout
\begin_layout Standard
\align left
聚类:根据DNA序列判断样本的相似性,如亲子鉴定。
\end_layout
\begin_layout Standard
\align left
6.课程安排顺序?
\end_layout
\begin_layout Standard
\align left
第二章,是对于有监督的学习模型的概览。
\end_layout
\begin_layout Standard
\align left
第三章和第四章将讨论线性回归模型和线性分类器。
\end_layout
\begin_layout Standard
\align left
第五章将讨论广义线性模型(GLM)。
\end_layout
\begin_layout Standard
\align left
第六章涉及kernel方法和局部回归。
\end_layout
\begin_layout Standard
\align left
第七章是模型评价与选择。
\end_layout
\begin_layout Standard
\align left
第八章是测侧重算法,比如最大似然估计,bootstrap等。本学期预计讲到这里。所以后面的我就暂时不列出了。
\end_layout
\begin_layout Standard
\align left
目测第二节开始将变得越来越难,前阵子自学第二章痛苦不已啊...一个LASSO就折磨了我好久。当时的读书笔记见:
\begin_inset CommandInset href
LatexCommand href
name "降维模型若干感悟"
target "http://www.loyhome.com/%e9%99%8d%e7%bb%b4%e6%a8%a1%e5%9e%8b%e8%8b%a5%e5%b9%b2%e6%84%9f%e6%82%9f/"
\end_inset
\end_layout
\begin_layout Standard
\align left
--------10.15补充---------
\end_layout
\begin_layout Standard
\align left
上周写的时候只是凭着记忆,笔记没在身边。今天重新翻了翻当时记下的课堂笔记,再补充一些吧。
\end_layout
\begin_layout Standard
\align left
第九章是可加模型,即
\begin_inset Formula $f(x_{1},...,x_{p})=f(x_{1})+...+f(x_{p})$
\end_inset
\end_layout
\begin_layout Standard
\align left
第十章是boosting模型
\end_layout
\begin_layout Standard
\align left
第十一章讨论神经网络
\end_layout
\begin_layout Standard
\align left
第十二章讨论支持向量机(SupportVectorMachine)
\end_layout
\begin_layout Standard
\align left
第十三章设计原型方法(Prototype)
\end_layout
\begin_layout Standard
\align left
第十四章从有监督的学习转到无监督的学习(即有
\begin_inset Formula $X$
\end_inset
有
\begin_inset Formula $Y$
\end_inset
\begin_inset Formula $\rightarrow$
\end_inset
有
\begin_inset Formula $X$
\end_inset
无
\begin_inset Formula $Y$
\end_inset
)
\end_layout
\begin_layout Standard
\align left
第十五章讨论随机森林模型(RandomForest)
\end_layout
\begin_layout Standard
\align left
第十六章是集群学习
\end_layout
\begin_layout Standard
\align left
第十七章结构图模型
\end_layout
\begin_layout Standard
\align left
第十八章高维问题(我最近一直念叨的curseofdimensionality...今年搞笑诺贝尔奖也多少与此有关,见
\begin_inset CommandInset href
LatexCommand href
name "http://www.guokr.com/article/344117/"
target "http://www.guokr.com/article/344117/"
\end_inset
,还有一篇
\begin_inset CommandInset href
LatexCommand href
name "相关的paper"
target "http://cver.upei.ca/files/cver/04_Astrological%20associations%20and%20illness_jce.pdf"
\end_inset
)
\end_layout
\begin_layout Standard
\align left
ps.吴老师对于随机森林等等模型的评论也挺有意思的,大致是,大家都没搞清随机森林为什么效果这么好...而且这一类模型都是computatoinalintensive的,
即有一个非常简单的idea然后借助大量的计算来实现。此外,这类方法更多有“猜”的感觉,无法知道来龙去脉,在现实中显得不那么intuitive...(不像econome
trics那般致力于causality呢)。
\end_layout
\begin_layout Section
简单预测方法,OLS和KNN,统计决策理论
\end_layout
\begin_layout Standard
\align left
继续一周一次的课堂笔记:D
\end_layout
\begin_layout Standard
\align left
昨天去晚了站着听讲,感觉好好啊,注意各种集中。想想整个教室里面就是我和老师是站着的,自豪感油然而生。
\end_layout
\begin_layout Standard
\align left
第二次课讲的东西依旧比较简单,是这本书第二章的前半部分。作为一个好久之前已经预习过的孩子,我表示万分的得意(最小二乘法难道不是三四年前就学过的?话说以后我再面人
的时候,就让他推导最小二乘估计量,嘻嘻...考验一下基本功)。
\end_layout
\begin_layout Standard
\align left
------------原谅我的废话,笔记开始------------
\end_layout
\begin_layout Subsection
简单预测方法:最小二乘法(以下沿用计量经济学的习惯,简称OLS)
\end_layout
\begin_layout Standard
\align left
OLS实在是太普遍了,我就不赘述细节了。OLS的思想就是,基于已有的样本信息,找出一条直线,让预测值与真实值之间的残差平方和最小,即
\begin_inset Formula $∑_{n}(y−\hat{y})^{2}$
\end_inset
最小。其中,
\begin_inset Formula $y$
\end_inset
为真实的样本观测值(已有样本),而
\begin_inset Formula $\hat{y}$
\end_inset
是OLS的预测值。用图来讲的话,
\begin_inset Formula $X$
\end_inset
为一维向量的时候,就是用一条直线来最好的拟合各个样本点。
\end_layout
\begin_layout Standard
\align left
这里就很明显了,首先OLS假设是一条直线。那么就是一个参数模型,即我们需要假设一个未知的参数
\begin_inset Formula $β$
\end_inset
,构成一个线性方程
\begin_inset Formula $y=βx$
\end_inset
,然后再去估计β的值。然后呢,直线会有很多条,所以我们要找到一个目标——比如这里,就是最小化残差平方和RSS。换言之,我们寻找的就是最优的向量
\begin_inset Formula $\hat{\beta}$
\end_inset
使得RSS最小。
\end_layout
\begin_layout Standard
\align left
解这个最优化问题很简单,我就不重复了。最后解得的最优估计量为:
\end_layout
\begin_layout Standard
\align left
\begin_inset Formula
\[
\hat{\beta}=(X'X)^{-1}X'Y
\]
\end_inset
\end_layout
\begin_layout Standard
\align left
这里写成矩阵形式,比较简单。
\begin_inset Formula $X$
\end_inset
为一维向量的时候,可以改写成
\begin_inset Formula $∑$
\end_inset
形式,我个人不大喜欢,就不展开了。
\end_layout
\begin_layout Subsection
简单预测方法:K近邻(k nearest neighbor)
\end_layout
\begin_layout Standard
\align left
K近邻的思想就更简单了。不就是想预测某个点x对应的y么?那么就把它的邻居都找来,平均一下好了。不是有句话叫做什么“一个人的收入就大概是他的圈子收入的平均值么?”
\end_layout
\begin_layout Standard
\align left
所以
\begin_inset Formula $\hat{y}=mean(y_{i}|x_{i}\in N_{k}(x))$
\end_inset
,这里
\begin_inset Formula $N_{k}(x)$
\end_inset
表示点
\begin_inset Formula $x$
\end_inset
的K近邻。至于这个近邻怎么定义嘛,嘻嘻,很简单啊,欧几里德距离就可以嘛~
\end_layout
\begin_layout Standard
\align left
评语:吴老师对于这两个算法的直观评价是,OLS呢就是勤奋的学生,预测前先做足功课,预测的时候只要知道X,噼里啪啦一下子y就估计出来了。然而knn则是一个临时抱佛
脚的学生,预测的时候开始找自己的k近邻,然后把它们平均一下就好了。哈哈,大意如此,大家可以体会一下这种精神。我个人感觉呢,OLS属于以不变应万变的,而knn则是
见机行事的。
\end_layout
\begin_layout Subsection
统计决策理论(Statistical Decision Theory)
\end_layout
\begin_layout Standard
\align left
说了这么多,这个模型好不好到底怎么判读呢?凡事总得有个标准呢。这一系列的标准或者说准则,就是统计决策理论了。
\end_layout
\begin_layout Standard
\align left
首先呢,大致我们需要对X,Y有个分布上的描述:用
\begin_inset Formula $P(X,Y)$
\end_inset
记作向量
\begin_inset Formula $(X,Y)$
\end_inset
的联合分布,然后
\begin_inset Formula $p(X,Y)$
\end_inset
为其对应的密度函数。之后为了估计Y,我们会有很多很多模型,即各种
\begin_inset Formula $f(X)$
\end_inset
,而这些
\begin_inset Formula $f(X)$
\end_inset
组成的函数空间记为
\begin_inset Formula $F$
\end_inset
。
\end_layout
\begin_layout Standard
\align left
然后我们定义一个损失函数,比如在均方误差意义下,
\begin_inset Formula $\mathcal{L}(Y,f(X)=(Y-f(X))^{2}$
\end_inset
,这样就有了一个选择的标准——使得损失函数的期望最小:
\begin_inset Formula $EPE(f)=E(Y-f(X))^{2}=\int[y-f(x)]^{2}P(dx,dy)$
\end_inset
。接下来就是,到底在
\begin_inset Formula $F$
\end_inset
空间里面,哪一个
\begin_inset Formula $f$
\end_inset
最符合这个标准呢?
\end_layout
\begin_layout Standard
\align left
首先自然是把联合分布变为条件分布。这个idea显而易见——我们总是知道X的(原谅我吧,全中文确实比较难写,偶尔穿插英文一下 ^_^)。所以conditional
on X,我们就有了
\end_layout
\begin_layout Standard
\align left
\begin_inset Formula
\[
EPE(f)=\int[y-f(x)]^{2}P(dx,dy)=\intop_{x}\left\{ \intop_{y}[y-f(x)]^{2}p(y|x)dy\right\} p(x)dx
\]
\end_inset
\end_layout
\begin_layout Standard
\align left
去解最小化问题,最终我们得到的就是在每个点
\begin_inset Formula $X$
\end_inset
上,
\begin_inset Formula $f(X)=E(y|X=x)$
\end_inset
。通俗的讲就是,对于每个点预测,把和它X向量取值一样的样本点都找出来,然后取他们的平均值就可以了。很直观的不是么?这里也有点最大似然的想法呢——比如预测一个男孩
的身高,最保险的就是把和它同龄的其他男孩的身高平均一下,不是么?
\end_layout
\begin_layout Standard
\align left
但是说来简单啊,很多时候
\begin_inset Formula $P(X,Y)$
\end_inset
都是未知的,根本无法计算嘛。所以只能近似:
\end_layout
\begin_layout Itemize
\align left
回忆一下knn,就是放松了两点:1)
\begin_inset Formula $x_{k}$
\end_inset
取的是
\begin_inset Formula $x$
\end_inset
的近邻,而不一定是
\begin_inset Formula $x$
\end_inset
; 2)用样本平均数代替了期望
\end_layout
\begin_layout Itemize
\align left
而OLS呢,也是最后在
\begin_inset Formula $E(\beta)=E[(X'X)^{-1}X'Y]$
\end_inset
这里,用样本平均代替了期望。
\end_layout
\begin_layout Standard
\align left
近似嘛,自然有好的近似和不好的近似。很显然的,当样本比较大、尤其是比较密集的时候,x的邻居应该都离x很近,所以这个误差可以减小;此外,当样本很大的时候,根据大数
定律,平均数收敛于期望。所以,这两种算法应该说,都在大样本下会有更好的效果。
\end_layout
\begin_layout Subsection
模型选择、训练误差与测试误差、过拟合
\end_layout
\begin_layout Standard
\align left
这里讲的比较简单。模型选择就是
\begin_inset Formula $F$
\end_inset
的选择,即选择哪一类函数空间
\begin_inset Formula $F$
\end_inset
,然后再其中找估计最优的
\begin_inset Formula $f(X)$
\end_inset
。很显然,如果只有若干个有限的样本,我们总能把各个样本用直线或者曲线依次连起来,这样的话就有无数个
\begin_inset Formula $f$
\end_inset
可以作为此问题的解。显然这不是我们想要的——这样的称为“不设定问题”,即可能无解、可能多个解、还可能因为一点点
\begin_inset Formula $X$
\end_inset
的变化导致整个解的解答变化。因此我们需要先设定一个解的类别。
\end_layout
\begin_layout Standard
\align left
训练误差:预测模型估计值与训练数据集之间的误差。RSS就是一个典型的训练误差组成的残差平方和。
\end_layout
\begin_layout Standard
\align left
测试误差:用训练集以外的测试数据集带来的误差,显然我们更关心的是测试误差——训练总能训练的很好,让损失函数期望最小,然而测试集则不一定这样。一般说来,测试误差>
训练误差。
\end_layout
\begin_layout Standard
\align left
过拟合:选择一个很复杂的
\begin_inset Formula $f$
\end_inset
,使得训练误差很小,而实际的测试误差不一定小。最极端的就是刚才说的,把训练集的点一个个依次连起来...训练误差肯定是0是不是?
\end_layout
\begin_layout Standard
\align left
我们关心的自然是怎么降低测试误差。显然这东西会跟训练误差有关,但是它还跟
\begin_inset Formula $f$
\end_inset
的复杂度有关。最最棘手的就是,
\begin_inset Formula $f$
\end_inset
的复杂度是一个难以衡量的问题。早期的研究有用自由度来衡量这个复杂度的,但是也不是那么的靠谱...后面的有人鼓捣出来PAC(使得近似正确的概率最大——吴老师原话),还有
一个VC来衡量复杂度——但几乎实践中无法计算,没几个计算出来的。嗯,水很深哇。
\end_layout
\begin_layout Section
高维空间问题、线性回归方法
\end_layout
\begin_layout Standard
\align left
照例文章第一段跑题,先附上个段子(转载的哦~):
\end_layout
\begin_layout Quotation
\align left
I hate CS people.
They don't know linear algebra but want to teach projective geometry.
They don't know any probability but want to use graphical models.
They don't understand stats at all but still do machine learning like crazy.
\end_layout
\begin_layout Standard
\align left
喵,最近被问了好几次machine learning 和statistical learning的区别在哪里,我觉得大致如上吧。这也是为什么,对后面这个词我的好
感稍稍好于前面那个的原因...科学总是有意义的嘛,不能总是依靠强力乱猜是不是嘛。
\end_layout
\begin_layout Standard
\align left
免责声明:以下个人见解部分局限于我个人的见识和思考范围,不适用于所有场景。请大家弃糟粕取精华,不可一言全信之。
\end_layout
\begin_layout Standard
\align left
-------------笔记+随想开始------------
\end_layout
\begin_layout Subsection
高维空间问题
\end_layout
\begin_layout Standard
\align left
这一段主要是说大名鼎鼎的"维数灾难"。我们都知道有两个数字决定着OLS中X矩阵的大小,这就是观测数目
\begin_inset Formula $N$
\end_inset
和观测变量的个数
\begin_inset Formula $p$
\end_inset
。一般说来,我们都喜欢
\begin_inset Formula $N$
\end_inset
比较大,这样可以很容易的应用大数定律什么的。然而对于
\begin_inset Formula $p$
\end_inset
,却是既爱又恨—我们当然喜欢可以观察到个体的很多个特征,但是所谓"乱花渐欲迷人眼",特征越多噪音也越多,搞不好预测的时候就会有麻烦(关于变量的选择问题,应该是下
一节课的内容。心急的可以先看看我以前的一篇
\begin_inset CommandInset href
LatexCommand href
name "自学笔记"
target "http://www.loyhome.com/%e9%99%8d%e7%bb%b4%e6%a8%a1%e5%9e%8b%e8%8b%a5%e5%b9%b2%e6%84%9f%e6%82%9f/"
\end_inset
)。
\end_layout
\begin_layout Standard
\align left
为什么维数增多的时候会麻烦呢?这里主要是随着维数增多带来的高维空间数据稀疏化问题。简单地说:
\end_layout
\begin_layout Itemize
\align left
p=1,则单位球(简化为正值的情况)变为一条[0,1]之间的直线。如果我们有N个点,则在均匀分布的情况下,两点之间的距离为1/N。其实平均分布和完全随机分布的两
两点之间平均距离这个概念大致是等价的,大家可稍微想象一下这个过程。
\end_layout
\begin_layout Itemize
\align left
p=2,单位球则是边长为1的正方形,如果还是只有N个点,则两点之间的平均距离为
\begin_inset Formula $\frac{1}{\sqrt{N}}$
\end_inset
。换言之,如果我们还想维持两点之间平均距离为1/N,那么则需
\begin_inset Formula $N^{2}$
\end_inset
个点。
\end_layout
\begin_layout Itemize
\align left
以此类题,在p维空间,N个点两两之间的平均距离为
\begin_inset Formula $N^{-1/p}$
\end_inset
,或者需要
\begin_inset Formula $N^{p}$
\end_inset
个点来维持1/N的平均距离。
\end_layout
\begin_layout Standard
\align left
由此可见,高维空间使得数据变得更加稀疏。这里有一个重要的定理:
\begin_inset Formula $N$
\end_inset
个点在
\begin_inset Formula $p$
\end_inset
为单位球内随机分布,则随着
\begin_inset Formula $p$
\end_inset
的增大,这些点会越来越远离单位球的中心,转而往外缘分散。这个定理源于各点距单位球中心距离的中间值计算公式:
\end_layout
\begin_layout Standard
\align left
\begin_inset Formula
\[
d(p,N)=(1-2^{1/N})^{1/p}
\]
\end_inset
\end_layout
\begin_layout Standard
\align left
当
\begin_inset Formula $p\rightarrow\infty$
\end_inset
时,
\begin_inset Formula $d(p,N)\rightarrow1$
\end_inset
。(很显然,当
\begin_inset Formula $N$
\end_inset
变大时,这个距离趋近于0。直观的理解就是,想象我们有一堆气体分子,
\begin_inset Formula $p$
\end_inset
变大使得空间变大,所以这些分子开始远离彼此;而
\begin_inset Formula $N$
\end_inset
变大意味着有更多气体分子进来,所以两两之间难免更挤一些。看过《三体》的,大概会觉得这个很熟悉的感觉吧...四维空间下的"水滴"再也不完美的无懈可击,而一张一维的纸片就
毁灭了整个地球呢。)
\end_layout
\begin_layout Standard
\align left
这个距离公式的推导就暂时不写了,好麻烦...大致是利用了各个点独立同分布的特性(完全随机情况下),把median距离变为以1/2概率大于中位数的概率集合公式,再进一步
展开为单点距离累乘公式。
\end_layout
\begin_layout Standard
\align left
比如当
\begin_inset Formula $p=10$
\end_inset
,
\begin_inset Formula $N=500$
\end_inset
的时候,
\begin_inset Formula $d(p,N)$
\end_inset
约为0.52,也就意味着有一半多的点离中心的距离大于1/2。
\end_layout
\begin_layout Standard
\align left
高维问题为什么是问题呢?回顾一下
\begin_inset Formula $K$
\end_inset
近邻算法,我们用
\begin_inset Formula $x$
\end_inset
的邻居来代替
\begin_inset Formula $x$
\end_inset
,这样就希望他的邻居们不要离他太远。显然高维空间使得点和点之间越来越远。所以说,
\begin_inset Formula $knn$
\end_inset
更适合小
\begin_inset Formula $p$
\end_inset
大
\begin_inset Formula $N$
\end_inset
即低维多观测量的情况,而在高维空间下可能会变得很麻烦。
\end_layout
\begin_layout Standard
\align left
这样,statistical learning的主要两个问题就总结完了:
\end_layout
\begin_layout Itemize
\align left
过拟合:为了控制预测误差,我们要选择适合的函数类。
\end_layout
\begin_layout Itemize
\align left
高维空间:随着维数的增多,我们面临着维数灾难。这对很多算法都有波及,主要体现在高维数据稀疏化。
\end_layout
\begin_layout Subsection
回归的线性方法
\end_layout
\begin_layout Standard
\align left
这里主要是一些linear regression的东西,作为被计量经济学折磨了这么多年的孩子,我表示很淡定...此外还加上我们俗称的generalized
linear models,即GLM。一些线性变换而已,无伤大雅。
\end_layout
\begin_layout Standard
\align left
这里一定要强调的是,在这里我们亲爱的X居然不是
\series bold
随机变量
\series default
!多大的一个坑啊,我就华丽丽的掉下去了还问老师为什么无偏性不需要假设均值独立什么的...
\begin_inset Formula $X$
\end_inset
不是随机变量意味着什么呢?
\begin_inset Formula $X$
\end_inset
是人为设定或者决定的,比如我一天浇
\begin_inset Formula $200ml$
\end_inset
或者
\begin_inset Formula $500ml$
\end_inset
水,然后看对于植物生长的影响。当时我真的是想"一口老血喷出来",这也太舒服了吧!要知道大多数情况下
\begin_inset Formula $X$
\end_inset
也是随机变量哇,比如身高体重什么的。如果它不是随机变量而只有扰动项是独立的随机变量的话,整个计量经济学怕是要删掉好多篇幅了呢。我想说的只有,这群搞statist
ical learning的好幸福...
\end_layout
\begin_layout Standard
\align left
\begin_inset Formula $X$
\end_inset
不是随机变量的时候,为了满足无偏性的假设,只需要扰动项不相关且期望方差存在就可以了。期望不为0不要紧,回归的时候放进去常数项就可以了。
\end_layout
\begin_layout Standard
\align left
此外,对于任意一个正定阵W,我们都可以直接在回归方程两边乘以
\begin_inset Formula $W$
\end_inset
,从而
\begin_inset Formula $\hat{\beta}=(X'W'WX)^{-1}X'W'Y$
\end_inset
。也就是说,我们可以给
\begin_inset Formula $X$
\end_inset
进行加权处理,加权矩阵
\begin_inset Formula $W$
\end_inset
之后可以进行新的OLS估计,且可能会有对应的优良性质。加权最小二乘法我就不在这里复习了,学过计量的应该很熟悉,比如处理异方差什么的。
\end_layout
\begin_layout Standard
\align left
再就是我们可以给
\begin_inset Formula $\beta$