Skip to content

Commit

Permalink
finish Compilers
Browse files Browse the repository at this point in the history
  • Loading branch information
root-hbx committed Jun 28, 2024
1 parent 1fc7ba8 commit 2529944
Show file tree
Hide file tree
Showing 78 changed files with 3,115 additions and 0 deletions.
Binary file modified .DS_Store
Binary file not shown.
Binary file removed NJU-Notes/Chapter-0-Overview.pdf
Binary file not shown.
Binary file removed NJU-Notes/Chapter-1-词法分析1.pdf
Binary file not shown.
Binary file removed NJU-Notes/Chapter-2-词法分析2.pdf
Binary file not shown.
Binary file removed NJU-Notes/Chapter-3-REandAutomata.pdf
Binary file not shown.
73 changes: 73 additions & 0 deletions NJU-Notes/Lecture0_Overview.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,73 @@
# Chapter 0 Overview

>- this is the my notes of Compilers in 2024
>- the course is taught by Prof. [Hengfeng Wei @NJU](https://github.com/hengxin)
## Credits

- Course Homepage: [NJU-Compilers-Spring-2024](http://docs.compilers.cpl.icu/#/)
- Piazza: [NJU-Compilers-Chatting](https://2024-compilers-at-software-nju.zulipchat.com/#narrow/stream/419310-general)
- Course Online: [Bilibili-NJU-Compilers-Spring-2024](https://space.bilibili.com/479141149/channel/collectiondetail?sid=2312309)

## Introduction

1. 高级” 语言 ⇒ (通常) “低级” 语言 (如, 汇编语言)
2. 汇编语言经过汇编器生成机器语言
3. 汇编语言网站:[godblot](https://godbolt.org/)
4. 采用的指令集:[RISC-V](https://riscv.org/)
5. RISC-V references:
- https://riscv-programming.org/book.html
- http://www.riscvbook.com/
6. RISC-V Simulator:
- https://github.com/TheThirdOne/rars
7. 语言类应用程序:
- 配置文件解析 (.properties)
- CSV 文件 (Comma-Separated Values)
- JSON 文件 (JavaScript Object Notation)
- SQL 引擎 (Structured Query Language)
- TLA+/TLAPS (TPaxos.tla)
- (Java) 字节码解释器
- C/C++ 语言编译器
- 排版工具 (LATEX)
- 绘图工具 (TikZ, Dot/Graphviz)
- L-System (Cantor Set)
8. 语法分析器生成器 ANTLR
- https://www.antlr.org/index.html
- https://www.antlr.org/tools.html (IntelliJ Plugin)
- http://lab.antlr.org/ (Online lab)
9. LLVM
- https://llvm.org/
10. Reference Books
- http://docs.compilers.cpl.icu/#/2024/resources

## Overview

- IR: Intermediate Representation (中间表示)
- Source Program -> _Front End_ -> IR -> _Back End_ -> Target Program
- 前端 (分析阶段): 分析 __源语言__ 程序, 收集所有必要的信息
- 后端 (综合阶段): 利用收集到的信息, 生成 __目标语言程序__
- Clang: a C language family frontend for LLVM
- https://clang.llvm.org/
- _机器无关___中间表示优化__

## Slide

[0-overview](https://github.com/courses-at-nju-by-hfwei/compilers-lectures/blob/master/2024/0-overview/overview-handout.pdf)

## Supplementary Materials

- [LLVM](https://www.bilibili.com/video/BV1RF411K7F5/?vd_source=e3cbbf5ca80db268fa006d63626e267e)
- [Assembly Language](https://www.bilibili.com/video/BV1Y94y1D7at/?spm_id_from=333.788&vd_source=8a3dd36862125e80dc439254ef65d959)
- [Ruby](https://www.bilibili.com/video/BV1PU4y1z7Fs/?spm_id_from=333.788&vd_source=8a3dd36862125e80dc439254ef65d959)
- [Perl](https://www.bilibili.com/video/BV1qB4y1G7B3/?spm_id_from=333.788&vd_source=8a3dd36862125e80dc439254ef65d959)
- [Lua](https://www.bilibili.com/video/BV14t4y1E7Zr/?spm_id_from=333.788&vd_source=8a3dd36862125e80dc439254ef65d959)
- [Unity](https://www.bilibili.com/video/BV1ZB4y1V7KB/?spm_id_from=333.788&vd_source=8a3dd36862125e80dc439254ef65d959)
- [Temple OS](https://www.bilibili.com/video/BV13g411r7bY/?spm_id_from=333.788&vd_source=8a3dd36862125e80dc439254ef65d959)
- [Fortran](https://www.bilibili.com/video/BV1Qd4y1R7vX/?spm_id_from=333.788&vd_source=8a3dd36862125e80dc439254ef65d959)
- [WebAssembly](https://www.bilibili.com/video/BV12B4y1B7xq/?spm_id_from=333.788&vd_source=8a3dd36862125e80dc439254ef65d959)
- [Haskell](https://www.bilibili.com/video/BV1cS4y1b7kH/?spm_id_from=333.788&vd_source=8a3dd36862125e80dc439254ef65d959)
- [Swift](https://www.bilibili.com/video/BV1Ya411378N/?spm_id_from=333.788&vd_source=8a3dd36862125e80dc439254ef65d959)
- [Elixir](https://www.bilibili.com/video/BV1at4y1L7Ty/?spm_id_from=pageDriver&vd_source=8a3dd36862125e80dc439254ef65d959)
- [Kotlin](https://www.bilibili.com/video/BV1AW4y1B74G/?spm_id_from=333.788&vd_source=8a3dd36862125e80dc439254ef65d959)
- [redis](https://www.bilibili.com/video/BV1Wd4y1X7wy/?p=14&spm_id_from=pageDriver)

108 changes: 108 additions & 0 deletions NJU-Notes/Lecture10_StackandHeap.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,108 @@
# Chapter 10 Runtime Space

## 运行时存储空间

编译程序是将源程序的**算法描述部分和数据说明部分**, 分别翻译成**机器目标代码和数据存储单元**, 最终获得目标程序.

目标程序在目标机环境中运行时, 都置身于自己的一个运行时存储空间.在基于操作系统之上运行的情况下, 目标程序将在自己的逻辑地址空间内运行并存储数据.编译程序在生成代码时, 负责明确各类对象在逻辑地址空间是如何存放的, 以及目标代码运行时, 如何使用逻辑地址空间.

在编译过程中, 源程序的对象地址分配往往是相对于运行存储空间的偏移量, 对象访问采用“基地址+偏移量”寻址方式进行, 使得可以选择内存的任意可用区域作为目标程序运行时的存储区.这样生成的目标代码称为浮动地址代码

> **注:“基地址”是指运行存储空间之首址.**
**重点:符号表的内容、组织, 过程调用实现, **

**静态存储分配、动态存储分配的基本方法.**

**难点:参数传递, 过程说明语句代码结构, **

​ **过程调用语句的代码结构, **

​ **过程调用语句的语法制导定义, **

​ **栈式存储分配.

编译程序生成的代码大小通常是固定的, 一般存放在专用的区域, 即代码区;
目标程序运行过程中, 需要创建和访问的数据对象存放在数据区.

![alt text](./photo/stack.png)


数据空间分配是将**源程序数据对象名与给定的数据存储空间地址建立映射关系**.

数据对象名与数据存储地址可能是一对多的关系, 因为在源程序中说明的一个数据对象, 在运行时可能对应不同的存储地址, 如递归程序中的局部变量.

## 静态存储分配

静态存储管理是一种最简单的存储管理.

**当在编译阶段能够确定源程序中各个数据实体的存储空间大小**时, 就可以采用静态存储管理.一般而言, 适于静态管理的语言必须满足下面的条件:

1. 数组的上下界必须是常数;
2. 过程调用不允许递归;
3. 不允许用户动态地建立数据实体

对于静态存储分配, 数据空间仅需要有静态数据区即可.

在源程序翻译时, 对于所有数据对象, 其分配的存储地址都是相对于静态数据区的偏移量.

这个偏移量就是登记在符号表中数据对象的地址( .place)属性值.

在目标程序运行时, 访问数据对象的绝对地址是:

**绝对地址=静态数据区首址+偏移量.**

## 动态存储分配

如果源语言允许递归调用、可变数组和允许运行期间自由申请与释放空间, 那么其需占用的存储空间在编译阶段无法确定, 这样数据对象就需要采用动态存储分配的策略.

所谓动态存储分配是指在运行期间, 动态进行存储地址分配.

**基于控制栈的原理, 存储空间被组织成栈, 活动记录的推入和弹出分别对应于活动的开始和结束.**

**与静态分配不同, 在每次活动中把局部名字和新的存储单元绑定, 在活动结束时, 活动记录从栈中弹出, 因此局部名字的存储空间也随之消失.**

### 栈式动态存储分配

由于过程允许递归, 在某一时刻一个过程A 很可能已被自己调用了若干次, 但只有最近一次正处于执行状态, 而其余各次则处于等待返回被中断的那次调用的状态.

这样, 属于每次调用相应的数据区中的内容就必须保存起来, 以便于调用返回时继续使用

对于这种语言来说, 其存储分配策略必须采用栈式存储管理, 即引入一个运行栈, 让过程的每一次执行和过程的调用记录相对应, 每调用一次过程, 就把该过程的相应调用记录推入栈中, 过程执行结束时再把栈顶的调用记录从找中弹出.

> 在运行期间以子程序数据区为基本单位, 在数据空间栈中进行动态地址分配.
>
> 当调用子程序时, 在数据空间栈顶, 给子程序分配所需的子程序数据区;
>
> 当子程序返回时, 从数据空间栈顶, 收回分配给子程序所占用存储区.
>
> 当子程序被递归调用时, 同一个子程序可能在数据空间中同时拥有多个子程序数据区, 每个数据区对应于同一个子程序的一次执行过程.
### 堆式动态存储分配

某些程序设计语言(如C 和PASCAL等)允许程序在运行时, 为其中的一些变量动态地申请和释放所需的存储空间, 并且申请和释放这两类操作可以在任何时间、以任意的顺序来进行, 这就需要一种更为灵活和更加有效的动态分配策略, 即堆式存储分配来完成上述工作.

堆式分配的基本思想是:**为正运行的程序划出一适当大的存储区域, 称之为堆(Heap) ; 每当该程序提出申请时, 就按某种分配原则在堆的自由区(可占用区) 中, 找出一块能满足其需求的存储空间分配给它, 对于释放操作, 则是将程序不再占用的存储空间归还给堆的自由区.**

可能遇到的各种情况与操作系统给进程分配存储空间时遇到的极其相似, 如同样会出现“碎片”现象等, 其根本差异就在于分配的层次和分配对象的粒度.

## 活动记录

1.活动记录本质是什么?

> 活动记录本质上是每次为函数调用时分配的一大块内存.一个函数的活动记录只由在函数被调用时才会创建, 并且当函数返回时就会被销毁.
2.活动记录是如何存在的?

> 活动记录被组织在栈中, 栈可以是物理上的实体也可以是逻辑上的概念.在数据结构中的栈是一个逻辑上的概念, 而芯片中也可以根据这个概念来设计一部分电路, 这部分能够模拟栈操作的电路就是物理意义上的栈了.
> 主函数的活动记录位于栈底, 当一个函数调用另外一个函数时, 被调用函数的活动记录就会被压入栈.或当记录所在的栈满足数据结构中的栈的特性:FILO(first in last out).这个限制使得当主调函数和被调函数中出现了同名函数时, 在执行被调函数时主调函数的变量对被调函数来说是不可见的.
> 特别提醒:大部分计算机为活动记录栈分配内存地址都是从高到低!
3.活动记录是如何进行入栈出栈的?

> 由于活动记录是位于一个栈中的, 所以要近栈就需要知道栈结束处的位置, 当出栈时就需要知道当前活动记录之前的一个活动记录的结束点.
> 所以编译器和硬件都会维护两个很重要的值:栈指针, 帧指针.
> 栈指针:始终指向战结束处(注意不是栈底!)的地址, 如果有新的活动记录入栈, 那里就是新活动记录的起始地址所在.
> 帧指针:保存着先前那个活动记录的结束处的地址, 在当前函数返回后, 栈指针就会指向那里.
> 栈指针和帧指针就是用来界定活动记录的, 并操作活动记录
44 changes: 44 additions & 0 deletions NJU-Notes/Lecture1_Lexer1.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,44 @@
# Chapter 1 Lexer-1

>main topic: 词法分析器生成器 ANTLR v4
## Course Note

对于词法分析器:

- 输入: 程序文本/字符串 s (CharStream) + 词法单元 (token) 的规约
- 输出: 词法单元流 (TokenStream)

交互过程:

- 源程序 -> 词法分析器 _<-_/-> _getNextToken_/词法单元 _<-_/-> 语法分析器 -> 输出至语义分析
- 符号表分别双向链接 __词法分析器__ & __语法分析器__

词法分析器的三种设计方法

- 词法分析器生成器
- 手写词法分析器
- 自动化词法分析器

ANTLR使用方法

1. 命令行式使用 ANTLR v4: https://www.antlr.org/
2. 交互式使用 ANTLR v4: https://www.antlr.org/tools.html
3. 编程式使用 ANTLR v4: https://docs.gradle.org/current/userguide/antlr_plugin.html

[ANTLR](https://www.antlr.org/) v4 中的冲突解决规则

- 最前优先匹配:
- 关键字 vs. 标识符
- ML_COMMENT vs. DOC_COMMENT
- 最长优先匹配:
- eg: 1.23 / >= / ifhappy
- 非贪婪匹配:
- eg: ()??, ()\*?, ()+?

具体可以见video中讲解 / 下一节对于基础符号的说明

## Slide

[1-lexer-antlr](https://github.com/courses-at-nju-by-hfwei/compilers-lectures/blob/master/2024/1-lexer-antlr/1-lexer-antlr-handout.pdf)

35 changes: 35 additions & 0 deletions NJU-Notes/Lecture2_Lexer2.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,35 @@
# Chapter 2 Lexer-2

>main topic: 手写词法分析器
## Course Note

常见表达

- $digit = [0-9]$
- $digits = digit^+ = [1-9]$
- $number = digits(.digits)?(E[+-]?digits)?$
- 正整数、小数点、指数
- $letter = [A-Za-z]$
- $id = letter(letter|digit)^*$
- $relop = < > | <= | >= | <>$


手写的技巧

- 向前看、向前走、调整状态
- 记录来时最长匹配、无路可走便回头(回溯到上一个正确位置)
- nextToken()
- while (nextToken())

如何区分 int、real 与 sci?

>num: 整数部分\[. 可选的小数部分]\[E\[可选的 +-] 可选的指数部分]
- 在 real 与 sci 中, 有时需要回退, 寻找最长匹配
- 根据下一个字符即可判定词法单元的类型;否则, 调用错误处理模块 (对应 other), 报告该字符有误, 忽略该字符

## Slide

[2-lexer-handwritten](https://github.com/courses-at-nju-by-hfwei/compilers-lectures/blob/master/2024/2-lexer-handwritten/2-lexer-handwritten-handout.pdf)

Loading

0 comments on commit 2529944

Please sign in to comment.