Fuse inference kernels to reduce kernel launch overhead #1128

goliaro · 2023-09-12T00:53:14Z

Description of changes:

This PR fuses the following kernels:

Final Attention Bias + Add Residual + LayerNorm
LayerNorm kernels (2 sub-kernels)

Related Issues:

Linked Issues:

Issue #

Issues closed by this PR:

Closes #

This reverts commit 5bbe29e.

goliaro added 30 commits September 9, 2023 21:27

add add_bias_residual_layer_norm layer

4f19c57

progress

28beaa4

make it compile

e0cd366

fix bias param

47d2e33

Merge branch 'inference' into fused_kernels

d9918b9

.

94d97ff

.

1ae2da8

.

3c8a036

file loader update

d40b516

.

cc2099a

.

153c2d4

.

bda8821

.

d27f290

fixes

5ae254c

fix

93ea505

fix

c20f425

backup

8cb594b

finished debugging

e009012

.

61ddfaf

gpu torch in docker

5f547fc

fix

bedd552

add falcon to ci

9c2fd95

re-enabled opt tests, linting

65c8d1f

fix

4ff83a7

cpu

44f36b3

temporary ci fix

f0822a7

.

de5b5d2

Merge branch 'fix_inference_test' into fused_kernels

ab3c407

fix

ba06333

fix

01be9a5

goliaro added 3 commits September 17, 2023 23:18

fix

071e91c

linting

5bbe29e

Revert "linting"

ac2c547

This reverts commit 5bbe29e.

goliaro marked this pull request as ready for review September 17, 2023 23:22

goliaro added 18 commits September 17, 2023 19:23

Merge branch 'inference' into fused_kernels

8cf502b

fix

8ae2318

fix

3fe9c2e

fix

f2a8538

fix

9b8ff42

turn on backtrace

e791809

fix

c60d48f

fix rocm kernel

3283472

fix

1d1ca52

.

cb39517

fix

6739824

Merge branch 'inference' into fused_kernels

476a050

Merge branch 'dont_run_empty_kernels' into fused_kernels

dd9f03e

do not run empty AddBiasResidualLayerNorm

8670d6c

fix

421a1ef

Merge branch 'inference' into fused_kernels

febea7e

fix rocm compilation

c779be3

remove clutter

d2d2609

goliaro enabled auto-merge (squash) September 21, 2023 19:08

goliaro merged commit a4f2588 into inference Sep 21, 2023
38 checks passed

goliaro deleted the fused_kernels branch September 21, 2023 20:17

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fuse inference kernels to reduce kernel launch overhead #1128

Fuse inference kernels to reduce kernel launch overhead #1128

goliaro commented Sep 12, 2023 •

edited

Loading

Fuse inference kernels to reduce kernel launch overhead #1128

Fuse inference kernels to reduce kernel launch overhead #1128

Conversation

goliaro commented Sep 12, 2023 • edited Loading

goliaro commented Sep 12, 2023 •

edited

Loading