[GPU] Optimize RMS Stack Size for Better Performance #26515

zaixing-wang · 2024-09-10T08:46:01Z

Details:

Since stack_size can be calculated, we can use smaller stack size instead of 33 to achieve better performance.

Performance:

qwen2-0.5B’s throughput increased from 40.2 qps to 41.8 qps.

Tickets:

CVS-152013

src/plugins/intel_gpu/src/kernel_selector/kernels/rms/rms_kernel_bfyx_opt.cpp

dnkurek · 2024-09-10T09:26:28Z

src/plugins/intel_gpu/src/kernel_selector/kernels/rms/rms_kernel_bfyx_opt.cpp

@@ -120,7 +122,7 @@ RMSKernelBase::DispatchData RMSKernelBfyxOpt::SetDefault(const rms_params& param

        dispatchData.itemsNum = dispatchData.dataSize;


Hint: maybe check if dispatchData.dataSize is actually constant and won't change when executing LLM, therefore we know beforehand what will always dispatchData.itemsNum be in each execution. In other words, maybe the only thing that changes is dataCount

In Qwen, dataSize is always equal to 896.

I see, so that looks to me like a possible optimization there, since now you exactly know how much private memory you will need and better use the GPU's resources

And also you would know LWS and therefore you could use reqd_work_group_size

Also 896 seems relatively not a lot. It makes sense why reducing stack size would improve performance, since you are basically freeing up resources that are not used.

src/plugins/intel_gpu/src/kernel_selector/kernels/rms/rms_kernel_bfyx_opt.cpp

[GPU] optimize RMS kernel

ace32d9

zaixing-wang requested review from a team as code owners September 10, 2024 08:46

github-actions bot added the category: GPU OpenVINO GPU plugin label Sep 10, 2024

zaixing-wang changed the title ~~[GPU] optimize RMS kernel~~ [GPU] optimize RMS Stack Size for Better Performance Sep 10, 2024

dnkurek reviewed Sep 10, 2024

View reviewed changes

src/plugins/intel_gpu/src/kernel_selector/kernels/rms/rms_kernel_bfyx_opt.cpp Outdated Show resolved Hide resolved

dnkurek reviewed Sep 10, 2024

View reviewed changes

zaixing-wang added 3 commits September 10, 2024 21:57

consider larger dataSize && leftover

e3680ff

use const size_t to instead Macro

5af25e2

Merge remote-tracking branch 'upstream/master' into rms_optim

ad8abda

zaixing-wang changed the title ~~[GPU] optimize RMS Stack Size for Better Performance~~ [GPU] Optimize RMS Stack Size for Better Performance Sep 10, 2024

zaixing-wang added 3 commits September 11, 2024 05:59

update comment

5cd1676

fix codestyle

1c5d0b4

update get_item_num_and_lws

40bbbd8

dnkurek reviewed Sep 11, 2024

View reviewed changes

src/plugins/intel_gpu/src/kernel_selector/kernels/rms/rms_kernel_bfyx_opt.cpp Outdated Show resolved Hide resolved

dnkurek approved these changes Sep 11, 2024

View reviewed changes

dnkurek reviewed Sep 11, 2024

View reviewed changes

src/plugins/intel_gpu/src/kernel_selector/kernels/rms/rms_kernel_bfyx_opt.cpp Show resolved Hide resolved

zaixing-wang added 2 commits September 11, 2024 10:01

clean

9c7dbbc

clean declare

216eef4

vladimir-paramuzov approved these changes Sep 11, 2024

View reviewed changes

vladimir-paramuzov enabled auto-merge September 11, 2024 05:35

zaixing-wang added 2 commits September 11, 2024 13:45

update

088d9f9

Merge remote-tracking branch 'upstream/master' into rms_optim

ba6bb70

vladimir-paramuzov added this to the 2024.5 milestone Sep 11, 2024

vladimir-paramuzov added this pull request to the merge queue Sep 11, 2024

dnkurek removed this pull request from the merge queue due to a manual request Sep 11, 2024

dnkurek added this pull request to the merge queue Sep 11, 2024

Merged via the queue into openvinotoolkit:master with commit 90d1219 Sep 11, 2024
135 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[GPU] Optimize RMS Stack Size for Better Performance #26515

[GPU] Optimize RMS Stack Size for Better Performance #26515

zaixing-wang commented Sep 10, 2024 •

edited

Loading

dnkurek Sep 10, 2024 •

edited

Loading

zaixing-wang Sep 10, 2024

dnkurek Sep 10, 2024 •

edited

Loading

dnkurek Sep 10, 2024

dnkurek Sep 10, 2024 •

edited

Loading

		@@ -120,7 +122,7 @@ RMSKernelBase::DispatchData RMSKernelBfyxOpt::SetDefault(const rms_params& param

		dispatchData.itemsNum = dispatchData.dataSize;

[GPU] Optimize RMS Stack Size for Better Performance #26515

[GPU] Optimize RMS Stack Size for Better Performance #26515

Conversation

zaixing-wang commented Sep 10, 2024 • edited Loading

Details:

Performance:

Tickets:

dnkurek Sep 10, 2024 • edited Loading

Choose a reason for hiding this comment

zaixing-wang Sep 10, 2024

Choose a reason for hiding this comment

dnkurek Sep 10, 2024 • edited Loading

Choose a reason for hiding this comment

dnkurek Sep 10, 2024

Choose a reason for hiding this comment

dnkurek Sep 10, 2024 • edited Loading

Choose a reason for hiding this comment

zaixing-wang commented Sep 10, 2024 •

edited

Loading

dnkurek Sep 10, 2024 •

edited

Loading

dnkurek Sep 10, 2024 •

edited

Loading

dnkurek Sep 10, 2024 •

edited

Loading