Optimize Decoder Pipeline Model Execution #907

baijumeswani · 2024-09-20T06:22:17Z

#729 introduced support to execute a pipeline of ort sessions sequentially as defined by the config file.

This pull-request builds on top by:

Fixing a memory leak bug where the ortvalues stored in the ortvalue_pool_ were raw pointers and were not released.
Clears outputs from pipeline state that was only run on prompt. Before this pull-request, those ortvalues lived in the ortvalue_store_ forever using unnecessary memory.
Enable registering the managed inputs as pipeline model outputs.
Sharing an allocator across ort sessions.

Co-contributor: @edgchen1 who helped identify the bug(s).

src/generators.cpp

src/models/decoder_only_pipeline.cpp

src/generators.cpp

src/models/decoder_only_pipeline.cpp

…into baijumeswani/optimize-decoder-pipeline

src/models/model.cpp

baijumeswani · 2024-09-24T23:32:00Z

Thank you for the review. :)

baijumeswani added 4 commits September 19, 2024 23:10

Fix memory leak and use managed kv cache

9b56498

Clear the prompt processor ortvalues

99ea5ae

Share allocator across sessions

0291560

Clean code and add comments

0e4693f

edgchen1 reviewed Sep 20, 2024

View reviewed changes

src/generators.cpp Outdated Show resolved Hide resolved

edgchen1 reviewed Sep 20, 2024

View reviewed changes

src/models/decoder_only_pipeline.cpp Show resolved Hide resolved

Share allocators for CPU provider

213f74f

natke requested review from yufenglee and ajindal1 September 23, 2024 20:31

yufenglee reviewed Sep 23, 2024

View reviewed changes

src/generators.cpp Outdated Show resolved Hide resolved

yufenglee reviewed Sep 23, 2024

View reviewed changes

src/models/decoder_only_pipeline.cpp Show resolved Hide resolved

baijumeswani added 2 commits September 24, 2024 11:01

Merge branch 'main' of https://github.com/microsoft/onnxruntime-genai …

93618d3

…into baijumeswani/optimize-decoder-pipeline

Address pull-request review comments

d80edc7

yufenglee approved these changes Sep 24, 2024

View reviewed changes

edgchen1 approved these changes Sep 24, 2024

View reviewed changes

src/models/model.cpp Show resolved Hide resolved

baijumeswani merged commit 2348dc9 into main Sep 24, 2024
12 of 13 checks passed

baijumeswani deleted the baijumeswani/optimize-decoder-pipeline branch September 24, 2024 23:31

skyline75489 pushed a commit to skyline75489/onnxruntime-genai that referenced this pull request Sep 26, 2024

Optimize Decoder Pipeline Model Execution (microsoft#907)

b4502a9

skyline75489 mentioned this pull request Sep 26, 2024

The option use_env_allocators crashes the inference with CPU EP #929

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Optimize Decoder Pipeline Model Execution #907

Optimize Decoder Pipeline Model Execution #907

baijumeswani commented Sep 20, 2024

baijumeswani commented Sep 24, 2024

Optimize Decoder Pipeline Model Execution #907

Optimize Decoder Pipeline Model Execution #907

Conversation

baijumeswani commented Sep 20, 2024

baijumeswani commented Sep 24, 2024