GitHub - akhil2308/kserve-template: The kserve-template repository offers a simple framework for deploying ML models with KServe, focusing on text generation models like Meta-Llama 3.2-1B-Instruct. It includes sample requests, deployment steps, and configurations to streamline building, testing, and deploying inference services.

Tags

kserve
text-generation
meta-llama/Llama-3.2-1B-Instruct

Sample request

curl --location 'http://localhost:8019/v1/models/Meta-Llama-3.2-1B-Instruct:predict' \
--header 'Content-Type: application/json' \
--data '{
    "messages" : [
        {"role": "user", "content": "Hi there!"},
        {"role": "assistant", "content": "Nice to meet you!"},
        {"role": "user", "content": "Can I ask a question?"}
    ],
    "max_tokens": 256
}'

Deploy

docker build -t meta-llama-3.2-1b-instruct .
docker run -ePORT=8080 -p8080:8080 docker.io/library/meta-llama-3.2-1b-instruct
kubectl apply -f kserve_inference_service.yaml

https://kserve.github.io/website/master/modelserving/v1beta1/custom/custom_model/

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
utils		utils
CONTRIBUTORS.txt		CONTRIBUTORS.txt
Dockerfile		Dockerfile
README.md		README.md
kserve_inference_service.yaml		kserve_inference_service.yaml
main.py		main.py
requirements.txt		requirements.txt
sample_curl.txt		sample_curl.txt
set_env.sh		set_env.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Tags

Sample request

Deploy

About

Releases

Packages

Languages

akhil2308/kserve-template

Folders and files

Latest commit

History

Repository files navigation

Tags

Sample request

Deploy

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages