Efficiently Serving Many Transformer Adapters #5449

smellslikeml · 2023-03-04T02:38:16Z

smellslikeml
Mar 4, 2023

Transformer adapters are used for efficient fine-tuning, can we optimize tritonserver for serving inference for many adapters in a way which efficiently shares memory for models?

smellslikeml · 2023-09-07T19:25:00Z

smellslikeml
Sep 7, 2023
Author

Recently found Batched LoRAs

For those interested in running with Triton, here is an implementation

0 replies

smellslikeml · 2023-11-15T19:55:20Z

smellslikeml
Nov 15, 2023
Author

Now we have S-LoRA
https://github.com/S-LoRA/S-LoRA

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Efficiently Serving Many Transformer Adapters #5449

{{title}}

Replies: 2 comments

{{title}}

{{title}}

Select a reply

Efficiently Serving Many Transformer Adapters #5449

smellslikeml Mar 4, 2023

Replies: 2 comments

smellslikeml Sep 7, 2023 Author

smellslikeml Nov 15, 2023 Author

smellslikeml
Mar 4, 2023

smellslikeml
Sep 7, 2023
Author

smellslikeml
Nov 15, 2023
Author