🛠️ Steven Gong

Search

Mar 01, 2025, 1 min read

AI Inference Library

TensorRT (no really a library)
llama.cpp
vLLM

All of these do quantization. What about pruning?

Graph View

Backlinks

No backlinks found

Created with Quartz, © 2025

Blog
LinkedIn
Twitter
GitHub