本页为一些开源项目的集中收录与实践工程问题记录总结
- 面向商用化的LLM推理框架
名称 | 简介 | 地址 | 后端 |
---|---|---|---|
vllm | 快速且易于使用的 LLM 推理和服务库。 | Link | pytorch |
LMDeploy | LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发,是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案 | Link | pytorch or TurboMind |
LMDeploy-Jetson | 将LMDeploy移植到NVIDIA Jetson系列边缘计算卡的部署教程仓库 | Link | 同上 |
LightLLM | 纯python开发的大语言模型推理和服务框架,具有轻量级设计、易扩展以及高性能等特点 | Link | python |
TensorRT-LLM | Nvidia 官方llm推理框架 | Link | TensorRT |
SGLang | 针对大型语言模型和视觉语言模型的快速服务框架 | Link | pytroch |
- 面向边缘部署的LLM项目
名称 | 简介 | 地址 | 后端 |
---|---|---|---|
llama.cpp | Inference of Meta's LLaMA model (and others) in pure C/C++ | Link | ggml (C++) |
llama2.c | Inference Llama 2 in one file of pure C | Link | C |
calm | CUDA/Metal accelerated language model inference | Link | C |
yalm | LLM inference in C++/CUDA, no libraries except for I/O(专注于原理、代码可读性的科研实验项目) | Link | C++ |
序号 | 内容 | 地址 | 状态 |
---|---|---|---|
01 | llama.cpp项目概念简介 | Link | ✅Done |
00 | GGML 深度学习框架学习 | Link | ✅Done |
01 | llama.cpp项目学习 | - | ☁️Todo |
02 | llama.cpp on Nvidia 部署过程 | - | ☁️Todo |