@@ -36,7 +36,7 @@ FastDeploy基于PaddleSlim的Auto Compression Toolkit(ACT), 给用户提供了
36
36
目前, FastDeploy支持自动化压缩,并完成部署测试的模型的Runtime Benchmark和端到端Benchmark如下所示.
37
37
38
38
Benchmark表格说明:
39
- - Rtuntime时延为模型在各种Runtime上的推理时延 ,包含CPU->GPU数据拷贝,GPU推理,GPU->CPU数据拷贝时间. 不包含模型各自的前后处理时间.
39
+ - Runtime时延为模型在各种Runtime上的推理时延 ,包含CPU->GPU数据拷贝,GPU推理,GPU->CPU数据拷贝时间. 不包含模型各自的前后处理时间.
40
40
- 端到端时延为模型在实际推理场景中的时延, 包含模型的前后处理.
41
41
- 所测时延均为推理1000次后求得的平均值, 单位是毫秒.
42
42
- INT8 + FP16 为在推理INT8量化模型的同时, 给Runtime 开启FP16推理选项
@@ -63,7 +63,7 @@ Benchmark表格说明:
63
63
| [ YOLOv7] ( ../../examples/vision/detection/yolov7/quantize/ ) | Paddle Inference | CPU | 995.85 | 477.93| None| None | 2.08 | 51.1 | 46.2| 量化蒸馏训练 |
64
64
65
65
#### 端到端 Benchmark
66
- | 模型 | 推理后端 | 部署硬件 | FP32 Runtime时延 | INT8 Runtime时延 | INT8 + FP16 Runtime时延 | INT8+FP16+PM Runtime时延 | 最大加速比 | FP32 mAP | INT8 mAP | 量化方式 |
66
+ | 模型 | 推理后端 | 部署硬件 | FP32 End2End时延 | INT8 End2End时延 | INT8 + FP16 End2End时延 | INT8+FP16+PM End2End时延 | 最大加速比 | FP32 mAP | INT8 mAP | 量化方式 |
67
67
| ------------------- | -----------------| -----------| -------- | -------- | -------- | --------- | -------- | ----- | ----- | ----- |
68
68
| [ YOLOv5s] ( ../../examples/vision/detection/yolov5/quantize/ ) | TensorRT | GPU | 24.61 | 21.20 | 20.78 | 20.94 | 1.18 | 37.6 | 36.7 | 量化蒸馏训练 |
69
69
| [ YOLOv5s] ( ../../examples/vision/detection/yolov5/quantize/ ) | Paddle-TensorRT | GPU | 23.53 | None | 21.98 | 19.84 | 1.28 | 37.6 | 36.8 | 量化蒸馏训练 |
@@ -94,7 +94,7 @@ Benchmark表格说明:
94
94
| [ MobileNetV1_ssld] ( ../../examples/vision/classification/paddleclas/quantize/ ) | Paddle Inference | CPU | 12.29 | 4.68 | None| None| 2.62 | 77.89 | 71.36 | 离线量化 |
95
95
96
96
#### 端到端 Benchmark
97
- | 模型 | 推理后端 | 部署硬件 | FP32 Runtime时延 | INT8 Runtime时延 | INT8 + FP16 Runtime时延 | INT8+FP16+PM Runtime时延 | 最大加速比 | FP32 Top1 | INT8 Top1 | 量化方式 |
97
+ | 模型 | 推理后端 | 部署硬件 | FP32 End2End时延 | INT8 End2End时延 | INT8 + FP16 End2End时延 | INT8+FP16+PM End2End时延 | 最大加速比 | FP32 Top1 | INT8 Top1 | 量化方式 |
98
98
| ------------------- | -----------------| -----------| -------- | -------- | -------- | --------- | -------- | ----- | ----- | ----- |
99
99
| [ ResNet50_vd] ( ../../examples/vision/classification/paddleclas/quantize/ ) | TensorRT | GPU | 4.92| 2.28| 2.24| 2.23 | 2.21 | 79.12 | 79.06 | 离线量化 |
100
100
| [ ResNet50_vd] ( ../../examples/vision/classification/paddleclas/quantize/ ) | Paddle-TensorRT | GPU | 4.48| None | 2.09| 2.10 | 2.14 | 79.12 | 79.06 | 离线量化 |
@@ -119,7 +119,7 @@ NOTE:
119
119
- TensorRT比Paddle-TensorRT快的原因是在runtime移除了multiclass_nms3算子
120
120
121
121
#### 端到端 Benchmark
122
- | 模型 | 推理后端 | 部署硬件 | FP32 Runtime时延 | INT8 Runtime时延 | INT8 + FP16 Runtime时延 | INT8+FP16+PM Runtime时延 | 最大加速比 | FP32 mAP | INT8 mAP | 量化方式 |
122
+ | 模型 | 推理后端 | 部署硬件 | FP32 End2End时延 | INT8 End2End时延 | INT8 + FP16 End2End时延 | INT8+FP16+PM End2End时延 | 最大加速比 | FP32 mAP | INT8 mAP | 量化方式 |
123
123
| ------------------- | -----------------| -----------| -------- | -------- | -------- | --------- | -------- | ----- | ----- | ----- |
124
124
| [ ppyoloe_crn_l_300e_coco] ( ../../examples/vision/detection/paddledetection/quantize ) | TensorRT | GPU | 35.75 | 15.42 | 20.70| 20.85 | 2.32 | 51.4 | 50.7 | 量化蒸馏训练 |
125
125
| [ ppyoloe_crn_l_300e_coco] ( ../../examples/vision/detection/paddledetection/quantize ) | Paddle-TensorRT | GPU | 33.48 | None | 18.47 | 18.03 | 1.81 | 51.4 | 50.5| 量化蒸馏训练 |
@@ -134,6 +134,6 @@ NOTE:
134
134
| [ PP-LiteSeg-T(STDC1)-cityscapes] ( ../../examples/vision/segmentation/paddleseg/quantize ) | Paddle Inference | CPU | 1138.04| 602.62 | None| None | 1.89 | 77.37 | 71.62 | 量化蒸馏训练 |
135
135
136
136
#### 端到端 Benchmark
137
- | 模型 | 推理后端 | 部署硬件 | FP32 Runtime时延 | INT8 Runtime时延 | INT8 + FP16 Runtime时延 | INT8+FP16+PM Runtime时延 | 最大加速比 | FP32 mIoU | INT8 mIoU | 量化方式 |
137
+ | 模型 | 推理后端 | 部署硬件 | FP32 End2End时延 | INT8 End2End时延 | INT8 + FP16 End2End时延 | INT8+FP16+PM End2End时延 | 最大加速比 | FP32 mIoU | INT8 mIoU | 量化方式 |
138
138
| ------------------- | -----------------| -----------| -------- | -------- | -------- | --------- | -------- | ----- | ----- | ----- |
139
139
| [ PP-LiteSeg-T(STDC1)-cityscapes] ( ../../examples/vision/segmentation/paddleseg/quantize ) | Paddle Inference | CPU | 4726.65| 4134.91| None| None | 1.14 | 77.37 | 71.62 | 量化蒸馏训练 |
0 commit comments