Distributed inference of 70B awq model #2531

vince62s · 2023-12-04T10:05:58Z

Now use InferenceEngine for translate.py
Fix left padding for target
Fix AWQ model loading when GEMM (in features and out features are reversed)
Extend llama-like converter to handle awq quantized model with safetensors.

Tried this one: https://huggingface.co/TheBloke/Llama-2-70B-Chat-AWQ
inference at 18 tok/sec on 2 GPU (1x3090 + 1x4090)

vince62s added 2 commits December 4, 2023 11:02

Distributed inference of 70B awq model

9b0bb35

fix overflow

895bfc1

vince62s merged commit 1e5ed31 into OpenNMT:master Dec 4, 2023

vince62s deleted the distribawq branch December 14, 2023 10:24

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Distributed inference of 70B awq model #2531

Distributed inference of 70B awq model #2531

vince62s commented Dec 4, 2023 •

edited

Loading

Distributed inference of 70B awq model #2531

Distributed inference of 70B awq model #2531

Conversation

vince62s commented Dec 4, 2023 • edited Loading

vince62s commented Dec 4, 2023 •

edited

Loading