cyankiwi
/

MiniMax-M2-AWQ-4bit

Text Generation

compressed-tensors

Model card Files Files and versions

cpatonn commited on 21 days ago

Commit

1701e9a

·

verified ·

1 Parent(s): e9cd035

Update README.md

Files changed (1) hide show

README.md +18 -0

README.md CHANGED Viewed

@@ -9,12 +9,30 @@ base_model: MiniMaxAI/MiniMax-M2
 ## Model Details
 - **Quantization Method:** cyankiwi AWQ v1.0
 - **Bits:** 4
 - **Group Size:** 32
 - **Calibration Dataset:** [nvidia/Llama-Nemotron-Post-Training-Dataset](https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset)
 - **Quantization Tool:** [llm-compressor](https://github.com/vllm-project/llm-compressor)
 ## Inference
 ### Prerequisite

 ## Model Details
+### Quantization Details
 - **Quantization Method:** cyankiwi AWQ v1.0
 - **Bits:** 4
 - **Group Size:** 32
 - **Calibration Dataset:** [nvidia/Llama-Nemotron-Post-Training-Dataset](https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset)
 - **Quantization Tool:** [llm-compressor](https://github.com/vllm-project/llm-compressor)
+### Memory Usage
+| **Type** | **MiniMax-M2** | **MiniMax-M2-AWQ-4bit** |
+|:---------------:|:----------------:|:----------------:|
+| **Memory Size** | 214.3 GB | 121.5 GB |
+| **KV Cache per Token** | 124.0 kB | 31.0 kB |
+| **KV Cache per Context** | 23.3 GB | 5.8 GB |
+### Evaluations
+| **Benchmarks** | **MiniMax-M2** | **MiniMax-M2-AWQ-4bit** |
+|:---------------:|:----------------:|:----------------:|
+| **Perplexity** | 1.54984 | 1.54743 |
+- **Evaluation Context Length:** 16384
 ## Inference
 ### Prerequisite