RedHatAI
/

granite-3.1-8b-instruct-quantized.w4a16

Text Generation

compressed-tensors

Model card Files Files and versions

Shubhra Pandit commited on Jan 13

Commit

8811570

·

1 Parent(s): 3bf8da2

Update model files

Files changed (4) hide show

config.json +4 -4
generation_config.json +1 -1
model.safetensors +2 -2
recipe.yaml +2 -2

config.json CHANGED Viewed

@@ -30,7 +30,7 @@
           "Linear"
         ],
         "weights": {
-          "actorder": "group",
           "block_structure": null,
           "dynamic": false,
           "group_size": 128,
@@ -44,7 +44,7 @@
       }
     },
     "format": "pack-quantized",
-    "global_compression_ratio": 2.0798480949181366,
     "ignore": [
       "lm_head"
     ],
@@ -53,7 +53,7 @@
     "quantization_status": "compressed",
     "sparsity_config": {
       "format": "dense",
-      "global_sparsity": 0.15159645474105599,
       "ignore": [
         "model.layers.0.self_attn.q_proj",
         "model.layers.0.self_attn.k_proj",
@@ -349,7 +349,7 @@
   "rope_theta": 10000000.0,
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.47.0",
   "use_cache": true,
   "vocab_size": 49155
 }

           "Linear"
         ],
         "weights": {
+          "actorder": "weight",
           "block_structure": null,
           "dynamic": false,
           "group_size": 128,
       }
     },
     "format": "pack-quantized",
+    "global_compression_ratio": 2.0797148111392234,
     "ignore": [
       "lm_head"
     ],
     "quantization_status": "compressed",
     "sparsity_config": {
       "format": "dense",
+      "global_sparsity": 0.153448059659814,
       "ignore": [
         "model.layers.0.self_attn.q_proj",
         "model.layers.0.self_attn.k_proj",
   "rope_theta": 10000000.0,
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.47.1",
   "use_cache": true,
   "vocab_size": 49155
 }

generation_config.json CHANGED Viewed

@@ -3,5 +3,5 @@
   "bos_token_id": 0,
   "eos_token_id": 0,
   "pad_token_id": 0,
-  "transformers_version": "4.47.0"
 }

   "bos_token_id": 0,
   "eos_token_id": 0,
   "pad_token_id": 0,
+  "transformers_version": "4.47.1"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48515ff30027cf3f46067330f0afb17426269cfdef314c9c845a9fe6e999088e
-size 4921248800

 version https://git-lfs.github.com/spec/v1
+oid sha256:0999cd102cf528f088c5c57c04a71e139f4ea97a17d77d407c3889b4464d0953
+size 4915236240

recipe.yaml CHANGED Viewed

@@ -2,10 +2,10 @@ quant_stage:
   quant_modifiers:
     GPTQModifier:
       sequential_update: true
-      dampening_frac: 0.01
       ignore: [lm_head]
       config_groups:
         group_0:
           weights: {num_bits: 4, type: int, symmetric: true, strategy: group, group_size: 128,
-            actorder: group, observer: mse}
           targets: [Linear]

   quant_modifiers:
     GPTQModifier:
       sequential_update: true
+      dampening_frac: 0.1
       ignore: [lm_head]
       config_groups:
         group_0:
           weights: {num_bits: 4, type: int, symmetric: true, strategy: group, group_size: 128,
+            actorder: weight, observer: mse}
           targets: [Linear]