Add files using upload-large-folder tool

Browse files

Files changed (10) hide show

README.md +1 -1
model-00001-of-00008.safetensors +2 -2
model-00002-of-00008.safetensors +2 -2
model-00003-of-00008.safetensors +2 -2
model-00004-of-00008.safetensors +2 -2
model-00005-of-00008.safetensors +2 -2
model-00006-of-00008.safetensors +2 -2
model-00007-of-00008.safetensors +2 -2
model-00008-of-00008.safetensors +2 -2
model.safetensors.index.json +28 -28

README.md CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 license: mit
-library_name: mlx
 pipeline_tag: text-generation
 base_model: moonshotai/Kimi-Linear-48B-A3B-Instruct
 tags:
 - mlx

 ---
 license: mit
 pipeline_tag: text-generation
+library_name: mlx
 base_model: moonshotai/Kimi-Linear-48B-A3B-Instruct
 tags:
 - mlx

model-00001-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2117c23724d1acf37a48274fa18afd0af6ba3f983cea3bc3300d8c56d7e73a63
-size 4947256852

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb7deaebb926e0a206665bb0af15f5f8e33e9fade3801959ce0dce65e401205c
+size 4947256914

model-00002-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be99124a72f97775fce931af4561cf68b1586003baa92afdbdfc1e91fbd00e07
-size 5014526051

 version https://git-lfs.github.com/spec/v1
+oid sha256:78d860c933f7181b92ba0ce72750ea16641c77d5ce12d6684e80c2dca76278e7
+size 5014526093

model-00003-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4983135555dafbf519a765496d1e061248dccc6717f3684a46990192f04f1c8c
-size 5023048926

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e8de06cb33f18b7d1264bac5693a69af07276826c04d9c42071f7d9d312be43
+size 5023048944

model-00004-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:430bb8eb3bd17d630f55aa6a72a43be54fe55e850b82f9d822ed5560d6e17330
-size 5053096011

 version https://git-lfs.github.com/spec/v1
+oid sha256:a477d0afea613c87f3050ba41efd88ba44c90fa19c52aed159dfce943d820c43
+size 5053096059

model-00005-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90378c6265fdbe4ec3e8c988e4d6e169ccf8d495965a5b62b1a7291a6db356ac
-size 5014526163

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3cb6251042aed978b1a3df3918ec210f0201643ebac930fca666d897d29abf4
+size 5014526203

model-00006-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e916c0a9e6a7aae6a9b2353b6691cac6c64bd0e577b0febb9a8e60981a323b0
-size 5014526121

 version https://git-lfs.github.com/spec/v1
+oid sha256:85c5d95c16641c9058d7b0c5d9fe3014aadc38e9417c691cb67b5a0008a2f55f
+size 5014526165

model-00007-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf3ae62eb01a6b13d1d85d8681e4d8783f1becb9eda7dee48df20928f83e59f2
-size 5053095989

 version https://git-lfs.github.com/spec/v1
+oid sha256:d479ff1516fdb4dbc5f97beda7192a3ff7fe701ced606efb1296ff46ed46b625
+size 5053096041

model-00008-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d00b721e82f9c59f26d572073de0d80ca66ce6e35cd3d938a0beb21d22c4738
-size 4797697864

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5842792f58103e7e6aaf3e49e6920a212e71b21a7e560d3d2ab700c81e69e67
+size 4797697900

model.safetensors.index.json CHANGED Viewed

@@ -192,10 +192,10 @@
         "model.layers.11.mlp.switch_mlp.up_proj.scales": "model-00004-of-00008.safetensors",
         "model.layers.11.mlp.switch_mlp.up_proj.weight": "model-00004-of-00008.safetensors",
         "model.layers.11.post_attention_layernorm.weight": "model-00004-of-00008.safetensors",
-        "model.layers.11.self_attn.kv_a_norm.weight": "model-00004-of-00008.safetensors",
-        "model.layers.11.self_attn.kv_a_proj.biases": "model-00004-of-00008.safetensors",
-        "model.layers.11.self_attn.kv_a_proj.scales": "model-00004-of-00008.safetensors",
-        "model.layers.11.self_attn.kv_a_proj.weight": "model-00004-of-00008.safetensors",
         "model.layers.11.self_attn.kv_b_proj.biases": "model-00004-of-00008.safetensors",
         "model.layers.11.self_attn.kv_b_proj.scales": "model-00004-of-00008.safetensors",
         "model.layers.11.self_attn.kv_b_proj.weight": "model-00004-of-00008.safetensors",
@@ -400,10 +400,10 @@
         "model.layers.15.mlp.switch_mlp.up_proj.scales": "model-00005-of-00008.safetensors",
         "model.layers.15.mlp.switch_mlp.up_proj.weight": "model-00005-of-00008.safetensors",
         "model.layers.15.post_attention_layernorm.weight": "model-00005-of-00008.safetensors",
-        "model.layers.15.self_attn.kv_a_norm.weight": "model-00005-of-00008.safetensors",
-        "model.layers.15.self_attn.kv_a_proj.biases": "model-00005-of-00008.safetensors",
-        "model.layers.15.self_attn.kv_a_proj.scales": "model-00005-of-00008.safetensors",
-        "model.layers.15.self_attn.kv_a_proj.weight": "model-00005-of-00008.safetensors",
         "model.layers.15.self_attn.kv_b_proj.biases": "model-00005-of-00008.safetensors",
         "model.layers.15.self_attn.kv_b_proj.scales": "model-00005-of-00008.safetensors",
         "model.layers.15.self_attn.kv_b_proj.weight": "model-00005-of-00008.safetensors",
@@ -608,10 +608,10 @@
         "model.layers.19.mlp.switch_mlp.up_proj.scales": "model-00006-of-00008.safetensors",
         "model.layers.19.mlp.switch_mlp.up_proj.weight": "model-00006-of-00008.safetensors",
         "model.layers.19.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
-        "model.layers.19.self_attn.kv_a_norm.weight": "model-00006-of-00008.safetensors",
-        "model.layers.19.self_attn.kv_a_proj.biases": "model-00006-of-00008.safetensors",
-        "model.layers.19.self_attn.kv_a_proj.scales": "model-00006-of-00008.safetensors",
-        "model.layers.19.self_attn.kv_a_proj.weight": "model-00006-of-00008.safetensors",
         "model.layers.19.self_attn.kv_b_proj.biases": "model-00006-of-00008.safetensors",
         "model.layers.19.self_attn.kv_b_proj.scales": "model-00006-of-00008.safetensors",
         "model.layers.19.self_attn.kv_b_proj.weight": "model-00006-of-00008.safetensors",
@@ -873,10 +873,10 @@
         "model.layers.23.mlp.switch_mlp.up_proj.scales": "model-00007-of-00008.safetensors",
         "model.layers.23.mlp.switch_mlp.up_proj.weight": "model-00007-of-00008.safetensors",
         "model.layers.23.post_attention_layernorm.weight": "model-00007-of-00008.safetensors",
-        "model.layers.23.self_attn.kv_a_norm.weight": "model-00007-of-00008.safetensors",
-        "model.layers.23.self_attn.kv_a_proj.biases": "model-00007-of-00008.safetensors",
-        "model.layers.23.self_attn.kv_a_proj.scales": "model-00007-of-00008.safetensors",
-        "model.layers.23.self_attn.kv_a_proj.weight": "model-00007-of-00008.safetensors",
         "model.layers.23.self_attn.kv_b_proj.biases": "model-00007-of-00008.safetensors",
         "model.layers.23.self_attn.kv_b_proj.scales": "model-00007-of-00008.safetensors",
         "model.layers.23.self_attn.kv_b_proj.weight": "model-00007-of-00008.safetensors",
@@ -1024,10 +1024,10 @@
         "model.layers.26.mlp.switch_mlp.up_proj.scales": "model-00008-of-00008.safetensors",
         "model.layers.26.mlp.switch_mlp.up_proj.weight": "model-00008-of-00008.safetensors",
         "model.layers.26.post_attention_layernorm.weight": "model-00008-of-00008.safetensors",
-        "model.layers.26.self_attn.kv_a_norm.weight": "model-00008-of-00008.safetensors",
-        "model.layers.26.self_attn.kv_a_proj.biases": "model-00008-of-00008.safetensors",
-        "model.layers.26.self_attn.kv_a_proj.scales": "model-00008-of-00008.safetensors",
-        "model.layers.26.self_attn.kv_a_proj.weight": "model-00008-of-00008.safetensors",
         "model.layers.26.self_attn.kv_b_proj.biases": "model-00008-of-00008.safetensors",
         "model.layers.26.self_attn.kv_b_proj.scales": "model-00008-of-00008.safetensors",
         "model.layers.26.self_attn.kv_b_proj.weight": "model-00008-of-00008.safetensors",
@@ -1061,10 +1061,10 @@
         "model.layers.3.mlp.switch_mlp.up_proj.scales": "model-00001-of-00008.safetensors",
         "model.layers.3.mlp.switch_mlp.up_proj.weight": "model-00001-of-00008.safetensors",
         "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00008.safetensors",
-        "model.layers.3.self_attn.kv_a_norm.weight": "model-00001-of-00008.safetensors",
-        "model.layers.3.self_attn.kv_a_proj.biases": "model-00001-of-00008.safetensors",
-        "model.layers.3.self_attn.kv_a_proj.scales": "model-00001-of-00008.safetensors",
-        "model.layers.3.self_attn.kv_a_proj.weight": "model-00001-of-00008.safetensors",
         "model.layers.3.self_attn.kv_b_proj.biases": "model-00001-of-00008.safetensors",
         "model.layers.3.self_attn.kv_b_proj.scales": "model-00001-of-00008.safetensors",
         "model.layers.3.self_attn.kv_b_proj.weight": "model-00001-of-00008.safetensors",
@@ -1269,10 +1269,10 @@
         "model.layers.7.mlp.switch_mlp.up_proj.scales": "model-00003-of-00008.safetensors",
         "model.layers.7.mlp.switch_mlp.up_proj.weight": "model-00003-of-00008.safetensors",
         "model.layers.7.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
-        "model.layers.7.self_attn.kv_a_norm.weight": "model-00002-of-00008.safetensors",
-        "model.layers.7.self_attn.kv_a_proj.biases": "model-00002-of-00008.safetensors",
-        "model.layers.7.self_attn.kv_a_proj.scales": "model-00002-of-00008.safetensors",
-        "model.layers.7.self_attn.kv_a_proj.weight": "model-00002-of-00008.safetensors",
         "model.layers.7.self_attn.kv_b_proj.biases": "model-00002-of-00008.safetensors",
         "model.layers.7.self_attn.kv_b_proj.scales": "model-00002-of-00008.safetensors",
         "model.layers.7.self_attn.kv_b_proj.weight": "model-00002-of-00008.safetensors",

         "model.layers.11.mlp.switch_mlp.up_proj.scales": "model-00004-of-00008.safetensors",
         "model.layers.11.mlp.switch_mlp.up_proj.weight": "model-00004-of-00008.safetensors",
         "model.layers.11.post_attention_layernorm.weight": "model-00004-of-00008.safetensors",
+        "model.layers.11.self_attn.kv_a_layernorm.weight": "model-00004-of-00008.safetensors",
+        "model.layers.11.self_attn.kv_a_proj_with_mqa.biases": "model-00004-of-00008.safetensors",
+        "model.layers.11.self_attn.kv_a_proj_with_mqa.scales": "model-00004-of-00008.safetensors",
+        "model.layers.11.self_attn.kv_a_proj_with_mqa.weight": "model-00004-of-00008.safetensors",
         "model.layers.11.self_attn.kv_b_proj.biases": "model-00004-of-00008.safetensors",
         "model.layers.11.self_attn.kv_b_proj.scales": "model-00004-of-00008.safetensors",
         "model.layers.11.self_attn.kv_b_proj.weight": "model-00004-of-00008.safetensors",
         "model.layers.15.mlp.switch_mlp.up_proj.scales": "model-00005-of-00008.safetensors",
         "model.layers.15.mlp.switch_mlp.up_proj.weight": "model-00005-of-00008.safetensors",
         "model.layers.15.post_attention_layernorm.weight": "model-00005-of-00008.safetensors",
+        "model.layers.15.self_attn.kv_a_layernorm.weight": "model-00005-of-00008.safetensors",
+        "model.layers.15.self_attn.kv_a_proj_with_mqa.biases": "model-00005-of-00008.safetensors",
+        "model.layers.15.self_attn.kv_a_proj_with_mqa.scales": "model-00005-of-00008.safetensors",
+        "model.layers.15.self_attn.kv_a_proj_with_mqa.weight": "model-00005-of-00008.safetensors",
         "model.layers.15.self_attn.kv_b_proj.biases": "model-00005-of-00008.safetensors",
         "model.layers.15.self_attn.kv_b_proj.scales": "model-00005-of-00008.safetensors",
         "model.layers.15.self_attn.kv_b_proj.weight": "model-00005-of-00008.safetensors",
         "model.layers.19.mlp.switch_mlp.up_proj.scales": "model-00006-of-00008.safetensors",
         "model.layers.19.mlp.switch_mlp.up_proj.weight": "model-00006-of-00008.safetensors",
         "model.layers.19.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
+        "model.layers.19.self_attn.kv_a_layernorm.weight": "model-00006-of-00008.safetensors",
+        "model.layers.19.self_attn.kv_a_proj_with_mqa.biases": "model-00006-of-00008.safetensors",
+        "model.layers.19.self_attn.kv_a_proj_with_mqa.scales": "model-00006-of-00008.safetensors",
+        "model.layers.19.self_attn.kv_a_proj_with_mqa.weight": "model-00006-of-00008.safetensors",
         "model.layers.19.self_attn.kv_b_proj.biases": "model-00006-of-00008.safetensors",
         "model.layers.19.self_attn.kv_b_proj.scales": "model-00006-of-00008.safetensors",
         "model.layers.19.self_attn.kv_b_proj.weight": "model-00006-of-00008.safetensors",
         "model.layers.23.mlp.switch_mlp.up_proj.scales": "model-00007-of-00008.safetensors",
         "model.layers.23.mlp.switch_mlp.up_proj.weight": "model-00007-of-00008.safetensors",
         "model.layers.23.post_attention_layernorm.weight": "model-00007-of-00008.safetensors",
+        "model.layers.23.self_attn.kv_a_layernorm.weight": "model-00007-of-00008.safetensors",
+        "model.layers.23.self_attn.kv_a_proj_with_mqa.biases": "model-00007-of-00008.safetensors",
+        "model.layers.23.self_attn.kv_a_proj_with_mqa.scales": "model-00007-of-00008.safetensors",
+        "model.layers.23.self_attn.kv_a_proj_with_mqa.weight": "model-00007-of-00008.safetensors",
         "model.layers.23.self_attn.kv_b_proj.biases": "model-00007-of-00008.safetensors",
         "model.layers.23.self_attn.kv_b_proj.scales": "model-00007-of-00008.safetensors",
         "model.layers.23.self_attn.kv_b_proj.weight": "model-00007-of-00008.safetensors",
         "model.layers.26.mlp.switch_mlp.up_proj.scales": "model-00008-of-00008.safetensors",
         "model.layers.26.mlp.switch_mlp.up_proj.weight": "model-00008-of-00008.safetensors",
         "model.layers.26.post_attention_layernorm.weight": "model-00008-of-00008.safetensors",
+        "model.layers.26.self_attn.kv_a_layernorm.weight": "model-00008-of-00008.safetensors",
+        "model.layers.26.self_attn.kv_a_proj_with_mqa.biases": "model-00008-of-00008.safetensors",
+        "model.layers.26.self_attn.kv_a_proj_with_mqa.scales": "model-00008-of-00008.safetensors",
+        "model.layers.26.self_attn.kv_a_proj_with_mqa.weight": "model-00008-of-00008.safetensors",
         "model.layers.26.self_attn.kv_b_proj.biases": "model-00008-of-00008.safetensors",
         "model.layers.26.self_attn.kv_b_proj.scales": "model-00008-of-00008.safetensors",
         "model.layers.26.self_attn.kv_b_proj.weight": "model-00008-of-00008.safetensors",
         "model.layers.3.mlp.switch_mlp.up_proj.scales": "model-00001-of-00008.safetensors",
         "model.layers.3.mlp.switch_mlp.up_proj.weight": "model-00001-of-00008.safetensors",
         "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00008.safetensors",
+        "model.layers.3.self_attn.kv_a_layernorm.weight": "model-00001-of-00008.safetensors",
+        "model.layers.3.self_attn.kv_a_proj_with_mqa.biases": "model-00001-of-00008.safetensors",
+        "model.layers.3.self_attn.kv_a_proj_with_mqa.scales": "model-00001-of-00008.safetensors",
+        "model.layers.3.self_attn.kv_a_proj_with_mqa.weight": "model-00001-of-00008.safetensors",
         "model.layers.3.self_attn.kv_b_proj.biases": "model-00001-of-00008.safetensors",
         "model.layers.3.self_attn.kv_b_proj.scales": "model-00001-of-00008.safetensors",
         "model.layers.3.self_attn.kv_b_proj.weight": "model-00001-of-00008.safetensors",
         "model.layers.7.mlp.switch_mlp.up_proj.scales": "model-00003-of-00008.safetensors",
         "model.layers.7.mlp.switch_mlp.up_proj.weight": "model-00003-of-00008.safetensors",
         "model.layers.7.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
+        "model.layers.7.self_attn.kv_a_layernorm.weight": "model-00002-of-00008.safetensors",
+        "model.layers.7.self_attn.kv_a_proj_with_mqa.biases": "model-00002-of-00008.safetensors",
+        "model.layers.7.self_attn.kv_a_proj_with_mqa.scales": "model-00002-of-00008.safetensors",
+        "model.layers.7.self_attn.kv_a_proj_with_mqa.weight": "model-00002-of-00008.safetensors",
         "model.layers.7.self_attn.kv_b_proj.biases": "model-00002-of-00008.safetensors",
         "model.layers.7.self_attn.kv_b_proj.scales": "model-00002-of-00008.safetensors",
         "model.layers.7.self_attn.kv_b_proj.weight": "model-00002-of-00008.safetensors",