Update technical report, API, and evaluation results

Browse files

Files changed (3) hide show

.gitattributes +1 -0
README.md +157 -32
assets/main_figure.png +3 -0

.gitattributes CHANGED Viewed

@@ -34,4 +34,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 assets/K-EXAONE_Symbol_3d.png filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 assets/K-EXAONE_Symbol_3d.png filter=lfs diff=lfs merge=lfs -text
+assets/main_figure.png filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -22,19 +22,24 @@ library_name: transformers
 <p align="center">
 <img src="assets/K-EXAONE_Symbol_3d.png" width="400">
 <br>
-<!-- <p align="center"> 🤗 <a href="https://huggingface.co/collections/LGAI-EXAONE/k-exaone">Hugging Face</a> &nbsp | &nbsp 📝 <a href="#"> Blog</a> &nbsp | &nbsp 📑 <a href="#"> Technical Report </a>-->
 <br>
 <br>
 <div align="center">
   <a href="https://huggingface.co/collections/LGAI-EXAONE/k-exaone" style="text-decoration: none;">
-    <img src="https://img.shields.io/badge/🤗-Huggingface-FC926C?style=for-the-badge" alt="Huggingface">
   </a>
   <a href="#" style="text-decoration: none;">
-    <img src="https://img.shields.io/badge/📝-Blog_(TBD)-E343BD?style=for-the-badge" alt="Blog">
   </a>
-  <a href="#" style="text-decoration: none;">
-    <img src="https://img.shields.io/badge/📑-Technical_Report_(TBD)-684CF4?style=for-the-badge" alt="Technical Report">
   </a>
 </div>
@@ -52,7 +57,9 @@ We introduce **K-EXAONE**, a large-scale multilingual language model developed b
 - **Agentic Capabilities:** Demonstrates superior tool-use and search capabilities via **multi-agent strategies.**
 - **Safety & Ethics:** Aligned with **universal human values**, the model uniquely incorporates **Korean cultural and historical contexts** to address regional sensitivities often overlooked by other models. It demonstrates high reliability across diverse risk categories.
-For more details, please refer to the [technical report](#).
 ### Model Configuration
@@ -80,7 +87,7 @@ For more details, please refer to the [technical report](#).
 - Knowledge Cutoff: Dec 2024 (2024/12)
 ## Evaluation Results
-The following table shows the evaluation results of the K-EXAONE model in reasoning mode, compared to our previous model, [EXAONE-4.0](https://github.com/LG-AI-EXAONE/EXAONE-4.0), and other competing models. The evaluation details can be found in the [technical report](#).
 <table>
 	<tr>
@@ -120,7 +127,7 @@ The following table shows the evaluation results of the K-EXAONE model in reason
 	</tr>
 	<tr>
 		<td align="center">MMLU-Pro</td>
-		<td align="center">83.9</td>
 		<td align="center">81.8</td>
 		<td align="center">80.7</td>
 		<td align="center">84.4</td>
@@ -128,7 +135,7 @@ The following table shows the evaluation results of the K-EXAONE model in reason
 	</tr>
 	<tr>
 		<td align="center">GPQA-Diamond</td>
-		<td align="center">80.0</td>
 		<td align="center">75.4</td>
 		<td align="center">80.1</td>
 		<td align="center">81.1</td>
@@ -136,7 +143,7 @@ The following table shows the evaluation results of the K-EXAONE model in reason
 	</tr>
 	<tr>
 		<td align="center">Humanity's Last Exam</td>
-		<td align="center">13.8</td>
 		<td align="center">10.6</td>
 		<td align="center">14.9</td>
 		<td align="center">18.2</td>
@@ -145,42 +152,106 @@ The following table shows the evaluation results of the K-EXAONE model in reason
 	<tr>
 		<td align="center" colspan='7'><i>Math</i></td>
 	</tr>
 	<tr>
 		<td align="center">AIME 2025</td>
-		<td align="center">92.6</td>
 		<td align="center">85.3</td>
 		<td align="center">92.5</td>
 		<td align="center">92.3</td>
 		<td align="center">93.1</td>
 	</tr>
 	<tr>
-		<td align="center" colspan='7'><i>Coding</i></td>
 	</tr>
 	<tr>
 		<td align="center">LiveCodeBench v6</td>
-		<td align="center">81.1</td>
 		<td align="center">66.7</td>
 		<td align="center">81.9</td>
 		<td align="center">74.1</td>
 		<td align="center">79.4</td>
 	</tr>
 	<tr>
 		<td align="center" colspan='7'><i>Agentic Tool Use</i></td>
 	</tr>
 	<tr>
-		<td align="center">τ<sup>2</sup>-Bench (Telecom)</td>
 		<td align="center">71.9</td>
 		<td align="center">23.7</td>
 		<td align="center">60.3</td>
 		<td align="center">45.6</td>
 		<td align="center">85.8</td>
 	</tr>
 	<tr>
 		<td align="center" colspan='7'><i>Instruction Following</i></td>
 	</tr>
 	<tr>
 		<td align="center">IFBench</td>
-		<td align="center">67.4</td>
 		<td align="center">36.0</td>
 		<td align="center">69.5</td>
 		<td align="center">52.6</td>
@@ -188,7 +259,7 @@ The following table shows the evaluation results of the K-EXAONE model in reason
 	</tr>
 	<tr>
 		<td align="center">IFEval</td>
-		<td align="center">89.8</td>
 		<td align="center">84.7</td>
 		<td align="center">89.5</td>
 		<td align="center">87.8</td>
@@ -206,7 +277,15 @@ The following table shows the evaluation results of the K-EXAONE model in reason
 		<td align="center">65.0</td>
 	</tr>
 	<tr>
-		<td align="center" colspan='7'><i>Korean Knowledge & Math</i></td>
 	</tr>
 	<tr>
 		<td align="center">KMMLU-Pro</td>
@@ -217,12 +296,12 @@ The following table shows the evaluation results of the K-EXAONE model in reason
 		<td align="center">72.1</td>
 	</tr>
 	<tr>
-		<td align="center">HRM8K</td>
-		<td align="center">90.7</td>
-		<td align="center">89.4</td>
-		<td align="center">91.6</td>
-		<td align="center">92.0</td>
-		<td align="center">90.6</td>
 	</tr>
 	<tr>
 		<td align="center">CLIcK</td>
@@ -233,12 +312,58 @@ The following table shows the evaluation results of the K-EXAONE model in reason
 		<td align="center">86.3</td>
 	</tr>
 	<tr>
-		<td align="center">KoBALT</td>
-		<td align="center">61.8</td>
-		<td align="center">25.4</td>
-		<td align="center">54.3</td>
-		<td align="center">56.1</td>
-		<td align="center">62.7</td>
 	</tr>
 </table>
@@ -266,6 +391,8 @@ You can install the latest version of SGLang with support for EXAONE-MoE archite
 You can install the latest version of llama.cpp with support for EXAONE-MoE architecture from [this repository](https://github.com/Aim-Highest/llama.cpp).
 Please refer to the [official build guide](https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md) for details.
 ## Quickstart
 You can use the K-EXAONE model with the Transformers library. For better quality, you should check the [usage guideline](#usage-guideline) section.
@@ -448,8 +575,7 @@ Practically, you can serve the model with a 256K context length using tensor par
 ```bash
 python -m sglang.launch_server \
     --model LGAI-EXAONE/K-EXAONE-236B-A23B \
-    --reasoning-parser qwen3 \
-    --disable-hybrid-swa-memory
 ```
 A SGLang server will be available at http://localhost:30000.
@@ -499,7 +625,6 @@ If you are interested in in using MTP weights for speculative decoding, add acco
 python -m sglang.launch_server \
     --model LGAI-EXAONE/K-EXAONE-236B-A23B \
     --reasoning-parser qwen3 \
-    --disable-hybrid-swa-memory \
     --speculative-algorithm EAGLE \
     --speculative-num-steps 3 \
     --speculative-eagle-topk 1 \

 <p align="center">
 <img src="assets/K-EXAONE_Symbol_3d.png" width="400">
 <br>
 <br>
 <br>
 <div align="center">
   <a href="https://huggingface.co/collections/LGAI-EXAONE/k-exaone" style="text-decoration: none;">
+    <img src="https://img.shields.io/badge/🤗-HuggingFace-FC926C?style=for-the-badge" alt="HuggingFace">
   </a>
   <a href="#" style="text-decoration: none;">
+    <img src="https://img.shields.io/badge/📝-Blog_(TBU)-E343BD?style=for-the-badge" alt="Blog">
   </a>
+  <a href="https://www.lgresearch.ai/data/cdn/upload/K-EXAONE_Technical_Report.pdf" style="text-decoration: none;">
+    <img src="https://img.shields.io/badge/📑-Technical_Report-684CF4?style=for-the-badge" alt="Technical Report">
+  </a>
+  <a href="https://github.com/LG-AI-EXAONE/K-EXAONE" style="text-decoration: none;">
+    <img src="https://img.shields.io/badge/🖥️-GitHub-2B3137?style=for-the-badge" alt="GitHub">
+  </a>
+  <a href="https://friendli.ai/suite/0vabuzmPYUNt/RFZtL3MqChNK/serverless-endpoints/LGAI-EXAONE/K-EXAONE-236B-A23B/overview" style="text-decoration: none;">
+    <img src="https://img.shields.io/badge/✈️_API-Try_on_FriendliAI-2649BC?style=for-the-badge" alt="FriendliAI">
   </a>
 </div>
 - **Agentic Capabilities:** Demonstrates superior tool-use and search capabilities via **multi-agent strategies.**
 - **Safety & Ethics:** Aligned with **universal human values**, the model uniquely incorporates **Korean cultural and historical contexts** to address regional sensitivities often overlooked by other models. It demonstrates high reliability across diverse risk categories.
+For more details, please refer to the [technical report](https://www.lgresearch.ai/data/cdn/upload/K-EXAONE_Technical_Report.pdf) and [GitHub](https://github.com/LG-AI-EXAONE/K-EXAONE).
+![main_figure](assets/main_figure.png)
 ### Model Configuration
 - Knowledge Cutoff: Dec 2024 (2024/12)
 ## Evaluation Results
+The following table shows the evaluation results of the K-EXAONE model in reasoning mode, compared to our previous model, [EXAONE-4.0](https://github.com/LG-AI-EXAONE/EXAONE-4.0), and other competing models. The evaluation details can be found in the [technical report](https://www.lgresearch.ai/data/cdn/upload/K-EXAONE_Technical_Report.pdf).
 <table>
 	<tr>
 	</tr>
 	<tr>
 		<td align="center">MMLU-Pro</td>
+		<td align="center">83.8</td>
 		<td align="center">81.8</td>
 		<td align="center">80.7</td>
 		<td align="center">84.4</td>
 	</tr>
 	<tr>
 		<td align="center">GPQA-Diamond</td>
+		<td align="center">79.1</td>
 		<td align="center">75.4</td>
 		<td align="center">80.1</td>
 		<td align="center">81.1</td>
 	</tr>
 	<tr>
 		<td align="center">Humanity's Last Exam</td>
+		<td align="center">13.6</td>
 		<td align="center">10.6</td>
 		<td align="center">14.9</td>
 		<td align="center">18.2</td>
 	<tr>
 		<td align="center" colspan='7'><i>Math</i></td>
 	</tr>
+	<tr>
+		<td align="center">IMO-AnswerBench</td>
+		<td align="center">76.3</td>
+		<td align="center">66.1</td>
+		<td align="center">75.6</td>
+		<td align="center">74.8</td>
+		<td align="center">78.3</td>
+	</tr>
 	<tr>
 		<td align="center">AIME 2025</td>
+		<td align="center">92.8</td>
 		<td align="center">85.3</td>
 		<td align="center">92.5</td>
 		<td align="center">92.3</td>
 		<td align="center">93.1</td>
 	</tr>
 	<tr>
+		<td align="center">HMMT Nov 2025</td>
+		<td align="center">86.8</td>
+		<td align="center">78.1</td>
+		<td align="center">84.9</td>
+		<td align="center">88.8</td>
+		<td align="center">90.2</td>
+	</tr>
+	<tr>
+		<td align="center" colspan='7'><i>Coding / Agentic Coding</i></td>
+	</tr>
+	<tr>
+		<td align="center">LiveCodeBench Pro 25Q2 (Medium)</td>
+		<td align="center">25.9</td>
+		<td align="center">4.8</td>
+		<td align="center">35.4</td>
+		<td align="center">16.0</td>
+		<td align="center">27.9</td>
 	</tr>
 	<tr>
 		<td align="center">LiveCodeBench v6</td>
+		<td align="center">80.7</td>
 		<td align="center">66.7</td>
 		<td align="center">81.9</td>
 		<td align="center">74.1</td>
 		<td align="center">79.4</td>
 	</tr>
+	<tr>
+		<td align="center">Terminal-Bench 2.0</td>
+		<td align="center">29.0</td>
+		<td align="center">-</td>
+		<td align="center">18.7</td>
+		<td align="center">13.3</td>
+		<td align="center">46.4</td>
+	</tr>
+	<tr>
+		<td align="center">SWE-Bench Verified</td>
+		<td align="center">49.4</td>
+		<td align="center">-</td>
+		<td align="center">62.4</td>
+		<td align="center">25.0</td>
+		<td align="center">73.1</td>
+	</tr>
 	<tr>
 		<td align="center" colspan='7'><i>Agentic Tool Use</i></td>
 	</tr>
 	<tr>
+		<td align="center">τ<sup>2</sup>-Bench (Retail)</td>
+		<td align="center">78.6</td>
+		<td align="center">67.5</td>
+		<td align="center">69.1</td>
 		<td align="center">71.9</td>
+		<td align="center">77.9</td>
+	</tr>
+	<tr>
+		<td align="center">τ<sup>2</sup>-Bench (Airline)</td>
+		<td align="center">60.4</td>
+		<td align="center">52.0</td>
+		<td align="center">60.5</td>
+		<td align="center">58.0</td>
+		<td align="center">66.0</td>
+	</tr>
+	<tr>
+		<td align="center">τ<sup>2</sup>-Bench (Telecom)</td>
+		<td align="center">73.5</td>
 		<td align="center">23.7</td>
 		<td align="center">60.3</td>
 		<td align="center">45.6</td>
 		<td align="center">85.8</td>
 	</tr>
+	<tr>
+		<td align="center">BrowseComp</td>
+		<td align="center">31.4</td>
+		<td align="center">-</td>
+		<td align="center">-</td>
+		<td align="center">-</td>
+		<td align="center">51.4</td>
+	</tr>
 	<tr>
 		<td align="center" colspan='7'><i>Instruction Following</i></td>
 	</tr>
 	<tr>
 		<td align="center">IFBench</td>
+		<td align="center">67.3</td>
 		<td align="center">36.0</td>
 		<td align="center">69.5</td>
 		<td align="center">52.6</td>
 	</tr>
 	<tr>
 		<td align="center">IFEval</td>
+		<td align="center">89.7</td>
 		<td align="center">84.7</td>
 		<td align="center">89.5</td>
 		<td align="center">87.8</td>
 		<td align="center">65.0</td>
 	</tr>
 	<tr>
+		<td align="center">OpenAI-MRCR</td>
+		<td align="center">52.3</td>
+		<td align="center">20.1</td>
+		<td align="center">29.9</td>
+		<td align="center">58.6</td>
+		<td align="center">57.7</td>
+	</tr>
+	<tr>
+		<td align="center" colspan='7'><i>Korean</i></td>
 	</tr>
 	<tr>
 		<td align="center">KMMLU-Pro</td>
 		<td align="center">72.1</td>
 	</tr>
 	<tr>
+		<td align="center">KoBALT</td>
+		<td align="center">61.8</td>
+		<td align="center">25.4</td>
+		<td align="center">54.3</td>
+		<td align="center">56.1</td>
+		<td align="center">62.7</td>
 	</tr>
 	<tr>
 		<td align="center">CLIcK</td>
 		<td align="center">86.3</td>
 	</tr>
 	<tr>
+		<td align="center">HRM8K</td>
+		<td align="center">90.9</td>
+		<td align="center">89.4</td>
+		<td align="center">91.6</td>
+		<td align="center">92.0</td>
+		<td align="center">90.6</td>
+	</tr>
+	<tr>
+		<td align="center">Ko-LongBench</td>
+		<td align="center">86.8</td>
+		<td align="center">68.0</td>
+		<td align="center">82.2</td>
+		<td align="center">83.2</td>
+		<td align="center">87.9</td>
+	</tr>
+	<tr>
+		<td align="center" colspan='7'><i>Multilinguality</i></td>
+	</tr>
+	<tr>
+		<td align="center">MMMLU</td>
+		<td align="center">85.7</td>
+		<td align="center">83.2</td>
+		<td align="center">83.8</td>
+		<td align="center">87.3</td>
+		<td align="center">88.0</td>
+	</tr>
+	<tr>
+		<td align="center">WMT24++</td>
+		<td align="center">90.5</td>
+		<td align="center">80.8</td>
+		<td align="center">93.6</td>
+		<td align="center">94.7</td>
+		<td align="center">90.0</td>
+	</tr>
+	<tr>
+		<td align="center" colspan='7'><i>Safety</i></td>
+	</tr>
+	<tr>
+		<td align="center">Wild-Jailbreak</td>
+		<td align="center">89.9</td>
+		<td align="center">62.8</td>
+		<td align="center">98.2</td>
+		<td align="center">85.5</td>
+		<td align="center">79.1</td>
+	</tr>
+	<tr>
+		<td align="center">KGC-Safety</td>
+		<td align="center">96.1</td>
+		<td align="center">58.0</td>
+		<td align="center">92.5</td>
+		<td align="center">66.2</td>
+		<td align="center">73.0</td>
 	</tr>
 </table>
 You can install the latest version of llama.cpp with support for EXAONE-MoE architecture from [this repository](https://github.com/Aim-Highest/llama.cpp).
 Please refer to the [official build guide](https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md) for details.
 ## Quickstart
 You can use the K-EXAONE model with the Transformers library. For better quality, you should check the [usage guideline](#usage-guideline) section.
 ```bash
 python -m sglang.launch_server \
     --model LGAI-EXAONE/K-EXAONE-236B-A23B \
+    --reasoning-parser qwen3
 ```
 A SGLang server will be available at http://localhost:30000.
 python -m sglang.launch_server \
     --model LGAI-EXAONE/K-EXAONE-236B-A23B \
     --reasoning-parser qwen3 \
     --speculative-algorithm EAGLE \
     --speculative-num-steps 3 \
     --speculative-eagle-topk 1 \

assets/main_figure.png ADDED Viewed

Git LFS Details

SHA256: 78987fb8ea984e2a5d27c836e354b485860589a6dcf673550ea2134a2b8bc6e6
Pointer size: 131 Bytes
Size of remote file: 113 kB