Skip to content

Commit b5b462f

Browse files
committed
feat: Update LLM evaluation results summary for Claude-4-sonnet, glm-4.5, and qwen-plus
1 parent eea3f21 commit b5b462f

File tree

1 file changed

+25
-13
lines changed

1 file changed

+25
-13
lines changed
Lines changed: 25 additions & 13 deletions
Original file line numberDiff line numberDiff line change
@@ -1,13 +1,25 @@
1-
### 活字格认证考试 LLM 测评结果汇总
2-
3-
| 考试科目 | 测试模式 | 正确率 (Accuracy) | 正确数 / 总题数 |
4-
| :------------------------------ | :----------------- | :---------------- | :-------------- |
5-
| **活字格认证工程师-科目一** | 直接生成答案 | 65.80% | 229 / 348 |
6-
| | 结合知识库检索 | 81.03% | 282 / 348 |
7-
| | Agent 自动规划检索 | **88.51%** | **308 / 348** |
8-
| **活字格认证工程师-科目二** | 直接生成答案 | 57.41% | 62 / 108 |
9-
| | 结合知识库检索 | 69.44% | 75 / 108 |
10-
| | Agent 自动规划检索 | **70.37%** | **76 / 108** |
11-
| **活字格高级认证工程师-科目一** | 直接生成答案 | 52.94% | 45 / 85 |
12-
| | 结合知识库检索 | 65.88% | 56 / 85 |
13-
| | Agent 自动规划检索 | **74.12%** | **63 / 85** |
1+
### 活字格认证考试 LLM 测评结果汇总(Claude-4-sonnet)
2+
3+
| 考试科目 | 直接生成答案 | 结合知识库检索 | AI 自动规划检索 | 最大提升 |
4+
| ------------------------------- | ---------------- | ---------------- | -------------------- | ----------- |
5+
| **活字格认证工程师-科目一** | 65.80% (229/348) | 81.03% (282/348) | **88.51%** (308/348) | **+22.71%** |
6+
| **活字格认证工程师-科目二** | 57.41% (62/108) | 69.44% (75/108) | **70.37%** (76/108) | **+12.96%** |
7+
| **活字格高级认证工程师-科目一** | 52.94% (45/85) | 65.88% (56/85) | **74.12%** (63/85) | **+21.18%** |
8+
9+
好的,这是为您整理的 `glm-4.5``qwen-plus` 的测评结果汇总表格。
10+
11+
### 活字格认证考试 LLM 测评结果汇总 (glm-4.5)
12+
13+
| 考试科目 | 直接生成答案 | 结合知识库检索 | AI 自动规划检索 | 最大提升 |
14+
| :------------------------------ | :--------------- | :--------------- | :------------------- | :---------- |
15+
| **活字格认证工程师-科目一** | 61.21% (213/348) | 84.20% (293/348) | **87.07%** (303/348) | **+25.86%** |
16+
| **活字格认证工程师-科目二** | 47.22% (51/108) | 64.81% (70/108) | **65.74%** (71/108) | **+18.52%** |
17+
| **活字格高级认证工程师-科目一** | 57.65% (49/85) | 67.06% (57/85) | **68.24%** (58/85) | **+10.59%** |
18+
19+
### 活字格认证考试 LLM 测评结果汇总 (qwen-plus)
20+
21+
| 考试科目 | 直接生成答案 | 结合知识库检索 | AI 自动规划检索 | 最大提升 |
22+
| :------------------------------ | :--------------- | :--------------- | :------------------- | :---------- |
23+
| **活字格认证工程师-科目一** | 67.82% (236/348) | 83.05% (289/348) | **85.92%** (299/348) | **+18.10%** |
24+
| **活字格认证工程师-科目二** | 51.85% (56/108) | 65.74% (71/108) | **68.52%** (74/108) | **+16.67%** |
25+
| **活字格高级认证工程师-科目一** | 54.12% (46/85) | 61.18% (52/85) | **68.24%** (58/85) | **+14.12%** |

0 commit comments

Comments
 (0)