链海掘金者

2025-08-17 00:53:21

AI 基準測試並不像應該那樣工作。

一個新系統讓人們在評判模型時決定真正重要的是什麼。這可能是一些關鍵的事情，比如確保人類安全的對齊，或者一些小事，比如避免文本中的破折號。

通過這個系統，您設計測試。

DON-1.83%

WORK-11.13%

IN-9.87%

查看原文

post-image

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

14人點讚了這條動態

讚賞
14
5
轉發
分享

留言

0/400

空投舔狗

· 08-17 21:10

能自己定标准了不错啊

回復0

红杏出墙逃税

· 08-17 01:22

啊对对对让大爷自己来设计挺好

回復0

StealthDeployer

· 08-17 01:19

指标还要让人类来定啊

回復0

巨鲸资深观察员

· 08-17 01:18

又一个走流程的测试？老套路了

回復0

nft_widow

· 08-17 00:56

啧测试标准还得看人设定

回復0

置頂