【ＡＩ】美團LongCat團隊發布並開源VitaBench大模型評測基準

by · 21 10 月, 2025

《經濟通通訊社２１日專訊》美團ＬｏｎｇＣａｔ團隊２０日正式發布當前高度貼近真實生
活場景、面向複雜問題的大模型智能體評測基準－－ＶｉｔａＢｅｎｃｈ（Ｖｅｒｓａｔｉｌｅ
ＩｎｔｅｒａｃｔｉｖｅＴａｓｋｓＢｅｎｃｈｍａｒｋ），並已全面開源。

據官方介紹，ＶｉｔａＢｅｎｃｈ以外賣點餐、餐廳就餐、旅遊出行三大高頻真實生活場景
為典型載體，構建了包含６６個工具的交互式評測環境，並進行了跨場景的綜