【AI】美團LongCat團隊發布並開源VitaBench大模型評測基準

《經濟通通訊社21日專訊》美團LongCat團隊20日正式發布當前高度貼近真實生
活場景、面向複雜問題的大模型智能體評測基準--VitaBench(Versatile
InteractiveTasksBenchmark),並已全面開源。

據官方介紹,VitaBench以外賣點餐、餐廳就餐、旅遊出行三大高頻真實生活場景
為典型載體,構建了包含66個工具的交互式評測環境,並進行了跨場景的綜

Read More 

You may also like...

Generated by Feedzy