

商傳媒|林昭衡/綜合外電報導
輝達(NVIDIA)日前發布一篇技術部落格文章,針對人工智慧(AI)領域中,模型(model)與代理(agent)的評估方式提出關鍵區別,並向開發者分享五項實用技巧。文章強調,評估AI代理的重點應放在其在動態環境下完成實際工作流程的表現,而非僅專注於底層模型的能力分數。
傳統的模型評估主要測試基礎模型(例如大型語言模型LLM或視覺語言模型VLM)的獨立能力,像是其語言理解、指令遵循或在靜態任務上解決問題的表現。這類評估通常依賴MMLU(通用知識)、GSM8K(數學推理)和HumanEval(程式編寫能力)等基準測試,旨在回答「這個引擎是否足以理解指令並進行事實推理?」
然而,AI代理的評估則將重點轉移至端到端(end-to-end)的執行軌跡,也就是代理進行推理、呼叫工具、處理不確定性並在動態環境中完成真實工作流程的整個過程。即使底層模型表現優異,代理仍可能因對應用程式介面(API)結構產生幻覺或在搜尋失敗後陷入無限循環而失效。因此,代理評估會採用GAIA(真實世界協助)、SWE-bench(GitHub問題解決)和WebArena(網路任務執行)等基準測試,測量任務成功率(Task Success Rate, TSR)、工具呼叫準確性(Tool Call Accuracy)和軌跡效率(Trajectory Efficiency),以回答「這個系統能否在非確定性環境中可靠執行多步驟工作流程?」
輝達文章為開發者提出了五個評估AI代理的實用建議:
衡量任務成功而非僅準確性 :傳統模型基準測試僅顯示代理基礎模型的能力,無法反映其在實際應用中的任務完成度。應將任務定義為意圖與限制的組合,並在代理完全達成意圖且符合限制時,才計為任務成功。同時需追蹤在正常、工具降級或模糊指令等不同情境下的任務成功率。
評估完整執行軌跡 :兩個代理即使輸出相同結果,其內部行為可能截然不同。應記錄代理的完整軌跡,包括規劃、子目標、所有工具呼叫、參數、回應、中間推理步驟及最終結果。透過分析軌跡效率、工具呼叫準確性和故障模式分佈,可更全面理解代理表現。
將工具使用視為關鍵信號 :代理在生產環境中的成敗,往往取決於其如何使用API、資料庫或搜尋工具。開發者應為每個評估任務指定預期的工具行為,例如允許或必須使用的工具、每個工具的最大呼叫次數,以及預期的結構。衡量工具選擇的精確度和召回率,以及結構遵循性,可揭示代理是否產生幻覺或過度使用耗時工具。
評分推理品質與效率 :即使答案正確,若推理過程混亂或步驟過多,將導致運算資源浪費。應捕捉推理軌跡並定期評估其健全性,確保推理過程有使用擷取到的證據。此外,追蹤每個成功任務的符記(tokens)使用量、工具呼叫次數和端到端延遲,並設定明確的預算限制(例如「95%的任務在N個符記和M次工具呼叫內完成」),以優化提示、路由或重試策略。
從開發初期建立透明且可自訂的評估機制 :評估應從代理設計階段就融入,而非事後補強。應記錄每一個計畫、工具呼叫和關鍵推理步驟,並附上穩定編號以便重建軌跡。同時,為軌跡貼上標籤(成功/失敗、錯誤類型、人類評分),並支援全域及特定使用情境的衡量指標。這可將評估轉化為日常開發工具,及早發現改進機會或潛在漏洞。
輝達指出,可靠的AI代理系統需將評估重心從靜態模型基準測試,轉向反映代理在真實環境中行為的動態、軌跡感知型指標。旗下的NVIDIA NeMo Agent Toolkit便旨在協助開發者無須大幅重構,即可輕鬆整合評估、優化與可觀察性,以實現評估驅動的開發循環。

圖片來源:網路 報新聞/東京訊「四月是你的謊言音樂會 全國巡演2026製作委員會」宣布,《四月是你的謊言音樂會 全國巡演2026》將於2026年6月起在全國各地舉辦。本公演將透過現場演奏帶領訪客追體驗原作世界觀,除重現劇中經典古典樂名曲外,亦將伴隨名場面與物語魅力一同回顧。本系列自2024年4月首演以來,已在東京、大阪、札幌等地舉辦並獲得眾多好評。【主演陣容與演奏曲目正式曝光】本次巡演特別推出兼具堅實技巧與大眾傳播力的頂尖陣容。 小提琴演奏:由社群總追蹤人數超過70萬人的人氣小提琴家高松亞衣擔綱。 鋼琴演奏:由在國內外大賽中表現優異、音樂性備受好評的嘉屋翔太負責。現場將登場聖桑《序奏與輪旋隨想曲》、克萊斯勒《愛的憂傷》、蕭邦《第一號敘事曲》等核心曲目。 【兩大票價規格與官方資訊】 東京公演:S席(含特典)6,600日圓、A席5,500日圓、學生席4,400日圓。 地方公演:S席(含特典)5,500日圓、A席4,400日圓、學生席3,300日圓。(上述票價皆已含稅) 詳細的公演時程與購票資訊,將全面公布於本次全國巡演的官方特設網站。 Please enable JavaScript to view the comments powered by Disqus.
圖/示意圖 商傳媒|責任編輯/綜合外電報導 Nutanix(NTNX)近日公布 2026 會計年度第三季財報,其營收表現超越公司自身預期,並隨之調升了全年財測展望。Nutanix 股價近期收於 52.07 美元,而其敘事公允價值(narrative fair value)為 54.68 美元,根據分析,這表明該股目前被視為輕度低估。 這項估值主要基於其詳細的成長與利潤假設,並以 8.8% 的折現率進行計算。即使 Nutanix 目前的本益比(P/E,股價是每股盈餘的倍數,數字越高代表市場願意為其獲利支付更高價格)為 50.8 倍,遠高於美國軟體產業的 28.5 倍平均,也高於公允本益比 36.5 倍,但仍低於同業平均的 74.8 倍。 Nutanix 在 AI 驅動和軟體定義產品方面的創新是其主要競爭優勢。該公司持續強化 AI 功能,包括 GPT-in-a-Box 2.0 和 Nutanix Enterprise AI 等產品,並支援外部儲存與整合式容器管理。這些產品創新使其平台在日益重視數據與自動化的環境中脫穎而出,預期將推動更高的毛利率和長期的利潤擴張。 然而,Nutanix 的估值也取決於能否將預訂(bookings)有效地轉化為營收,同時須應對伺服器供應限制,以及來自大型雲端和 IT 競爭對手的價格壓力。 Nutanix 的股價在最新交易日上漲 6.68%,近 30 天累積漲幅達 27.34%。不過,過去一年的總股東報酬率為 -32.10%。從長期來看,其三年總股東報酬率為 70.44%,五年總股東報酬率則為 55.53%。 【提醒您】 投資有賺有賠,本文僅供參考,不構成投資建議
圖:環境部彭啓明部長活動致詞。(圖/環境部提供) 【記者張嘉誠/綜合報導】 為積極響應西元2026年世界環境日「全球氣候行動呼籲」,環境部於5月30日攜手各地方政府,於高雄駁二特區盛大舉辦「氣候行動全國聯合嘉年華」。面對全球極端氣候引發的熱傷害風險,此次活動特別調整至下午3時開場,由政府機關以身作則,具體示範「氣候調適」與提升氣候韌性的應變作為。 圖:彭啓明部長、陳其邁市長及許智傑立法委員現身攤位力推「自備餐盒」。(圖/環境部提供) 環境部彭啓明部長強調,推動氣候調適與減碳工作刻不容緩,因應全球暖化趨勢,賴清德總統已交付務推動「都市林」氣候調適任務,目標正是透過國土綠化達到氣候調適功能。 圖:世界環境日推廣大使ARKis。(圖/環境部提供) 彭部長進一步呼籲,臺灣邁向「2050淨零排放」的成功關鍵實繫於全民的「生活轉型」,光靠政府努力並不夠,更需要全民一起實踐「退燒降溫三大行動」,攜手為地球解套: 自備與共享(減塑行動): 鼓勵日常自備水壺、共享環保袋。部長特別分享臺北建國花市的成功改造經驗(目前已有5成民眾自備環保袋,目標衝到7成),未來也計畫與高雄合作選定一處進行減塑文化改造。 選擇低碳與在地食材: 飲食上多選用低碳、在地、當季的食物,從源頭減少碳足跡並珍惜食物。 優先購買綠色標章產品: 消費時認明環保綠色標章,用購買力實質鼓勵生產綠色產品的廠商。 圖:世界環境日啓動儀式大合影。(圖/環境部提供) 此次嘉年華亦特別頒發「為地球出任務」影片競賽獎項,表揚地方環保機關在第一線推動環境政策的施政創意與卓越成果。在專家專業評選方面,高雄市獲第一名,而屏東縣奪得網路人氣票選第一名。 活動現場設置的 31個各地方政府攤位 充分展現減碳與資源循環的創新實力。各地方機關透過寓教於樂的沉浸式體驗,成功將扎實的環保政策與綠色知識,轉化為大眾皆能輕易實踐的日常減碳行動。 環境部補充表示,為將生硬的氣候變遷政策轉化為視覺化的戲劇語言,此次活動特別攜手「如果兒童劇團」,將環境教育繪本改編為舞臺劇《北風與太陽:地球任務啟動!》進行精彩展演。同時,現場搭配全臺限定的實境解謎遊戲《城市未來式:舊港未解之謎》,以及新生代人氣男團「ARKis」的壓軸演出,成功將氣候行動深度向下扎根至年輕世代與親子族群。 環境部期盼,此次活動不僅是一次豐碩的成果展示,更是深化全臺「淨零綠生活」的全新起點。環境部鄭重呼籲,期盼每個家庭與產業都能將環保意識化為明日的日常行動,與政府攜手公私協力,共同構築臺灣低碳、永續且具氣候韌性的美好未來。