国产成人免费高清_亚洲精品日韩专区silk_亚洲成人av在线电影_一本大道亚洲视频

最新發布> 正文

焦點速看:Claude 4.8炸場!部分能力超過Mythos,支持數百子智能體并行

時間: 2026-05-29 17:03:13 來源: 投資界

Claude最新旗艦Opus 4.8發布。

距離上一版4.7只過了43天。

手快的網友@stevibe已經做出了兩大版本pk演示。


【資料圖】

從測評結果來看,終端工程能力和知識工作上進步較大。

也有人補充了與Mythos已知數據的對比,Opus 4.8在部分能力上甚至超過Mythos。

官方特別強調,Opus 4.8可以長時間執行任務,人類不用經?;貋頇z查它的工作。

多家早期測試企業也給出了反饋。

Cursor的CEO確認Opus 4.8在CursorBench上的表現超越了此前所有Opus模型。

Devin的CEO認為Opus 4.8修復了4.7中被開發者抱怨最多的兩個問題:注釋冗余和工具調用不穩定。

代碼缺陷漏報率降至前代四分之一

公告稱Opus 4.8最顯著的改進是誠實性。

AI的一大問題是會草率下結論,即使證據不足,也會自信地聲稱取得了進展。

但Opus 4.8更有可能標記出其工作中的不確定性,并且不太可能做出未經證實的斷言。

具體到代碼任務上,不報告代碼缺陷的可能性降低到Opus 4.7的1/4。

“不加批判地報告有缺陷的結果”這一行為,在Claude系列中還是首次出現。

在這方面,Opus 4.8的表現甚至超過Mythos。

另外,Opus 4.8發生硬編答案等“過度自信”行為的概率,下降至Opus 4.7的1/10。

不過244頁的System Card中也標記了一個值得持續關注的對齊隱患:

模型在推理文本中出現了越來越多的對評分者的推測傾向。

也就是說,模型可能正在發展出“自己正在被評估”的感知,并據此調整行為。

動態工作流:數百個子智能體并行

與Opus 4.8同日上線的動態工作流(Dynamic Workflows)功能,目前以研究預覽的形式在Claude Code CLI、桌面版和VS Code擴展中提供。

動態工作流的運作方式是:

Claude根據提示詞動態生成一個JavaScript編排腳本,將任務拆解成子任務,分發給數十甚至數百個并行運行的子智能體。

這些子智能體從不同角度處理問題,另一批子智能體負責反駁前者的發現,整個流程反復迭代直到結果收斂,最終合并為一個統一的輸出交給用戶。

所有中間結果存儲在腳本變量中而非對話上下文里,因此主會話始終保持響應狀態,任務規模再大也不會偏離計劃。進度會持續保存,即使中途中斷也能從斷點繼續。

這與此前Claude Code中的子智能體機制有本質區別。

此前的方式是Claude本身逐輪決定下一步做什么,每個中間結果都要回到對話上下文中,占用token。

動態工作流則將編排邏輯移入代碼腳本,Claude的上下文中只保留最終結果。

Anthropic展示的標桿案例是JavaScript運行時Bun從Zig到Rust的移植。

Bun的創始人Jarred Sumner使用動態工作流完成了這項工作:

一個工作流為Zig代碼庫中的每個struct字段映射正確的Rust lifetime,下一個工作流為每個.zig文件編寫行為一致的.rs移植版本,數百個智能體并行工作。

隨后通過修復循環驅動構建和測試套件直到全部通過。移植完成后,一個隔夜工作流處理了不必要的數據拷貝,并為每處修改開出PR供最終審查。

整個過程從首次commit到merge耗時11天,產出約75萬行Rust代碼,99.8%的現有測試套件通過。

該移植目前尚未投入生產環境。不過圍繞這次移植也存在爭議,有開發者指出部分測試被修改以使Rust版本通過,GitHub上也出現了Zig原版中不存在的新錯誤。

Anthropic還提醒,動態工作流的token消耗會明顯高于普通Claude Code會話。

首次觸發工作流時,Claude Code會展示即將運行的內容并要求用戶確認。

用戶可以通過在prompt中使用「workflow」一詞直接啟動,也可以開啟Claude Code的ultracode設置,讓Claude自動判斷何時使用工作流。

最后,Anthropic透露正在開發一款成本更低但能力接近Opus水平的模型。

參考鏈接:[1]https://www.anthropic.com/news/claude-opus-4-8[2]https://claude.com/blog/introducing-dynamic-workflows-in-claude-code[3]https://x.com/stevibe/status/2060055250128847244?s=20

關鍵詞: Claude 量子位智庫 Devin AI 代碼缺陷 動態工作流

責任編輯:QL0009

為你推薦

關于我們聯系我們投稿合作法律聲明廣告投放

版權所有 © 2020 跑酷財經網工信部備案:京ICP備2022018928號-2

所載文章、數據僅供參考,使用前務請仔細閱讀網站聲明。本站不作任何非法律允許范圍內服務!

聯系我們:315 541 185@qq.com

主站蜘蛛池模板: 国产精品久久久91| 日本一区二区久久精品| 国产精品视频自在线| 91精品国产高清久久久久久久久| 欧美一级片中文字幕| 一区二区在线中文字幕电影视频| 国产在线不卡精品| 午夜精品在线观看| www..com日韩| 国产日韩亚洲精品| 精品视频一区在线| 久久精品在线播放| 久久精品久久精品国产大片| 奇米影视亚洲狠狠色 | 日韩一区二区精品视频| 97精品伊人久久久大香线蕉| 欧美激情精品久久久久久| 国产精品久久不能| 久久综合色88| 日韩欧美亚洲v片| 国产精品大片wwwwww| 久久99视频免费| 色婷婷综合成人| av在线播放亚洲| 久久视频精品在线| 国产一区二区在线免费视频v| 国产精品毛片一区视频| 欧美中文字幕精品| 91精品国产网站| 欧美一区二区三区精美影视| 国产精品美女久久久久av福利| 欧美亚洲另类在线| 99色精品视频| 久久美女福利视频| 久久久久久草| 国产精品99久久久久久人| 久久视频精品在线| 亚洲一区二区不卡视频| 国产精品精品视频| 国产日产久久高清欧美一区| 日韩wumaV|