全球雙榜SOTA!明略科技專有大模型 Mano開啟GUI智能操作新時代
2025-09-28
明略科技的專有 GUI 大模型 Mano 在行業公認的 Mind2Web 和 OSWorld 兩大挑戰性基準測試中,均取得了創紀錄的 SOTA 成績。通過在線強化學習和訓練數據自動采集兩大核心創新,Mano 為整個 GUI 智能體領域提供了一套可擴展、可持續進化的新范式。
我們正在把越來越多的時間交給屏幕。有人算過,人一生中耗在手機上的時間接近 9 年;如果你的工作離不開電腦,這個數字只會更高。時間碎片化,注意力也被點擊、勾選、復制粘貼這些瑣碎操作蠶食。
如果,這些操作都能交給 Agent 呢?點開網頁、登錄賬號、抓取數據、填寫表單、提交流程,全程無人值守,你還有理由再手動點鼠標嗎?
這背后的市場熱度,早已撲面而來。無論是剛落幕的 2025 外灘大會,還是財新亞洲愿景論壇,Agent 都是全場最高頻的熱詞,不少觀點認為:
真正有用的 Agent,必須學會使用手機和電腦,像人一樣讀懂并操作?GUI。
畢竟,你不能靠一句簡短的指令就把所有消費記錄從大廠數據庫里提取出來。
也不能僅憑單一指令完成登錄支付寶、微信、淘寶下載賬單,并調用 Excel 進行數據清理,完成對過去一年消費習慣分析的操作。
一個只能給出口頭建議,卻不能替你登錄、獲取數據的助理,價值注定「骨折」。
在這場 GUI Agent 競賽中,中美巨頭紛紛下場,但成功率低下成了繞不過去的硬傷:眼花繚亂的界面、多變的交互邏輯,讓瀏覽器自動化操作,遠比生成一段流暢文字要難得多。
所以,當明略科技帶著擁有雙榜 SOTA(當前最先進)成績的 Mano 出場時,就顯得格外吸睛。這一成績不僅讓 Mano 成為通用 GUI 智能體的新范式,也意味著自動化邊界又被推遠了一大步。
值得一提的是,Mano 僅在一次運行中就取得了 OSWorld-Verified 榜單的 Foundation E2E GUI & Specialized Model 評測中 40.1% 的成功率,非常令人驚喜。
近日,明略科技推出的基于多模態基礎模型的網頁 GUI 智能體 Mano,憑借其強大的性能,在行業內公認的兩大挑戰基準 ——Mind2Web 和 OSWorld 上同時刷新紀錄,取得當前最佳成績(SOTA)。
首先,在網頁端的 Mind2Web 上,Mano 展示出「看得準、做得成」的核心優勢。
Mind2Web 覆蓋 137 個網站、2350+ 真實任務,從填寫表格到訂機票、再到在線購物,應有盡有,旨在考察智能體能否在復雜多變的 DOM 結構里精準找到目標元素,并完成整個操作鏈。
技術報告顯示,Mano 在三個關鍵指標上,均表現不俗。
在元素精度 (Ele.Acc)和步驟成功率(Step SR)上遙遙領先 —— 兩項指標顯著超越了所有 SOTA 的方法。這表明它在準確識別和定位界面元素,以及成功執行多步任務的能力上達到了新高度。
Mano 在操作 F1 (Op.F1) 指標上與此前頂尖模型持平甚至略高,這表明它的核心優勢并非僅僅來自對操作類型的判斷能力,而是能夠真正將復雜任務轉化為成功的操作序列。
更難的挑戰來自桌面端。OSWorld-Verified 涵蓋了 369 個跨應用任務,覆蓋 10 類應用,包含瀏覽器,辦公軟件等多個類型,每一個操作都和真實桌面場景無縫對接,被認為是桌面智能體測評界的「珠峰」。
技術報告顯示,在 OSWorld-Verified 榜單的 Foundation E2E GUI & Specialized Model 評測中,Mano 直接把成功率拉到 41.6±0.7%,超過同表所列的 qwen、GUI-Owl、opencua 等模型。
在 Max Steps=100 的配置下(Mano Runs=2),其均值達到 41.6,標準差僅 ±0.7;而 UI-TARS-7B 為 27.4±2.2,opencua-32b 在 3 次 Runs 下為 34.8±0.8。
Mano 在均值上提升約 7 個百分點,整體任務通過率有顯著提升。
Mano 在 GUI 交互領域首次提出了在線強化學習的訓練范式,并推出訓練數據自動采集的「探索器」,這兩大核心創新為其實現前所未有的圖形界面交互性能,奠定了堅實基礎。
我們先來嘮嘮 Mano 制霸的決勝因素之一 ——?領域首創的在線強化學習。
自 DeepSeek 橫空出世以來,GRPO 已經成為了強化學習黃金范式。這不僅限于大語言模型的范圍內,在多種任務領域的智能體模型的訓練中都已經有了廣泛的應用。
現有的模型訓練大多局限在離線強化學習的范疇,在這種模式下,模型深度依賴于事先收集好的數據集進行訓練。通過離線強化學習,我們能夠充分利用大量歷史數據來訓練智能體,從而提高模型的推理決策能力,這也是 DeepSeek 驗證成功的技術模式。
回到 Mano 的技術框架,其優化流程是一個漸進式的分布策略:
以上兩個階段已經能夠實現一個具有強大推理決策能力,具備高效交互能力的高質量模型了。
但在 GUI 交互智能體領域,任務特性決定了模型任何形式的操作都需要與真實的系統交互環境緊密結合,最終都要應用在實際操作系統的真實環境里。
技術團隊在實際驗證過程中認為,僅通過以上兩個階段的訓練,仍然不足以達到具備足夠靈活性和適應性的要求。
為此,他們分享道,Mano 模型需要「真正的接入操作系統的真實環境里,需要通過不停地與環境交互,在交互過程中采樣到更豐富的真實軌跡來彌補離線訓練樣本的單一性和稀疏性」。
因此,在兩階段訓練的模型基礎上,他們在 GUI 領域里開創性的提出了在線強化學習的策略,構建了 GUI 領域強化學習的新范式。
簡單來說,在線強化學習是強化學習的一種形式。智能體根據當前的狀態選擇一個行動,然后從環境中獲得相應的獎勵以及新的狀態。這些反饋會被用來更新智能體的策略。
在線學習的一個顯著特點是:智能體需要在每個時刻都依賴最新數據進行學習,同時不斷在探索(嘗試新的行動以獲取信息)和利用(基于已有知識采取最優行動)之間尋找平衡。
大家是否還記得當年 OpenAI 開發的用來玩 Dota 2 的 AI 系統 OpenAI Five ?
這個系統的訓練模式就是在真實游戲環境中采取自我對戰的模式進行在線學習,智能體不斷與自己或多個實例對戰,產生新的游戲數據。每場對戰都會生成大量的經驗,最終戰勝職業游戲選手。
這種訓練邏輯與 GUI 交互智能體的訓練邏輯有異曲同工之妙,Mano 也需要在真實的交互環境中進行不斷強化以提高適應性和靈活性。
為此,技術團隊建立了一個模擬環境池,讓模型能夠與真實環境交互,包括瀏覽器環境(BUA)和桌面環境(CUA)。通過模擬環境,模型能夠在「真實交互」中采集更多樣化的環境數據,彌補離線軌跡分布稀疏的問題。
技術團隊自建模擬環境中部署的在線強化學習,同樣基于 GRPO,但使用了更注重實時適應性和動態探索的獎勵機制。
在此過程中,智能體通過在線試驗收集新的交互數據,這些數據會被循環回流到離線訓練階段進行進一步優化,實現持續改進和迭代更新。
最終得到的 Mano 模型在多樣化的 Web GUI 場景中展現出更強的魯棒性。
眾所周知,在線強化學習存在交互時間成本過高和缺乏靈活采樣的缺陷。為了降低成本,明略科技的技術團隊并沒有采用在線交互 + 即時更新的方式,而是采用在線采樣 + 離線過濾的方式:
先收集軌跡,再過濾噪聲數據,可以動態調節任務難度分布,避免過多失敗軌跡導致的學習效率低下問題。
在完整的在線強化學習流程中,Mano 模型與多個并行的 Playwright 實例交互,每個實例對應一個獨立的 GUI 環境。
每一步中,模型會獲取環境狀態與截圖,進行推理生成「思考」與「行動」,并在對應環境中執行該動作。該循環會持續,直到任務完成。
同時,系統會記錄記憶軌跡,并將完整的交互軌跡導出,用于后續的訓練與分析。
消融實驗結果顯示,增加了在線強化學習的步驟后,模型在 OSWorld-Verified 數據集上的平均分數產生了一個顯著的飛躍,相比離線強化學習的模型結果提升了 7.9,達到 41.6。
同時,由 SFT 到離線強化學習,再到在線強化學習的三個階段可以迭代循環,直到在驗證集上的性能提升趨于飽和。于是得到 Mano 最終模型。
要實現高質量的在線強化學習訓練,不僅要求模型具備在真實環境中進行探索和交互的能力,還需要海量的交互軌跡數據作為支撐。Mano 第二大創新正是聚焦于模型數據獲取和軌跡采集。
大模型雖然能理解籠統的指令,但在需要復雜、多步驟操作的目標驅動型任務中,它往往無法獨立地將大目標分解為具體的執行步驟:
你說:「幫我買一瓶礦泉水。」他反而會問:「我需要先打開哪個網站?然后要搜索什么?點擊哪個按鈕?」
這時,開發者必須像教小孩一樣,手把手地告訴模型每一步該怎么做,極大地增加了開發工作量。
因此,研發人員迫切需要為交互任務構建專用的模型和智能體。而在這一過程中,海量的高質量交互軌跡數據是不可或缺的。過去,這類數據往往需要通過人工構建或標注,成本高、耗時長。明略的技術團隊則設計了訓練數據自動采集的方法,從根本上提升了數據收集的效率和準確性。
首先,技術團隊搭建了一個可擴展的虛擬環境集群,用于模擬多種交互場景。針對每個目標應用,無論是網頁 URL 還是桌面軟件模塊,團隊通過大語言模型自動生成目標清單,并對目標進行優先級排序,過濾掉使用頻率極低的功能,為后續探索提供明確的上下文指導。
在元素提取方面,團隊為網頁環境定制了 Chrome 插件「Mano-C」,該插件能夠全面提取網頁中的交互元素,捕捉其空間坐標與語義屬性。
通過系統化的 DOM 樹遍歷,識別出網頁中的可交互元素,并設計了多層級過濾機制,排除視窗外的元素,檢查 CSS 屬性,剔除不可見元素,并過濾掉極小尺寸的隱形追蹤元素。
對于桌面環境,則采用 A11y Tree 解析與 OmniParseV2 協同過濾的方法,確保覆蓋更多交互元素,尤其是那些單一方法可能遺漏的元素。
在數據標注方面,技術團隊利用大語言模型為每個提取的元素生成語義標簽、功能描述及交互類別,形成結構化的語義對齊數據,為后續的訓練提供了有效的監督信號。
為了讓數據采集更具智能性,他們設計了基于 Prompt 的探索模塊,用于智能選擇交互元素,并引入顯式約束,避免路徑循環和冗余分支。
探索過程中,采用深度優先搜索(DFS)策略,最大深度設為 10 層,從而在探索覆蓋率和計算效率之間找到平衡。
每個探索狀態下,系統會截取截圖并保存帶注釋的交互數據。
完成探索后,團隊又設計了一套軌跡評估機制,以篩選出高質量的交互序列。
簡而言之,這個自動化的工作流程如同一次網頁探索。
系統首先會打開不同的網址,識別可點擊或輸入的元素,并通過插件抓取網頁中的交互元素,同時收集該元素的描述及 DOM 信息,并利用大語言模型生成語義對齊數據。
接下來,系統會從這些候選元素中挑選目標,開始逐步探索。整個過程會不斷循環,每一步都會檢查是否已達到最大探索深度,若未達到,則繼續進行探索。
通過這兩個核心創新,團隊實現了數據采集的循環更新。
隨著 2025 年 AI Agent 需求的爆發,明略科技依托自研的大模型和獨有數據資產,推出商業數據分析智能體?DeepMiner。
其核心亮點在于能夠獲取更完整、實時的數據,為數據分析報告和深度研究提供更有力支持。而這一核心優勢背后,正是 Mano 的技術支撐。
目前市面上大多數 AI Agent(如 Manus、GenSpark)獲取數據的方式較為傳統,通常依賴平臺開發 API 或通過 MCP 協議直接抓取數據,因此,數據來源缺乏獨特性和壁壘。
真正的競爭壁壘來自于那些既沒有開放 API,又沒有 MCP 協議的專業網站。一般來說,這些數據只能通過用戶手動登錄賬戶,設置條件后才能獲取。
例如,在亞馬遜后臺,用戶需要手動選擇最近 30 天的數據、輸入關鍵詞、根據流量趨勢進行排序,才能篩選出所需數據。
為了能夠訪問這些其他同類 Agent 無法觸及的數據源,Mano 應運而生,成為差異化競爭中的關鍵角色。
而這一通用 GUI 智能體的 SOTA 表現,源于明略科技多年來在多模態大模型和數據智能領域的積淀。
幾年前,明略科技便開始構建知識圖譜,將「事件」、「時間」、「空間」等要素融入其中,為多模態信息的深度關聯和邏輯推理打下了基礎。
接著,通過自然語言處理和機器學習,明略科技將企業數據轉化為可操作的商業洞察,涵蓋從營銷到運營管理等多個應用場景,推動技術與商業的深度融合。
2024 年,明略科技的超圖多模態大語言模型(HMLLM)和 Video-SME 數據集榮獲 ACM MM 2024 最佳論文提名,并在腦電圖、眼動等非標模態數據處理領域取得顯著突破。2025 年推出的 PRE-MAP 模型進一步推動了高分辨率個性化視覺預測。這些學術突破也為 Mano 在 GUI 智能體領域的出色表現,提供了堅實的技術支撐。
作為平臺的自動化引擎,Mano 通過擬人化交互精準完成各類復雜網頁操作。其核心技術突破在于,通過持續強化學習,Mano 能夠自主適應和探索全新的平臺與業務流程。這種高度適應性使其能夠高效、智能地執行網頁操作與數據采集任務,大幅降低傳統自動化方案在應對業務變更時的適配與維護成本。
未來,明略科技將繼續在數據采集、訓練推理整合、驗證碼處理等領域探索,推動 Mano 在真實應用和端側部署中的進一步優化,為企業的智能化轉型提供強有力的支持。
本文來源于「機器之心」
信息填寫