拉尾盘说明什么-股票app官网公司名称-【东方资本】,股票交易规则t 0代表什么,a股怎样会被st,涨8配资网站

EN

直播回顧 | 不再“紙上談兵”,大模型能力如何轉(zhuǎn)化為實際業(yè)務(wù)價值

2025-05-22

隨著技術(shù)的快速發(fā)展,大模型在各行業(yè)的應(yīng)用潛力日益凸顯,但如何將大模型能力高效轉(zhuǎn)化為實際業(yè)務(wù)價值,仍是企業(yè)面臨的核心挑戰(zhàn)。

近日 InfoQ《極客有約》X AICon 直播欄目特別邀請了 華為云 AI 應(yīng)用首席架構(gòu)師鄭巖 擔(dān)任主持人,和 螞蟻集團高級技術(shù)專家楊浩、明略科技高級技術(shù)總監(jiān)吳昊宇 一起,在 AICon全球人工智能開發(fā)與應(yīng)用大會2025 上海站 即將召開之際,共同探討大模型如何驅(qū)動業(yè)務(wù)提效。

部分精彩觀點如下:

  • 選擇模型時,應(yīng)重點考慮推理還是生成、上下文長度、響應(yīng)性能三個方向。
  • 做 AI 應(yīng)用就像做工廠,雖然做的事情看似高大上,但在實際操作中,還是要在“車間”里與客戶一起,逐步解決一個又一個問題。
  • 理想中的 AI 智能體應(yīng)該類似于生命體,它具備感知、認(rèn)知和行動能力,并能夠在實踐中不斷迭代和反饋。

在 5 月 23-24 日將于上海舉辦的 AICon 全球人工智能開發(fā)與應(yīng)用大會 上,InfoQ 特別設(shè)置了【大模型助力業(yè)務(wù)提效實踐】專題。該專題將圍繞模型選型與優(yōu)化、應(yīng)用場景落地及效果評估等關(guān)鍵環(huán)節(jié),分享行業(yè)領(lǐng)先企業(yè)的實戰(zhàn)經(jīng)驗。

屆時,明略科技高級技術(shù)總監(jiān)吳昊宇將帶來《多模態(tài)大模型驅(qū)動的生成式營銷落地實踐》主題分享,歡迎現(xiàn)場參與~

查看大會日程解鎖更多精彩內(nèi)容:https://aicon.infoq.cn/2025/shanghai/schedule

以下內(nèi)容基于直播速記整理,經(jīng) InfoQ 刪減。

01 場景探索

鄭巖:在探索大模型應(yīng)用場景時,企業(yè)常會遇到“看起來很美但落地難”的需求,各位在實際項目中是如何判斷一個場景是否值得投入的?

吳昊宇: 企業(yè)應(yīng)用 AI 時,需要關(guān)注三個關(guān)鍵點:首先是識別最重要且值得解決的問題;其次是確保有高質(zhì)量的相關(guān)數(shù)據(jù)支撐 AI 應(yīng)用;第三,當(dāng)效率低或解決效果差時,AI 可以作為輔助工具提升效率。

企業(yè)選擇 AI 應(yīng)用場景時,應(yīng)遵循高頻和有價值兩個原則。通過識別最有價值和最頻繁的問題,可以明確解決范圍并合理投入資源,確保短期內(nèi)看到效果。

楊浩: 財務(wù)領(lǐng)域 AI 應(yīng)用可以分為三大類型:一是提升基礎(chǔ)作業(yè)效率,過去在工程化階段很難通過逐行代碼寫清楚審核規(guī)則,而 AI 應(yīng)用后,審核場景的效果顯著提升。二是風(fēng)險防控,我們會根據(jù)不同指標(biāo)建立模型,利用大模型分析并形成 SOP。三是創(chuàng)造增量價值,財務(wù)領(lǐng)域的司庫投資場景可以通過大模型優(yōu)化投資決策。

在落地具體場景時,我們關(guān)注 ROI,評估項目需求、人員和卡的投入,最終判斷效果是否能覆蓋投資成本。

鄭巖:ROI 如果僅僅考慮人力和卡的成本,實際上投入非常大,這樣是否會限制我們的場景選擇呢?

楊浩: 確實會有影響。舉個例子,如果我們投入兩個人和兩張 L20 推理卡,能夠節(jié)省五個財務(wù)人員的工作量,那么我們認(rèn)為投入產(chǎn)出是正向的。

雖然 AI 應(yīng)用還不完全成熟,初期技術(shù)成本往往高于傳統(tǒng)技術(shù),但在財務(wù)領(lǐng)域,我們會根據(jù)三個分類優(yōu)先評估那些高優(yōu)先級的場景。

鄭巖:AI 大模型帶來的價值和長期發(fā)展趨勢確實讓我們無法忽視,但如果我們?nèi)嫱度耄瑖L試用 AI 大模型重做所有場景,成本又會非常高。因此,關(guān)鍵在于找到一個平衡點。

我們內(nèi)部有總結(jié)一個 AI 場景識別的 checklist,稱之為“AI 場景 12 問”,簡單說,就是通常會從三個維度來考量:第一個維度是業(yè)務(wù)價值,也就是商業(yè)價值。我們雖然不會精準(zhǔn)的衡量 ROI 來看這場要不要做,但是這會是一個重要的排序因素。接下來是成熟度,正如吳老師提到的業(yè)務(wù)、數(shù)據(jù)和技術(shù)的準(zhǔn)備情況。

最后,我們還加入了一個維度:是否有持續(xù)運營的能力。因為我們通常認(rèn)為 AI 應(yīng)用上線后,很多時候無法達到普通員工的作業(yè)效果,還需要持續(xù)投入精力去優(yōu)化和迭代。

吳昊宇: 以前在營銷工作中,我們需要大量的數(shù)據(jù)支持,主要是寫報告和查數(shù)據(jù)。過去,我們常用小模型,雖然成本低,但靈活性差。換個新行業(yè)看數(shù)據(jù)時,發(fā)現(xiàn)之前用的實體無法適應(yīng)新需求,這時我們通常會依靠人力投入,進行大量人工標(biāo)注。

然而,使用大模型后,情況就變得簡單了。業(yè)務(wù)人員只需要定義新領(lǐng)域的實體詞,大模型就能自動識別。這樣,社交媒體洞察報告可以根據(jù)行業(yè)定制,客戶需求越細(xì)致,報告就越詳細(xì)。報告的速度和質(zhì)量也得到了顯著提升。

鄭巖:在立項初期,如何向決策層證明大模型投入的性價比?各位有哪些量化的“價值錨點”可以分享?

楊浩: 在財務(wù)領(lǐng)域,很多問題都可以通過 ROI 來衡量。對于效率提升的場景,我們會根據(jù)單量來衡量。例如,若通過輔助工具或無人值守模式提升了效率,我們會計算這種模式能節(jié)省多少人工工時。

財務(wù)高層最關(guān)心的往往是風(fēng)險控制,而非純粹的效率提升。在這種情況下,我們首先衡量場景的風(fēng)險敞口,并評估引入大模型后能夠覆蓋的風(fēng)險防控比例。

對于增量價值的創(chuàng)造部分,比如智能資金調(diào)撥、結(jié)構(gòu)性存款和量化投資等,這些可以直接為公司帶來實際的資金增值,能夠明確計算出為公司賺了多少錢。

此外,像稅務(wù)規(guī)劃等場景,也能通過大模型收集數(shù)據(jù),支持相關(guān)決策。這些場景的收益可以明確衡量,無論是減少風(fēng)險敞口還是提升人效,投入的成本都能得到初步估算。如果 ROI 不為負(fù),通常老板會愿意進行投資。

鄭巖: 風(fēng)險是怎么估算的?

楊浩: 通常通過掃描風(fēng)險敞口,來確定能夠管控的風(fēng)險比例。比如審核流程中,財務(wù)有時會盲目審核一些采購單或報賬單,這些單據(jù)可能存在巨大的風(fēng)險敞口,特別是單筆金額上億的情況下。使用大模型審核時,我們會逐個審核這些環(huán)節(jié),并通過模型管控相應(yīng)的風(fēng)險比例。

鄭巖: 最終還是需要人工核查吧?

楊浩: 當(dāng)大模型的準(zhǔn)確率足夠高并且穩(wěn)定時,某些場景我們已經(jīng)能夠?qū)崿F(xiàn)無人值守。

吳昊宇: 在我們做營銷時,很多時候并不是單純關(guān)注錢的問題。我們對接了許多跨國公司,在這些公司里,中國區(qū)更加注重創(chuàng)新,如果實現(xiàn)了一個好的 AI 應(yīng)用,它可能成為總部認(rèn)可的機會,從而在總部獲得更大的支持。

我們與一家醫(yī)藥客戶合作,幫助他們的內(nèi)部咨詢部門關(guān)注一線人員的滿意度。這個醫(yī)藥公司有大量的業(yè)務(wù)代表需要與醫(yī)生接觸,但因為醫(yī)學(xué)專業(yè)性強,一線代表往往不敢直接提問,特別是擔(dān)心問得多了會被視為不專業(yè)。

因此,我們幫助他們創(chuàng)建了一個基于知識庫的應(yīng)用,除了查詢功能外,還包括內(nèi)部培訓(xùn)和考試。經(jīng)過這一套培訓(xùn)和練習(xí)后,他們的一線代表開始變得更加自信,敢于與醫(yī)生溝通,見面的頻率也有所增加,這對他們的銷售工作幫助巨大。

02 技術(shù)落地

鄭巖:在選擇大模型技術(shù)路線時,不同業(yè)務(wù)場景對模型能力的側(cè)重點可能完全不同,能否結(jié)合各位的實踐,分享一下技術(shù)選型時的優(yōu)先級考量?在改造傳統(tǒng)系統(tǒng)時,各位是選擇“顛覆重構(gòu)”還是“漸進升級”?

楊浩: 不同版本的模型適用于不同的需求。選擇模型時,我們主要考慮三個因素:首先,場景的重點是側(cè)重推理還是生成;其次,上下文的長度,一些場景需要處理長上下文,而其他場景可能只需要短上下文;最后,響應(yīng)性能。在某些場景中,高性能響應(yīng)是必須的,特別是深度思考的模型常常響應(yīng)遲緩,可能需要幾秒到幾分鐘才開始返回結(jié)果,這在某些應(yīng)用中是不可接受的。

另外,關(guān)于選擇顛覆重構(gòu)還是漸進升級,也需根據(jù)具體場景分析。AI 應(yīng)用有三種范式:AI Embedding、AI Copilot 和 AI Agent。其中,前兩者偏向漸進升級,AI Agent 則偏向顛覆重構(gòu)。

尤其是在財務(wù)領(lǐng)域,第三種模式(AI Agent)占據(jù)了大部分比重,可能超過 50%。從 2023 年下半年開始,我們先進行了一些 AI 嵌入的工作,將 AI 能力融入現(xiàn)有財務(wù)體系中。

用戶并未感知到這是 AI 應(yīng)用,只是看到了自動化的流程。比如在界面的右下角彈出一個機器人,用戶可以與其交互進行智能分析、審核等任務(wù)。對于 AI Agent,我們正在定義數(shù)字員工,實際上是在重新構(gòu)建整個財務(wù)系統(tǒng)的入口,這屬于顛覆重構(gòu)的方式。

鄭巖:?財務(wù)體系相對其他業(yè)務(wù)領(lǐng)域,數(shù)字化成熟度是比較高的。如何在如此成熟的數(shù)字化體系中,深度采用 AI 且以超過 50% 的比例進行重構(gòu),如何確保業(yè)務(wù)能夠適應(yīng)這些變化?

楊浩: 財務(wù)領(lǐng)域確實有很多子領(lǐng)域,每個子領(lǐng)域基本上都有后臺管理系統(tǒng)。在新的 AI Agent 模式下,我們設(shè)計了一個 AI Native 的財務(wù)體系,提供統(tǒng)一的入口,后端連接各個子系統(tǒng),并且這些不同領(lǐng)域的 Agent 通過協(xié)議進行通信。

從業(yè)務(wù)角度來看,用戶不再關(guān)注各個系統(tǒng)的功能,而是關(guān)注自己的業(yè)務(wù)需求。我們內(nèi)部提出的口號是“從做功能到做服務(wù)”,舉例來說,報銷和報賬是每個公司都會涉及的內(nèi)容。

傳統(tǒng)的系統(tǒng)需要用戶手動處理提單、審核結(jié)算等復(fù)雜流程,而現(xiàn)在我們的系統(tǒng)只需要用戶簡潔地輸入一句話,比如“我要報一個賬”,并上傳發(fā)票,后續(xù)的提單和審核等流程系統(tǒng)會自動完成,這是對用戶體驗的一次重要變革。

吳昊宇:對于營銷類客戶,他們更加關(guān)注模型是否能夠從多樣化的材料中挖掘出相關(guān)信息。例如,若客戶查詢草莓相關(guān)內(nèi)容,但歷史報告只包含藍莓?dāng)?shù)據(jù),嚴(yán)格排除藍莓內(nèi)容可能導(dǎo)致無法提供有用信息。因此,模型需要具備一定的靈活性。

而對于醫(yī)療客戶,他們對準(zhǔn)確性、引用的精確性以及可解釋性要求非常高。在這種情況下,模型必須嚴(yán)格按照原文回答,不能自行生成或引用其他知識。

在推理模型的應(yīng)用中,處理報告和問答時,我們首先進行發(fā)散性推理,探索用戶可能的需求和相關(guān)問題,但在回答時,必須確保模型的高準(zhǔn)確性,避免過多的推理。這些差異決定了模型選擇時需要根據(jù)客戶需求進行權(quán)衡。

在傳統(tǒng)系統(tǒng)的改造過程中,我們逐步升級。例如,在頁面上添加類似 Copilot 的插件,用戶可以通過該插件直接進行問答或操作。同時,我們將一些傳統(tǒng)的判斷邏輯轉(zhuǎn)交給大模型處理,特別是在涉及關(guān)鍵節(jié)點的場景。

過去,這些節(jié)點依賴代碼規(guī)則或小模型判斷,而現(xiàn)在,大模型可以更好地利用工作流上下文,從而提供更準(zhǔn)確的結(jié)論。雖然界面變化不大,但系統(tǒng)架構(gòu)已發(fā)生顯著變化。

鄭巖:?我們在實際選型和采用各種模型時,還會考慮到一個問題:我們不希望模型的種類過于發(fā)散。技術(shù)團隊若要熟悉多種不同模型的能力、風(fēng)格、架構(gòu)和部署方法,成本會相當(dāng)高。

因此,在進行 POC(概念驗證)或原型驗證時,我們可以適度發(fā)散,但在生產(chǎn)環(huán)境中,我們更傾向于收斂。

鄭巖:從 OpenAI 提供 Agent 架構(gòu)之后,大家都在 Agent 都有創(chuàng)新,在大家各自的領(lǐng)域,Agent 架構(gòu)有哪些創(chuàng)新?或者實踐?

楊浩: 我們自己定義了一套 Agent 體系,并將其分為四個主要部分:感知、決策、執(zhí)行和反饋。

感知分為主動感知和被動感知。被動感知比較簡單,就是用戶通過對話給我們的信息。主動感知則是我們在企業(yè)內(nèi)部應(yīng)用中,通過感知用戶的角色、崗位、權(quán)限和任務(wù)等,來為用戶打標(biāo)簽并進行畫像。

系統(tǒng)會根據(jù)這些信息推薦相關(guān)的任務(wù)和操作。決策部分涉及到存儲和各種決策模型,決策模型幫助 Agent 決定要做什么以及如何做。執(zhí)行部分則涉及各種工具的調(diào)用,比如 API、SQL 等,Agent 通過調(diào)度這些工具來完成任務(wù)。

我們在反饋鏈路方面進行了創(chuàng)新。例如,用戶遇到問題并認(rèn)為大模型的回答有誤,但如果不做調(diào)整,下次用戶再問相同問題時,大模型可能仍無法給出正確答案。

為了解決這一問題,我們構(gòu)建了一個反饋鏈路,讓用戶可以格式化地反饋問題,指出模型在某些場景中的不足之處。

我們將這些反饋信息整理成學(xué)習(xí)知識庫,并通過動態(tài)調(diào)整來優(yōu)化模型性能。通過這一動態(tài)反饋機制,Agent 能夠不斷學(xué)習(xí),逐步提升模型的能力。

鄭巖: 可以舉一些動態(tài)反饋的例子嗎?

楊浩: 在智能審核場景中,我們關(guān)注每個審核點,如核對稅率是否與合同一致。若從合同提取的稅率錯誤,用戶可結(jié)構(gòu)化反饋,系統(tǒng)自動生成反饋內(nèi)容。

收到反饋后,我們會人工確認(rèn)其質(zhì)量,確保數(shù)據(jù)準(zhǔn)確無誤,再將其加入知識庫并定期更新。更新后的模型用于評測歷史數(shù)據(jù),若準(zhǔn)確率提升,經(jīng)過灰度測試后正式投入使用。最終,模型能像人一樣理解并響應(yīng)反饋,達到智能優(yōu)化的效果。

鄭巖: 不僅讓大模型能“聽懂人話”,還能讓用戶參與到大模型的持續(xù)演進過程中,形成一個非常有價值的循環(huán)。

楊浩: 關(guān)鍵在于讓業(yè)務(wù)方真正成為大模型應(yīng)用的“老師”。

鄭巖: 這真的就變成了“AI 訓(xùn)練師”——用戶在不斷地幫助 AI 進行訓(xùn)練。

吳昊宇: 在我們的內(nèi)容營銷系統(tǒng)中,我們傾向于將整個系統(tǒng)看作一個 AI Agent,最終目標(biāo)是實現(xiàn)內(nèi)容生產(chǎn)的全自動化。我們將內(nèi)容營銷 Agent 分為三個部分:感知、認(rèn)知和行動。

感知系統(tǒng)方面,我們需要了解市場上發(fā)生了什么,避免盲目做內(nèi)容。在做營銷之前要“五看”:看趨勢、看行業(yè)、看目標(biāo)人群、看競品和本品。這些信息都依賴于我們的“魔方 Pro”系統(tǒng)來收集,它能從市場中提取相關(guān)信息,作為內(nèi)容創(chuàng)作的基礎(chǔ),決定創(chuàng)作方向。

認(rèn)知系統(tǒng)方面,我們基于明敬超圖多模態(tài)大模型創(chuàng)造了一個通過模擬人的主觀感受來評估內(nèi)容的系統(tǒng)。這個系統(tǒng)能夠從不同年齡層或性別的人群角度出發(fā),通過模型模擬他們的反應(yīng)。通過這種方式,我們可以提前預(yù)判廣告的受眾反應(yīng),避免不必要的內(nèi)容測試,減少成本,提高 ROI。

行動系統(tǒng)則關(guān)注廣告內(nèi)容的自動化生產(chǎn),以及如何與人工合作進行內(nèi)容創(chuàng)作。廣告投放后,需要通過收集數(shù)據(jù)進行迭代反饋,確保廣告的 ROI 持續(xù)提升。如果某個廣告效果好,我們可以加大投入,進行加熱推送,讓其表現(xiàn)更佳。

整體來說,我們的反饋和行動系統(tǒng)核心在于內(nèi)容的迭代和反饋,通過這個過程使?fàn)I銷活動實現(xiàn)自動化。我們的最終目標(biāo)是將整個營銷過程——從感知、認(rèn)知到行動——整合為一個連貫的系統(tǒng)。在不需要太多人力干預(yù)的情況下,廣告商能把內(nèi)容交給 AI Agent,放心地期待回報。

鄭巖:MCP 非常火熱,不同的技術(shù)棧應(yīng)用如何快速支持,以及是否決定支持?

吳昊宇:MCP 在開發(fā)全新 AI 應(yīng)用時非常有用,但對于一些相對成熟、流程固定的產(chǎn)品,MCP 的優(yōu)勢不如傳統(tǒng)技術(shù)明顯,甚至在某些情況下還不夠成熟。

所以,對于舊產(chǎn)品,我們根據(jù)現(xiàn)有情況進行測試和選擇;而對于新產(chǎn)品,我們更多地進行適配。之前,我們調(diào)用內(nèi)部工具時通常使用函數(shù)調(diào)用的方式,將所有內(nèi)容寫成一個非常長的 prompt,交給大模型來調(diào)度。現(xiàn)在,我們搭建了 MCP Server,各團隊接入時操作變得更加簡便。

盡管如此,在新的 AI 應(yīng)用中,我們也發(fā)現(xiàn) MCP 的變動非常大。因此,目前我們還是在有限制地使用 MCP,并且希望 MCP 協(xié)議能夠盡快成熟,以便我們可以更加放心地使用它。

楊浩: 螞蟻內(nèi)部 MCP 的應(yīng)用比較激進。舉個例子,像支付寶的支付 API,現(xiàn)在可以通過 MCP 的方式結(jié)合,直接在 Agent 中完成支付操作,這在支付領(lǐng)域的應(yīng)用非常前衛(wèi)。我們在 AI 應(yīng)用進程中,作為客戶端去調(diào)用螞蟻內(nèi)部的各種服務(wù),這部分使用較多。

另外,針對一些財務(wù)領(lǐng)域的老舊系統(tǒng),很多是基于 Java 架構(gòu)的,我們在這些小眾場景中嘗試將 MCP 應(yīng)用進行試點。為了支持 MCP,我們會在一些小眾場景中,通過 Server list 等模塊來支持 MCP 的應(yīng)用。所以,作為消費者,我們更多的是調(diào)用螞蟻內(nèi)部的 MCP 服務(wù)器。

前兩年大家專注于模型的研發(fā)和提升,而最近,MCP 開始引起關(guān)注。可以看出,大家已經(jīng)從單純的卷模型轉(zhuǎn)向卷應(yīng)用。MCP 作為一個標(biāo)準(zhǔn)化的通信協(xié)議,解決了通信協(xié)議這一層的工程化問題,它不是模型層的創(chuàng)新。

鄭巖:從實驗室效果到生產(chǎn)環(huán)境穩(wěn)定表現(xiàn),各位是如何實現(xiàn)的?能否揭秘關(guān)鍵評測環(huán)節(jié)的設(shè)計思考?

吳昊宇:POC 階段大家認(rèn)為一切順利,但只有真正進入生產(chǎn)并面向客戶時,才發(fā)現(xiàn)實際上工作才剛剛開始。面對不確定性系統(tǒng),最重要的就是多測試。測試不僅是覆蓋多個場景、領(lǐng)域和行業(yè),還要反復(fù)進行,而不是一次性測試完就結(jié)束。

舉個例子,在與客戶一起上線知識庫系統(tǒng)時,需要不斷測試其材料,客戶提了意見后,我們要去驗證解決方案。有時甚至需要人工與客戶一起整理資料,因為客戶提供的資料質(zhì)量可能很差,我們需要與客戶合作,提升資料質(zhì)量,從而提高最終的問答質(zhì)量。

當(dāng)然,客戶會有基本的預(yù)期,期望在經(jīng)過一定的測試和優(yōu)化后,達到預(yù)定效果。你不可能一直修改下去,因此要設(shè)定好標(biāo)準(zhǔn),并與客戶不斷磨合。做 AI 應(yīng)用就像做工廠,雖然做的事情看似高大上,但在實際操作中,還是要在“車間”里與客戶一起,逐步解決一個又一個問題。

鄭巖: 在交付給客戶時,您是否會和客戶約定一個準(zhǔn)確率的承諾指標(biāo),或者其他類似的標(biāo)準(zhǔn)?

吳昊宇: 準(zhǔn)確率的承諾指標(biāo)通常建立在數(shù)據(jù)集基礎(chǔ)上。客戶會提供他們?nèi)粘柎鹬谐R姷膯栴}和問題類型,我們會根據(jù)這些問題,進行優(yōu)化,力爭解決 90% 的日常問題。達到了這個目標(biāo)后,就可以交付了。

鄭巖: 像 AI 大模型這種技術(shù)我們無法做到“零 BUG”,這意味著可靠性評估最終還是要依賴評測集。但設(shè)計評測集的方式會影響指標(biāo)的表現(xiàn),所以,業(yè)界的各種評測集也在不斷迭代和優(yōu)化。

吳昊宇: 客戶關(guān)注的不是你給出的評測指標(biāo),而是從他們?nèi)粘?yīng)用或者業(yè)務(wù)價值出發(fā)。因此,每個客戶的評測集都可能不同,包括文檔范圍、內(nèi)容,甚至他們想問的問題類型都有差異。所以,評測集的設(shè)計和應(yīng)用確實是因客戶而異的。

楊浩: 在做模型時,大家常聽到“數(shù)據(jù)決定效果”,這條規(guī)則仍然適用于確保應(yīng)用的穩(wěn)定性。在 POC 階段,效果可能很好,但在線上面對更多不可控因素時,問題就暴露出來了,本質(zhì)上是因為數(shù)據(jù)集不夠全面。

那么,如何解決?在實踐中,首先,我們會根據(jù)場景設(shè)置詳細(xì)的指標(biāo)體系。例如,在審核場景中,我們會針對不同的審核要素、審核點和審核單據(jù)等維度,設(shè)計精確度、召回率、準(zhǔn)確率等指標(biāo)。

第二,在上線過程中,我們采取了兩種模式。最初,我們并沒有完全用 AI 替代人工,而是將其作為輔助審核,最終決策依賴人工。在這個階段,我們與業(yè)務(wù)方密切合作,每周分析所有錯誤案例,持續(xù)優(yōu)化模型。

上線初期,審核場景的準(zhǔn)確率僅為 20%,幾乎無法使用。經(jīng)過三個月的調(diào)優(yōu),準(zhǔn)確率提高到 90% 以上,在審核要點維度上達到了四個 9 的準(zhǔn)確率。

財務(wù)領(lǐng)域?qū)?zhǔn)確性要求極高,因此,我們首先采用輔助審核模式,不斷對齊和調(diào)整,確保準(zhǔn)確性。當(dāng)某個場景的準(zhǔn)確率足夠高時,比如單一類目下審核的準(zhǔn)確率在三個月內(nèi)持續(xù)保持 100%,我們才會將該場景轉(zhuǎn)為無人值守,AI 自動替代人工審核。但這并不意味著人完全不參與。

我們設(shè)有后續(xù)檢查流程,定期抽檢 AI 審核的單據(jù)。如果 AI 審核錯誤,系統(tǒng)會回退到輔助模式。這種流程提供了容錯空間,也允許我們逐步過渡到完全無人值守的模式。

鄭巖: 從 20% 到 90% 準(zhǔn)確率的提升過程中,最有效的措施是什么?

楊浩: 首先,我們設(shè)計了非常詳細(xì)的指標(biāo)體系,通過這些指標(biāo),我們可以反推每個案例的問題所在。針對這些問題,我們與業(yè)務(wù)方一起逐一對齊。我們將人工經(jīng)驗注入到模型應(yīng)用中,這是一個非常復(fù)雜的過程。

鄭巖: 您是通過 Prompt 工程還是通過訓(xùn)練將人工經(jīng)驗對齊到模型中?

楊浩: 我們先通過工程化的方式將場景做到一定程度,然后再利用高質(zhì)量的數(shù)據(jù)集進行訓(xùn)練,最終將這些經(jīng)驗融入到模型中。

觀眾:怎么看待 A to A?

楊浩:MCP 解決的是人與技能之間的問題,而 A to A 則是解決人與人之間的問題。在財務(wù)領(lǐng)域會涉及一些場景,比如在接入新的業(yè)務(wù)時,需要評估如何進行核算、稅率是多少、是否為關(guān)聯(lián)交易等,這些場景通常需要不同領(lǐng)域的 Agent 之間進行溝通和反復(fù)協(xié)作,但目前我們還沒有通過 A To A 實現(xiàn) Agent 間的直接溝通,更多的還是在使用 MCP。

吳昊宇:A to A 其實是多 Agent 之間相互溝通的方式,這種方式會帶來更多的不確定性。不過,我相信當(dāng) Agent 系統(tǒng)足夠豐富或復(fù)雜時,Agent 之間如何互動將會是行業(yè)未來的研究重點。

但現(xiàn)在,我們的首要任務(wù)是先確保單一 Agent 的功能完善,確保它能夠充分發(fā)揮自己的技能,再考慮如何實現(xiàn) A to A 的交互。

觀眾:幻覺問題如何解決?

吳昊宇: 在做知識庫的過程中,我們發(fā)現(xiàn)幻覺問題很多時候是因為大模型在自由發(fā)揮。解決這個問題的方法就是不斷調(diào)整 Prompt,確保大模型按規(guī)定執(zhí)行。比如,如果你發(fā)現(xiàn)它常常舉一些不存在的例子,就需要在 Prompt 中明確禁止它舉例,只允許引用原文。另一個常見問題是某些模型喜歡合并同類項,有時合并錯誤。在這種情況下,你需要提示模型不要合并同類項,而是直接按原文回答。

鄭巖: 企業(yè)內(nèi)部的很多“黑話”和術(shù)語,是導(dǎo)致幻覺問題的一個常見原因。比如說“膠片”,很多人都不理解這個是什么意思,而大模型更理解不了,其實是指 PPT。

我們所處的行業(yè)技術(shù)性較強,縮寫使用頻繁,很多時候我們需要幫助大模型理解這些縮寫和術(shù)語,來消解它們的歧義。整體來說,隨著技術(shù)的進步,大模型的幻覺問題從指標(biāo)上來看已經(jīng)越來越少了。

觀眾:提示詞和模型微調(diào)是否能達到四個 9 的準(zhǔn)確率?

楊浩: 提示詞與提示詞之間有很大的差異,編寫一個好的提示詞并不簡單。我們針對特定任務(wù)流程編寫了一套非常嚴(yán)格的專家框架,類似于 SOP。

在執(zhí)行任務(wù)時,模型需要按照我們的要求一步步執(zhí)行,而且每一步之間可能還存在依賴關(guān)系。因此,準(zhǔn)確率的評估需要根據(jù)不同的場景來進行,不能一概而論。

未來展望

鄭巖:現(xiàn)在優(yōu)秀的 AI 大模型層出不窮,企業(yè) AI 應(yīng)用如何應(yīng)對?當(dāng)大家都在談 AI Native 時,各位心中理想的“智能體”應(yīng)該具備哪些特質(zhì)?當(dāng)前距離這個目標(biāo)還有多遠?

吳昊宇: 理想中的 AI 智能體應(yīng)該類似于生命體,它具備感知、認(rèn)知和行動能力,并能夠在實踐中不斷迭代和反饋。

此外,智能體應(yīng)該具備學(xué)習(xí)能力。現(xiàn)在我們的模型進化依賴大量算力進行訓(xùn)練,但生命體的學(xué)習(xí)速度遠快于此。未來理想的智能體應(yīng)該能夠通過少量樣本或某種學(xué)習(xí)方式快速進化,而不是像現(xiàn)在這樣從零開始重新訓(xùn)練。

楊浩: 企業(yè)應(yīng)對大模型發(fā)展的方式可從模型和應(yīng)用兩個視角探討。底層大模型訓(xùn)練方面,企業(yè)需快速掌握模型架構(gòu)、訓(xùn)練方法和優(yōu)化算法,特別是獎勵函數(shù)設(shè)計,關(guān)注技術(shù)深度。

應(yīng)用層面,核心是快速接入、評估、部署新模型,并利用其特性。替換底層模型時,必須確保新模型準(zhǔn)確率優(yōu)于現(xiàn)有模型,否則會影響業(yè)務(wù)。

雖然理想的智能體可自我演化,但現(xiàn)實中模型的智能是有限的。評估智能體時,應(yīng)關(guān)注設(shè)計、數(shù)據(jù)、領(lǐng)域知識和動態(tài)性。AI Native 應(yīng)用設(shè)計不同于傳統(tǒng) GOI,需設(shè)計合適的卡片、工作流程和圖譜,復(fù)雜任務(wù)執(zhí)行圖與傳統(tǒng)設(shè)計有很大不同。

企業(yè)要深入了解和掌握內(nèi)部數(shù)據(jù),確保模型能夠理解和處理數(shù)據(jù)。領(lǐng)域知識對專家系統(tǒng)至關(guān)重要,尤其是在財務(wù)領(lǐng)域,了解會計、稅法等知識。模型應(yīng)具備動態(tài)性,根據(jù)人類反饋自我學(xué)習(xí)。

鄭巖: 大模型發(fā)展確實非常非常快,配得上“日新月異”,因此在變化背后,我們就更需要抓住大模型的發(fā)展過程哪些是不變的。我之前簡單總結(jié)過,稱為“五更”,分別是:更強、更便宜、更快、更長(的上下文)和更多模態(tài),這些趨勢基本上在最近三年一直保持著。

從 AI 工程和應(yīng)用的角度來看,我們要盡可能避開這些大模型的主航道,不要在大模型快速發(fā)展的過程中“繡花”。畢竟,升級一個版本后,可能會發(fā)現(xiàn)你費盡心力改進的幾個百分點,隨著更強的基模型發(fā)布,直接就可以帶來幾十個點的增益,之前的投入就白費了。

另外,我認(rèn)為有一個問題很多同行沒有被重視,就是評測。很多人認(rèn)為評測很基礎(chǔ)、低級,認(rèn)為做大量的評測用例好像沒什么意義。但實際上,評測是 AI 能夠持續(xù)落地的關(guān)鍵。

如果測試集足夠好,它就能夠足夠好地還原業(yè)務(wù)本質(zhì)。如果評測工程做的足夠好,就能夠以更快的速度迭代 AI 應(yīng)用。在這個基礎(chǔ)上,再去優(yōu)化 AI,才能有的放矢。如果評測的方向錯了或偏了,那很多努力就會浪費。

鄭巖:在組織能力建設(shè)方面,各位觀察到哪些新型崗位正在崛起?傳統(tǒng)團隊需要補充哪些“超能力”?

楊浩: 第一個崗位是“企業(yè)知識管理師”,AI 應(yīng)用依然遵循“有多少數(shù)據(jù)就有多少智能”的原則。因此,企業(yè)內(nèi)部的應(yīng)用需要有高質(zhì)量的數(shù)據(jù),知識越豐富,數(shù)字員工才有可能變得真正智能。

另外,很多互聯(lián)網(wǎng)公司實際上沒有完善的知識庫,尤其是在業(yè)務(wù)快速發(fā)展的情況下,知識庫往往是后置的。

接著,傳統(tǒng)團隊需要補充哪些超能力呢?比如我們這樣的工程型團隊,可能涉及的角色包括前端工程師、后端工程師、算法工程師、數(shù)據(jù)工程師、質(zhì)量工程師等。前端工程師以前主要做一些傳統(tǒng)的 GUI 應(yīng)用,比如有堆疊的導(dǎo)航欄和輸入框。

但在 AI 浪潮下,前端技術(shù)架構(gòu)需要進行升級,不能再依賴傳統(tǒng)的框架。后端工程師過去主要以 Java 為代表的技術(shù)棧為主,使用分布式系統(tǒng)的架構(gòu)。而現(xiàn)在,AI 應(yīng)用更多依賴 Python 技術(shù)棧,框架可能會轉(zhuǎn)向使用 LangChain 等新的工具。算法工程師以前做的多是機器學(xué)習(xí)、深度學(xué)習(xí)的小模型,而現(xiàn)在則是大模型,尤其是 transformer 模型,訓(xùn)練方法完全不同。

數(shù)據(jù)工程師過去可能更多使用 SQL 來處理數(shù)據(jù),現(xiàn)在則需要做邏輯建模、指標(biāo)工程,構(gòu)建符合自然語言交互的數(shù)據(jù)集市。質(zhì)量工程師過去測試主要關(guān)注功能驗證,而現(xiàn)在的核心任務(wù)是構(gòu)建評測集,提升場景中的準(zhǔn)確率、召回率和精確率等指標(biāo)。核心是要加強這些技能的補充。

吳昊宇: 首先,大家需要理解 AI 能夠做什么,不能做什么,這個是通過不斷使用 AI 來摸索和理解的過程。例如,寫代碼的同事需要知道如何通過 AI 代碼編輯器生成代碼,并理解 AI 寫出來的代碼能滿足什么樣的需求。他們需要與 AI 編輯器不斷交互,摸索出最適合的工作流程。

第二點,AI 在日常工作中的作用。比如我們團隊的成員現(xiàn)在基本上都用 AI 來寫 PPT,這種方式在 PPT 制作上已經(jīng)發(fā)生了巨大的變化。甚至在寫產(chǎn)品文檔時,AI 也在幫助我們完成這些任務(wù)。

最后,就是對于 AI Native 產(chǎn)品的理解能力。如何將這些充滿不確定性的內(nèi)容展示給客戶,使其看起來具有確定性。這不僅是產(chǎn)品設(shè)計的問題,也需要研發(fā)團隊的同事去思考:如何確保產(chǎn)出的內(nèi)容能夠最大程度地控制不確定性,并在此基礎(chǔ)上提供一個可交付的效果?這也是我們在工作中不斷摸索和積累出的能力。

活動推薦|

AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯(lián)動,全覽 AI 技術(shù)前沿和行業(yè)落地。大會聚焦技術(shù)與應(yīng)用深度融合,匯聚 AI Agent、多模態(tài)、場景應(yīng)用、大模型架構(gòu)創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設(shè)計和出海策略等話題。即刻掃碼購票,一同探索 AI 應(yīng)用邊界!

直播回顧 | 不再“紙上談兵”,大模型能力如何轉(zhuǎn)化為實際業(yè)務(wù)價值

信息填寫

*手機號碼:

請選協(xié)議