拉尾盘说明什么-股票app官网公司名称-【东方资本】,股票交易规则t 0代表什么,a股怎样会被st,涨8配资网站

EN

明略科技吳明輝:通用Benchmark就像學科考試,每個領域要有自己的評估體系

2025-09-22

9月16日,2025騰訊全球數(shù)字生態(tài)大會盛大啟幕。本屆大會以“智·向遠大”為主題,聚焦全球科技、產(chǎn)業(yè)發(fā)展新趨勢,探討如何以自主創(chuàng)新技術,助力千行百業(yè)深挖智能化、國際化新機遇,以高效數(shù)字化推動產(chǎn)業(yè)升級與可持續(xù)發(fā)展。

作為企業(yè)級大模型與智能體賽道的領先者,明略科技創(chuàng)始人、CEO兼CTO吳明輝受邀出席“互聯(lián)網(wǎng)AI應用”專場,發(fā)表《多模態(tài)大模型在營銷場景的落地實踐》主題演講,分享明略科技AI前沿成果與落地實踐。

以下為演講全文:

明略科技吳明輝:通用Benchmark就像學科考試,每個領域要有自己的評估體系
明略科技創(chuàng)始人、CEO兼CTO  吳明輝

各位現(xiàn)場的朋友們,大家好!

想必大家對明略并不陌生,過去我們在大數(shù)據(jù)領域深耕多年,與騰訊等企業(yè)也有著緊密的合作。近幾年,我們開始聚焦企業(yè)級大模型與智能體,而我本人碩博階段的研究方向也是 AI 領域,所以今天很高興能和大家分享我們明略在 AI 賽道上的探索。

在分享具體工作前,我想先和大家探討一個關鍵話題 ——benchmark。我認為,未來無論是 AI 企業(yè),還是各個細分行業(yè)的企業(yè),都必須重視 benchmark,但我們關注的不應是通用基準測試,真正有價值的是針對具體細分場景的 benchmark。如果一家企業(yè)連自己獨有的 benchmark 都沒有,坦白說,不僅未來可能在科技行業(yè)中被淘汰,甚至都無法稱之為一家真正的科技公司。

我讀碩士時主攻計算機視覺(CV),研究方向包括指紋掌紋識別、文檔識別。前陣子我偶然發(fā)現(xiàn),我家小朋友在中學 AI 課程上做的項目,竟然已經(jīng)能完成我當年碩士階段的研究工作。這也讓我意識到,如今從事 IT 和技術領域的我們,面臨著巨大的壓力。普通代碼的價值正在大幅降低,無論是基礎類代碼,還是我們之前討論的各類業(yè)務代碼,AI 都能高效完成。那么,我們真正的核心競爭力在哪里?我認為,最重要的是要有屬于自己的獨特技術體系和差異化優(yōu)勢。

2024年,我?guī)ьI團隊在澳大利亞墨爾本參加全球頂會ACMMM,當時大會首場主題演講的嘉賓是香港科技大學的一位教授,他在總結智能體未來發(fā)展趨勢時提到,無論是智能體還是 AI 模型,處理的任務都可以分為兩類:客觀感知(objective perception)和主觀感知(subjective perception)。

什么是 “主觀”,什么是 “客觀”?這背后涉及一個哲學問題。從 benchmark 的角度出發(fā),我們可以結合實際業(yè)務場景來分析。我們明略為企業(yè)客戶做廣告輿情分析,而輿情分析的核心環(huán)節(jié)之一就是情感分析 —— 判斷一篇文章、一個視頻中傳遞的情感是正面還是負面。過去,很多全球人工智能峰會都會舉辦情感分析競賽。表面上看,情感分析是典型的 “主觀任務”,但后來我們發(fā)現(xiàn),大部分情感分析競賽的 benchmark 設計,存在明顯問題:雖然是主觀任務,卻采用了客觀的評估方式。這類 benchmark 通常是讓標注人員判斷每個內容的情感傾向(正面 / 負面),之后讓 AI 模型的分析結果與人工標注結果進行比對,最終得出一個評測指標,并將其稱之為 “主觀分數(shù)”。

然而,從哲學層面講,“主觀” 的核心在于,不同人對同一件事可能持有不同觀點。如果所有人都遵循統(tǒng)一標準,那本質上就是 “客觀” 評估。因此,當時市場上并不存在真正意義上的 “主觀情感分析 benchmark”,所有情感分析評測本質上都是客觀評估 —— 因為都是基于統(tǒng)一的 “標準答案”。

斯坦福大學李飛飛教授曾經(jīng)提到,無論 AI 模型經(jīng)過多少輪訓練,目前仍無法像人類一樣,具備真正意義上的主觀情感理解能力。

如何評估“主觀” ,這確實是一個值得深入探討的問題。當我們在 ACMMM 2024 分享論文時,充分表明了決心:我們要構建一個新的 benchmark。

明略科技吳明輝:通用Benchmark就像學科考試,每個領域要有自己的評估體系
明略科技研究成果在ACMMM2024會議現(xiàn)場榮獲最佳論文提名獎

我們?yōu)槭裁匆ňψ鲞@件事情?核心原因是我們想解決廣告營銷行業(yè)的實際痛點 —— 廣告內容測試。大家可以回想一下,我們每天在視頻號、抖音等平臺會看到大量廣告,既有圖文形式,也有視頻形式。對于廣告客戶來說,投放一支廣告的成本極高。除了拍攝廣告片需要投入大量資金,后續(xù)在各大媒體平臺購買流量的費用更是遠超拍攝成本。因此,在廣告正式投放前,客戶必須先測試廣告片的效果。判斷廣告是否能吸引潛在消費者、是否能打動目標人群。

過去,廣告測試的方法非常傳統(tǒng),我們會把消費者請到實驗室觀看廣告,之后讓他們填寫問卷,根據(jù)問卷結果決定是否修改廣告或直接投放。后來,測試方法升級為消費者佩戴可穿戴設備,我們通過捕捉腦電、眼動等信號,分析消費者觀看視頻廣告時的情感變化。在這一過程中,我們積累了大量廣告片的測試信號數(shù)據(jù),而這些信號正是 “主觀性” 的最佳體現(xiàn)。因為每個人的信號都不同,完全不存在統(tǒng)一標準。

大模型崛起后,通過把這些腦電、眼動信號與基礎大模型相結合,我們訓練出一個多模態(tài)的專業(yè)領域專家模型(specialize model)。在模型訓練過程中,我們采用了一種特殊的網(wǎng)絡結構 —— 超圖(hypergraph),這種結構與傳統(tǒng)圖論中的圖形結構不同,它能高效存儲廣告播放過程中各個視頻片段之間的相似度,最終通過超圖清晰地呈現(xiàn)出視頻的故事線和情節(jié)結構。通過超圖進行訓練,不僅效果好,而且訓練與計算成本遠低于 Transformer。這項超圖多模態(tài)大模型研究成果最終獲得了ACMMM2024最佳論文提名。

明略科技吳明輝:通用Benchmark就像學科考試,每個領域要有自己的評估體系

目前,基于我們自研的超圖多模態(tài)大模型的產(chǎn)品——全球廣告創(chuàng)意優(yōu)化與測試平臺 AdEff 已經(jīng)正式上線。這是一款面向全球市場的 SaaS 產(chǎn)品,核心功能是可以測試同一支廣告片在不同人群中產(chǎn)生的情感反應差異,這對出海企業(yè)意義重大。

明略科技吳明輝:通用Benchmark就像學科考試,每個領域要有自己的評估體系

現(xiàn)在很多中國品牌都在拓展海外市場,但不同國家、不同文化背景的消費者,對廣告內容的理解和接受度完全不同。在成本上,過去,在一個市場測試一支廣告片的成本大概需要 1 萬美元,現(xiàn)在,大模型將測試成本大幅壓縮。對企業(yè)來說,成本降低意味著他們可以進行更多的嘗試?,F(xiàn)在很多客戶的廣告片已經(jīng)不是由廣告公司拍攝,而是用 AI 生成,生成后通過我們的產(chǎn)品快速測試,就能避免因廣告效果不佳導致的流量費用浪費。

更有意思的是,當企業(yè)測試完廣告片后,還能與大模型進行交互。比如,在廣告播放的第 3 秒到第 5 秒,消費者為什么會感到興奮?大模型互動的邏輯其實正是動態(tài)推理,它可以用自然語言解釋信號升高的原因,分析對應用戶群體的想法。如果某個片段的廣告效果不好,大模型還能站在廣告拍攝專家的視角,給出具體的優(yōu)化建議,這對客戶的吸引力很大。因為過去邀請消費者到實驗室測試廣告,測試結束后消費者就離開了。當廣告主后續(xù)想深入了解 “當時消費者為什么會興奮” 時,已經(jīng)無法再聯(lián)系到受訪者。但現(xiàn)在,客戶隨時能與模型交互,挖掘背后的深層原因。

我們最近推出的另一款智能體 ——妙啊,聚焦爆款投流素材內容生成場景。當前短視頻營銷競爭激烈,很多企業(yè)過去一年才發(fā)布幾十個廣告,現(xiàn)在一天就要上線幾百個廣告,否則很難在社媒平臺獲得足夠流量。然而,很多企業(yè)用大模型制作廣告,但最大的痛點是不知道該寫什么 prompt,不知道如何設計劇情腳本。我們的“妙啊”可以幫助大家解決這個問題。

了解「妙啊」???? http://m.qududu.org/news/6128/

通過超圖多模態(tài)大模型,先從全網(wǎng)搜集海量廣告素材,再通過模型拆解素材中的 “爆款片段”,之后將優(yōu)質片段輸入到 “故事腳本生成模型” 中。因為我們已經(jīng)預先解析了真正吸引消費者的內容素材,提煉出有效的腳本邏輯,所以真正挖掘出了消費者感興趣的內容,同時縮短了 “廣告創(chuàng)意” 到 “成片投放” 的周期。

總的來說,我認為,一方面,垂直領域有大量未被挖掘的AI應用場景,未來模型層必然是 “百家爭鳴” 的格局,絕非只有基礎模型公司。每個領域的模型都應該具備獨特性,關鍵在于要有自己“獨特的 benchmark”。對企業(yè)來說,通用 benchmark 就像基礎學科考試,判斷模型是否具備實戰(zhàn)能力,看的是每個行業(yè)獨有的評估體系。

另一方面,AI 的優(yōu)化不應僅局限于模型層面,未來還將延伸到智能體,甚至多智能體層面。多個智能體組成混合智能體,進行互相博弈,最終形成端到端的優(yōu)化。

我們今年的重點工作之一是將模型推向全球市場。聚焦15個重點海外市場,深化模型訓練,將企業(yè)客戶從中國出海企業(yè)拓展至海外市場的本土企業(yè)。同時,我們將推動構建一個覆蓋全球各個國家與地區(qū)的廣告素材庫,并與當?shù)貜V告學院、廣告評審專家合作,將專業(yè)反饋通過 RLHF(基于人類反饋的強化學習)的方式融入到模型訓練中。

目前,無論是做品牌廣告測試,還是效果廣告的內容生成,我們都歡迎大家體驗我們明略的產(chǎn)品,我們也將通過持續(xù)的技術創(chuàng)新,幫助企業(yè)創(chuàng)造更大價值。

謝謝大家!

信息填寫

*手機號碼:

請選協(xié)議