全国十大线上配资平台有哪些,股票怎么开通交易权限,中航资本股票是做什么的

首頁干貨文章明略科技吳明輝：通用Benchmark就像學科考試，每個領域要有自己的評估體系

明略科技吳明輝：通用Benchmark就像學科考試，每個領域要有自己的評估體系

2025-09-22

9月16日，2025騰訊全球數(shù)字生態(tài)大會盛大啟幕。本屆大會以“智·向遠大”為主題，聚焦全球科技、產(chǎn)業(yè)發(fā)展新趨勢，探討如何以自主創(chuàng)新技術，助力千行百業(yè)深挖智能化、國際化新機遇，以高效數(shù)字化推動產(chǎn)業(yè)升級與可持續(xù)發(fā)展。

作為企業(yè)級大模型與智能體賽道的領先者，明略科技創(chuàng)始人、CEO兼CTO吳明輝受邀出席“互聯(lián)網(wǎng)AI應用”專場，發(fā)表《多模態(tài)大模型在營銷場景的落地實踐》主題演講，分享明略科技AI前沿成果與落地實踐。

以下為演講全文：

明略科技吳明輝：通用Benchmark就像學科考試，每個領域要有自己的評估體系 — 明略科技創(chuàng)始人、CEO兼CTO 吳明輝

各位現(xiàn)場的朋友們，大家好！

想必大家對明略并不陌生，過去我們在大數(shù)據(jù)領域深耕多年，與騰訊等企業(yè)也有著緊密的合作。近幾年，我們開始聚焦企業(yè)級大模型與智能體，而我本人碩博階段的研究方向也是 AI 領域，所以今天很高興能和大家分享我們明略在 AI 賽道上的探索。

在分享具體工作前，我想先和大家探討一個關鍵話題 ——benchmark。我認為，未來無論是 AI 企業(yè)，還是各個細分行業(yè)的企業(yè)，都必須重視 benchmark，但我們關注的不應是通用基準測試，真正有價值的是針對具體細分場景的 benchmark。如果一家企業(yè)連自己獨有的 benchmark 都沒有，坦白說，不僅未來可能在科技行業(yè)中被淘汰，甚至都無法稱之為一家真正的科技公司。

我讀碩士時主攻計算機視覺（CV），研究方向包括指紋掌紋識別、文檔識別。前陣子我偶然發(fā)現(xiàn)，我家小朋友在中學 AI 課程上做的項目，竟然已經(jīng)能完成我當年碩士階段的研究工作。這也讓我意識到，如今從事 IT 和技術領域的我們，面臨著巨大的壓力。普通代碼的價值正在大幅降低，無論是基礎類代碼，還是我們之前討論的各類業(yè)務代碼，AI 都能高效完成。那么，我們真正的核心競爭力在哪里？我認為，最重要的是要有屬于自己的獨特技術體系和差異化優(yōu)勢。

2024年，我?guī)ьI團隊在澳大利亞墨爾本參加全球頂會ACMMM，當時大會首場主題演講的嘉賓是香港科技大學的一位教授，他在總結智能體未來發(fā)展趨勢時提到，無論是智能體還是 AI 模型，處理的任務都可以分為兩類：客觀感知（objective perception）和主觀感知（subjective perception）。

什么是 “主觀”，什么是 “客觀”？這背后涉及一個哲學問題。從 benchmark 的角度出發(fā)，我們可以結合實際業(yè)務場景來分析。我們明略為企業(yè)客戶做廣告輿情分析，而輿情分析的核心環(huán)節(jié)之一就是情感分析 —— 判斷一篇文章、一個視頻中傳遞的情感是正面還是負面。過去，很多全球人工智能峰會都會舉辦情感分析競賽。表面上看，情感分析是典型的 “主觀任務”，但后來我們發(fā)現(xiàn)，大部分情感分析競賽的 benchmark 設計，存在明顯問題：雖然是主觀任務，卻采用了客觀的評估方式。這類 benchmark 通常是讓標注人員判斷每個內容的情感傾向（正面 / 負面），之后讓 AI 模型的分析結果與人工標注結果進行比對，最終得出一個評測指標，并將其稱之為 “主觀分數(shù)”。

然而，從哲學層面講，“主觀” 的核心在于，不同人對同一件事可能持有不同觀點。如果所有人都遵循統(tǒng)一標準，那本質上就是 “客觀” 評估。因此，當時市場上并不存在真正意義上的 “主觀情感分析 benchmark”，所有情感分析評測本質上都是客觀評估 —— 因為都是基于統(tǒng)一的 “標準答案”。

斯坦福大學李飛飛教授曾經(jīng)提到，無論 AI 模型經(jīng)過多少輪訓練，目前仍無法像人類一樣，具備真正意義上的主觀情感理解能力。

如何評估“主觀” ，這確實是一個值得深入探討的問題。當我們在 ACMMM 2024 分享論文時，充分表明了決心：我們要構建一個新的 benchmark。

我們?yōu)槭裁匆ňψ鲞@件事情？核心原因是我們想解決廣告營銷行業(yè)的實際痛點 —— 廣告內容測試。大家可以回想一下，我們每天在視頻號、抖音等平臺會看到大量廣告，既有圖文形式，也有視頻形式。對于廣告客戶來說，投放一支廣告的成本極高。除了拍攝廣告片需要投入大量資金，后續(xù)在各大媒體平臺購買流量的費用更是遠超拍攝成本。因此，在廣告正式投放前，客戶必須先測試廣告片的效果。判斷廣告是否能吸引潛在消費者、是否能打動目標人群。

過去，廣告測試的方法非常傳統(tǒng)，我們會把消費者請到實驗室觀看廣告，之后讓他們填寫問卷，根據(jù)問卷結果決定是否修改廣告或直接投放。后來，測試方法升級為消費者佩戴可穿戴設備，我們通過捕捉腦電、眼動等信號，分析消費者觀看視頻廣告時的情感變化。在這一過程中，我們積累了大量廣告片的測試信號數(shù)據(jù)，而這些信號正是 “主觀性” 的最佳體現(xiàn)。因為每個人的信號都不同，完全不存在統(tǒng)一標準。

大模型崛起后，通過把這些腦電、眼動信號與基礎大模型相結合，我們訓練出一個多模態(tài)的專業(yè)領域專家模型（specialize model）。在模型訓練過程中，我們采用了一種特殊的網(wǎng)絡結構 —— 超圖（hypergraph），這種結構與傳統(tǒng)圖論中的圖形結構不同，它能高效存儲廣告播放過程中各個視頻片段之間的相似度，最終通過超圖清晰地呈現(xiàn)出視頻的故事線和情節(jié)結構。通過超圖進行訓練，不僅效果好，而且訓練與計算成本遠低于 Transformer。這項超圖多模態(tài)大模型研究成果最終獲得了ACMMM2024最佳論文提名。

目前，基于我們自研的超圖多模態(tài)大模型的產(chǎn)品——全球廣告創(chuàng)意優(yōu)化與測試平臺 AdEff 已經(jīng)正式上線。這是一款面向全球市場的 SaaS 產(chǎn)品，核心功能是可以測試同一支廣告片在不同人群中產(chǎn)生的情感反應差異，這對出海企業(yè)意義重大。

現(xiàn)在很多中國品牌都在拓展海外市場，但不同國家、不同文化背景的消費者，對廣告內容的理解和接受度完全不同。在成本上，過去，在一個市場測試一支廣告片的成本大概需要 1 萬美元，現(xiàn)在，大模型將測試成本大幅壓縮。對企業(yè)來說，成本降低意味著他們可以進行更多的嘗試?，F(xiàn)在很多客戶的廣告片已經(jīng)不是由廣告公司拍攝，而是用 AI 生成，生成后通過我們的產(chǎn)品快速測試，就能避免因廣告效果不佳導致的流量費用浪費。

更有意思的是，當企業(yè)測試完廣告片后，還能與大模型進行交互。比如，在廣告播放的第 3 秒到第 5 秒，消費者為什么會感到興奮？大模型互動的邏輯其實正是動態(tài)推理，它可以用自然語言解釋信號升高的原因，分析對應用戶群體的想法。如果某個片段的廣告效果不好，大模型還能站在廣告拍攝專家的視角，給出具體的優(yōu)化建議，這對客戶的吸引力很大。因為過去邀請消費者到實驗室測試廣告，測試結束后消費者就離開了。當廣告主后續(xù)想深入了解 “當時消費者為什么會興奮” 時，已經(jīng)無法再聯(lián)系到受訪者。但現(xiàn)在，客戶隨時能與模型交互，挖掘背后的深層原因。

我們最近推出的另一款智能體 ——妙啊，聚焦爆款投流素材內容生成場景。當前短視頻營銷競爭激烈，很多企業(yè)過去一年才發(fā)布幾十個廣告，現(xiàn)在一天就要上線幾百個廣告，否則很難在社媒平臺獲得足夠流量。然而，很多企業(yè)用大模型制作廣告，但最大的痛點是不知道該寫什么 prompt，不知道如何設計劇情腳本。我們的“妙啊”可以幫助大家解決這個問題。

了解「妙啊」???? http://m.qududu.org/news/6128/

通過超圖多模態(tài)大模型，先從全網(wǎng)搜集海量廣告素材，再通過模型拆解素材中的 “爆款片段”，之后將優(yōu)質片段輸入到 “故事腳本生成模型” 中。因為我們已經(jīng)預先解析了真正吸引消費者的內容素材，提煉出有效的腳本邏輯，所以真正挖掘出了消費者感興趣的內容，同時縮短了 “廣告創(chuàng)意” 到 “成片投放” 的周期。

總的來說，我認為，一方面，垂直領域有大量未被挖掘的AI應用場景，未來模型層必然是 “百家爭鳴” 的格局，絕非只有基礎模型公司。每個領域的模型都應該具備獨特性，關鍵在于要有自己“獨特的 benchmark”。對企業(yè)來說，通用 benchmark 就像基礎學科考試，判斷模型是否具備實戰(zhàn)能力，看的是每個行業(yè)獨有的評估體系。

另一方面，AI 的優(yōu)化不應僅局限于模型層面，未來還將延伸到智能體，甚至多智能體層面。多個智能體組成混合智能體，進行互相博弈，最終形成端到端的優(yōu)化。

我們今年的重點工作之一是將模型推向全球市場。聚焦15個重點海外市場，深化模型訓練，將企業(yè)客戶從中國出海企業(yè)拓展至海外市場的本土企業(yè)。同時，我們將推動構建一個覆蓋全球各個國家與地區(qū)的廣告素材庫，并與當?shù)貜V告學院、廣告評審專家合作，將專業(yè)反饋通過 RLHF（基于人類反饋的強化學習）的方式融入到模型訓練中。

目前，無論是做品牌廣告測試，還是效果廣告的內容生成，我們都歡迎大家體驗我們明略的產(chǎn)品，我們也將通過持續(xù)的技術創(chuàng)新，幫助企業(yè)創(chuàng)造更大價值。

謝謝大家！

拉尾盘说明什么-股票app官网公司名称-【东方资本】,股票交易规则t 0代表什么,a股怎样会被st,涨8配资网站