當(dāng)AI讀懂你的目光:明略自研PRE-MAP如何破解個(gè)性化視覺注意力的密碼
2025-07-15
在數(shù)字廣告領(lǐng)域,洞察消費(fèi)者的目光焦點(diǎn)是實(shí)現(xiàn)精準(zhǔn)傳播的關(guān)鍵一步。設(shè)想一下,如果廣告商能夠精準(zhǔn)預(yù)測不同年齡、不同性別的消費(fèi)者在廣告畫面中更傾向于關(guān)注哪些細(xì)節(jié)元素,那么廣告創(chuàng)意的優(yōu)化、投放效果的評估將變得更加科學(xué)可控。這不僅能夠提升信息傳遞的效率,還能顯著降低營銷資源的浪費(fèi),幫助品牌方和廣告商更科學(xué)地實(shí)現(xiàn)“精準(zhǔn)觸達(dá)”。
而這正是明略科技最新研究成果《PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction》的未來價(jià)值所在。目前,該論文以其理論創(chuàng)新和應(yīng)用價(jià)值,已被全球多媒體技術(shù)領(lǐng)域的旗艦會(huì)議ACM MM 2025正式接收,并有望為廣告測量的智能化發(fā)展樹立新范式。
明略科技集團(tuán)創(chuàng)始合伙人、總裁兼首席財(cái)務(wù)官姜平也深度參與了這項(xiàng)開創(chuàng)性研究,并擔(dān)任論文共同第一作者。
多模態(tài)技術(shù)的獨(dú)特價(jià)值不止于理論上的創(chuàng)新,更在于它能夠讓數(shù)據(jù)與模型成為理解人類行為和認(rèn)知的橋梁。PRE-MAP正是這種技術(shù)應(yīng)用的典范,通過將用戶個(gè)性化的視覺關(guān)注點(diǎn)精確化,我們讓機(jī)器真正理解‘是什么樣的人在關(guān)注哪些信息’,這為信息傳播的精準(zhǔn)化和個(gè)性化創(chuàng)造了新的可能性。更重要的是它能讓技術(shù)以一種真正理解人類的方式去提升各方面的體驗(yàn),重塑人機(jī)溝通的邏輯。
——明略科技集團(tuán)創(chuàng)始合伙人、總裁兼首席財(cái)務(wù)官 姜平
盡管眼動(dòng)追蹤是一個(gè)近年來備受關(guān)注的研究方向,但傳統(tǒng)技術(shù)仍存在顯著的短板,阻礙了其真正解鎖個(gè)性化視覺認(rèn)知的潛力:
● 像素級別的”近視癥”
傳統(tǒng)模型就像戴著厚眼鏡的”近視眼”,通常依賴于低分辨率圖像生成注視熱圖,或通過對低分辨率特征圖進(jìn)行上采樣重建,這會(huì)導(dǎo)致空間精度下降和明顯的方塊偽影,造成細(xì)節(jié)效果大打折扣。即使在高分辨率下訓(xùn)練和推理,最終結(jié)果仍需放大至原始尺寸,難以保留細(xì)節(jié),影響預(yù)測精度。
● “千人一面”的定式
大多數(shù)模型默認(rèn)所有觀察者的注視模式相同,忽略了不同個(gè)體的差異性,如性別、年齡、經(jīng)驗(yàn)等。未能有效捕捉廣泛人群在視覺注意力分布上的顯著差異,限制了模型的泛化能力和個(gè)性化預(yù)測效果。
● 數(shù)據(jù)的”營養(yǎng)不良”
大模型的性能高度依賴多樣化、大規(guī)模、高質(zhì)量數(shù)據(jù)的供給。然而,現(xiàn)有注視點(diǎn)預(yù)測數(shù)據(jù)集樣本數(shù)量有限,尤其是與廣告營銷相關(guān)的數(shù)據(jù),缺乏涵蓋廣泛個(gè)體差異的標(biāo)注數(shù)據(jù),限制了AI對復(fù)雜人類視覺行為的學(xué)習(xí)能力。
面對這些挑戰(zhàn),明略科技的研究團(tuán)隊(duì)從根本上重新思考問題,并基于——更準(zhǔn)確地預(yù)測個(gè)體在觀看視頻時(shí)的注視點(diǎn)、避免傳統(tǒng)方法因分辨率限制導(dǎo)致的細(xì)節(jié)丟失與預(yù)測精度不足,兩大研究目標(biāo),從數(shù)據(jù)和技術(shù)框架兩方面進(jìn)行了革新,提出了有針對性的解決方法。
為了更好解析不同個(gè)體在觀看視頻時(shí)的注視差異,研究團(tuán)隊(duì)構(gòu)建了全新的大規(guī)模個(gè)性化注視行為數(shù)據(jù)集SPA-ADV。這一數(shù)據(jù)集涵蓋了4500多名不同年齡段、性別的真實(shí)用戶對486個(gè)精選廣告視頻的細(xì)致注視記錄,包括眼球運(yùn)動(dòng)軌跡以及精確的注視點(diǎn)坐標(biāo)等真實(shí)視覺行為。
SPA-ADV數(shù)據(jù)集的獨(dú)特之處在于:
● 廣泛捕捉了個(gè)體屬性(如性別、年齡)的顯著影響,為大規(guī)模個(gè)性化注視行為的建模和分析奠定基礎(chǔ),一定程度上解決了模型訓(xùn)練中存在主觀偏差與推廣能力不足的問題。
● 數(shù)據(jù)規(guī)??涨按螅?/strong>為個(gè)性化顯著性建模提供了高質(zhì)量的基準(zhǔn)數(shù)據(jù)支持。
基于數(shù)據(jù)集,明略科技進(jìn)一步研發(fā)了PRE-MAP創(chuàng)新AI預(yù)測模型,通過兩大關(guān)鍵模塊,實(shí)現(xiàn)個(gè)性化視覺注視點(diǎn)的高精度預(yù)測:
● 多屬性點(diǎn)式注意力建模(Multi-Attribute Point-Based Attention)
傳統(tǒng)模型類似“油畫筆”,無法精準(zhǔn)勾勒個(gè)體注視點(diǎn),生成的注視熱圖較為模糊。而PRE-MAP則像是一支“激光筆”,能在全高清畫面中精確定位注視點(diǎn)。
PRE-MAP通過融合用戶屬性(如性別、年齡)與視頻語義內(nèi)容,引導(dǎo)模型在高分辨率視頻幀上直接預(yù)測個(gè)性化注視點(diǎn),提升預(yù)測的針對性與分辨率保真度。例如,當(dāng)輸入”35歲女性觀看化妝品廣告”時(shí),PRE-MAP會(huì)結(jié)合這位用戶可能具有的視覺偏好和廣告中的視覺元素,直接預(yù)測出她最可能關(guān)注的精確位置,而非籠統(tǒng)的區(qū)域。
● Consistency Group Relative Policy Optimization(C-GRPO)
由于注視點(diǎn)預(yù)測是一個(gè)結(jié)構(gòu)化輸出任務(wù),如何確保預(yù)測結(jié)果的空間一致性與格式規(guī)范至關(guān)重要,深刻影響可視化與后續(xù)應(yīng)用。
PRE-MAP在訓(xùn)練過程中引入了一種基于強(qiáng)化學(xué)習(xí)的優(yōu)化機(jī)制——Consistency Group Relative Policy Optimization(C-GRPO),通過對預(yù)測點(diǎn)的空間一致性與格式規(guī)范進(jìn)行策略約束,進(jìn)一步增強(qiáng)個(gè)性化注視點(diǎn)預(yù)測的可控性與精度。
根據(jù)論文中的實(shí)驗(yàn)結(jié)果,PRE-MAP的表現(xiàn)得到了充分驗(yàn)證。與傳統(tǒng)模型(如SUM和Transalnet)相比,PRE-MAP在多個(gè)維度上的表現(xiàn)遠(yuǎn)超業(yè)內(nèi)平均水平,使用PRE-MAP預(yù)測的注視點(diǎn)分布精準(zhǔn)、邊緣高度吻合人眼的真實(shí)注視位置。
縱觀數(shù)智技術(shù)的發(fā)展歷程,技術(shù)價(jià)值的體現(xiàn)從不止于數(shù)據(jù)的數(shù)量或算法的復(fù)雜性;真正的突破在于,能否通過數(shù)據(jù)洞察與模型演進(jìn),為人類行為和認(rèn)知打開更深層的理解窗口。
PRE-MAP研究正是對這一理念的實(shí)踐,它通過多模態(tài)技術(shù)的創(chuàng)新探索,實(shí)現(xiàn)讓AI深度剖析人類視覺行為,從“籠統(tǒng)理解人們在看什么”走向“精確預(yù)測什么樣的人在看哪里”,幫助廣告行業(yè)從粗放式傳播邁向尊重個(gè)體差異的精準(zhǔn)溝通,賦能AI更好地理解‘人’,并與‘人協(xié)作。
從2024年通過超圖多模態(tài)大型語言模型(HMLLM)理解人類主觀反應(yīng),到今年研發(fā)PRE-MAP模型預(yù)測個(gè)性化視覺注視點(diǎn),明略科技正逐步構(gòu)建起一套全面理解人類認(rèn)知的底層技術(shù)體系。相信未來,這一體系將引領(lǐng)廣告數(shù)智化發(fā)展的新航向,并為人機(jī)協(xié)作描繪一幅互聯(lián)、智能、共贏的未來圖景。
信息填寫