首頁明略動(dòng)態(tài) 當(dāng)AI讀懂你的目光：明略自研PRE-MAP如何破解個(gè)性化視覺注意力的密碼

當(dāng)AI讀懂你的目光：明略自研PRE-MAP如何破解個(gè)性化視覺注意力的密碼

2025-07-15

在數(shù)字廣告領(lǐng)域，洞察消費(fèi)者的目光焦點(diǎn)是實(shí)現(xiàn)精準(zhǔn)傳播的關(guān)鍵一步。設(shè)想一下，如果廣告商能夠精準(zhǔn)預(yù)測不同年齡、不同性別的消費(fèi)者在廣告畫面中更傾向于關(guān)注哪些細(xì)節(jié)元素，那么廣告創(chuàng)意的優(yōu)化、投放效果的評估將變得更加科學(xué)可控。這不僅能夠提升信息傳遞的效率，還能顯著降低營銷資源的浪費(fèi)，幫助品牌方和廣告商更科學(xué)地實(shí)現(xiàn)“精準(zhǔn)觸達(dá)”。

而這正是明略科技最新研究成果《PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction》的未來價(jià)值所在。目前，該論文以其理論創(chuàng)新和應(yīng)用價(jià)值，已被全球多媒體技術(shù)領(lǐng)域的旗艦會(huì)議ACM MM 2025正式接收，并有望為廣告測量的智能化發(fā)展樹立新范式。

當(dāng)AI讀懂你的目光：明略自研PRE-MAP如何破解個(gè)性化視覺注意力的密碼

明略科技集團(tuán)創(chuàng)始合伙人、總裁兼首席財(cái)務(wù)官姜平也深度參與了這項(xiàng)開創(chuàng)性研究，并擔(dān)任論文共同第一作者。

多模態(tài)技術(shù)的獨(dú)特價(jià)值不止于理論上的創(chuàng)新，更在于它能夠讓數(shù)據(jù)與模型成為理解人類行為和認(rèn)知的橋梁。PRE-MAP正是這種技術(shù)應(yīng)用的典范，通過將用戶個(gè)性化的視覺關(guān)注點(diǎn)精確化，我們讓機(jī)器真正理解‘是什么樣的人在關(guān)注哪些信息’，這為信息傳播的精準(zhǔn)化和個(gè)性化創(chuàng)造了新的可能性。更重要的是它能讓技術(shù)以一種真正理解人類的方式去提升各方面的體驗(yàn)，重塑人機(jī)溝通的邏輯。

——明略科技集團(tuán)創(chuàng)始合伙人、總裁兼首席財(cái)務(wù)官姜平

01 現(xiàn)有技術(shù)的短板：像素瓶頸與個(gè)性化盲區(qū)

盡管眼動(dòng)追蹤是一個(gè)近年來備受關(guān)注的研究方向，但傳統(tǒng)技術(shù)仍存在顯著的短板，阻礙了其真正解鎖個(gè)性化視覺認(rèn)知的潛力：

● 像素級別的”近視癥”

傳統(tǒng)模型就像戴著厚眼鏡的”近視眼”，通常依賴于低分辨率圖像生成注視熱圖，或通過對低分辨率特征圖進(jìn)行上采樣重建，這會(huì)導(dǎo)致空間精度下降和明顯的方塊偽影，造成細(xì)節(jié)效果大打折扣。即使在高分辨率下訓(xùn)練和推理，最終結(jié)果仍需放大至原始尺寸，難以保留細(xì)節(jié)，影響預(yù)測精度。

● “千人一面”的定式

大多數(shù)模型默認(rèn)所有觀察者的注視模式相同，忽略了不同個(gè)體的差異性，如性別、年齡、經(jīng)驗(yàn)等。未能有效捕捉廣泛人群在視覺注意力分布上的顯著差異，限制了模型的泛化能力和個(gè)性化預(yù)測效果。

● 數(shù)據(jù)的”營養(yǎng)不良”

大模型的性能高度依賴多樣化、大規(guī)模、高質(zhì)量數(shù)據(jù)的供給。然而，現(xiàn)有注視點(diǎn)預(yù)測數(shù)據(jù)集樣本數(shù)量有限，尤其是與廣告營銷相關(guān)的數(shù)據(jù)，缺乏涵蓋廣泛個(gè)體差異的標(biāo)注數(shù)據(jù)，限制了AI對復(fù)雜人類視覺行為的學(xué)習(xí)能力。

02 雙重革新：SPA-ADV數(shù)據(jù)集與PRE-MAP模型

面對這些挑戰(zhàn)，明略科技的研究團(tuán)隊(duì)從根本上重新思考問題，并基于——更準(zhǔn)確地預(yù)測個(gè)體在觀看視頻時(shí)的注視點(diǎn)、避免傳統(tǒng)方法因分辨率限制導(dǎo)致的細(xì)節(jié)丟失與預(yù)測精度不足，兩大研究目標(biāo)，從數(shù)據(jù)和技術(shù)框架兩方面進(jìn)行了革新，提出了有針對性的解決方法。

?? 新數(shù)據(jù)集SPA-ADV：視覺行為的百科全書

為了更好解析不同個(gè)體在觀看視頻時(shí)的注視差異，研究團(tuán)隊(duì)構(gòu)建了全新的大規(guī)模個(gè)性化注視行為數(shù)據(jù)集SPA-ADV。這一數(shù)據(jù)集涵蓋了4500多名不同年齡段、性別的真實(shí)用戶對486個(gè)精選廣告視頻的細(xì)致注視記錄，包括眼球運(yùn)動(dòng)軌跡以及精確的注視點(diǎn)坐標(biāo)等真實(shí)視覺行為。

SPA-ADV數(shù)據(jù)集的獨(dú)特之處在于：

● 廣泛捕捉了個(gè)體屬性（如性別、年齡）的顯著影響，為大規(guī)模個(gè)性化注視行為的建模和分析奠定基礎(chǔ)，一定程度上解決了模型訓(xùn)練中存在主觀偏差與推廣能力不足的問題。

● 數(shù)據(jù)規(guī)?？涨按螅?/strong>為個(gè)性化顯著性建模提供了高質(zhì)量的基準(zhǔn)數(shù)據(jù)支持。

?? 自研PRE-MAP模型：個(gè)性化視覺預(yù)測引擎

基于數(shù)據(jù)集，明略科技進(jìn)一步研發(fā)了PRE-MAP創(chuàng)新AI預(yù)測模型，通過兩大關(guān)鍵模塊，實(shí)現(xiàn)個(gè)性化視覺注視點(diǎn)的高精度預(yù)測：

● 多屬性點(diǎn)式注意力建模（Multi-Attribute Point-Based Attention）

傳統(tǒng)模型類似“油畫筆”，無法精準(zhǔn)勾勒個(gè)體注視點(diǎn)，生成的注視熱圖較為模糊。而PRE-MAP則像是一支“激光筆”，能在全高清畫面中精確定位注視點(diǎn)。

PRE-MAP通過融合用戶屬性（如性別、年齡）與視頻語義內(nèi)容，引導(dǎo)模型在高分辨率視頻幀上直接預(yù)測個(gè)性化注視點(diǎn)，提升預(yù)測的針對性與分辨率保真度。例如，當(dāng)輸入”35歲女性觀看化妝品廣告”時(shí)，PRE-MAP會(huì)結(jié)合這位用戶可能具有的視覺偏好和廣告中的視覺元素，直接預(yù)測出她最可能關(guān)注的精確位置，而非籠統(tǒng)的區(qū)域。

● Consistency Group Relative Policy Optimization（C-GRPO）

由于注視點(diǎn)預(yù)測是一個(gè)結(jié)構(gòu)化輸出任務(wù)，如何確保預(yù)測結(jié)果的空間一致性與格式規(guī)范至關(guān)重要，深刻影響可視化與后續(xù)應(yīng)用。

PRE-MAP在訓(xùn)練過程中引入了一種基于強(qiáng)化學(xué)習(xí)的優(yōu)化機(jī)制——Consistency Group Relative Policy Optimization（C-GRPO），通過對預(yù)測點(diǎn)的空間一致性與格式規(guī)范進(jìn)行策略約束，進(jìn)一步增強(qiáng)個(gè)性化注視點(diǎn)預(yù)測的可控性與精度。

根據(jù)論文中的實(shí)驗(yàn)結(jié)果，PRE-MAP的表現(xiàn)得到了充分驗(yàn)證。與傳統(tǒng)模型（如SUM和Transalnet）相比，PRE-MAP在多個(gè)維度上的表現(xiàn)遠(yuǎn)超業(yè)內(nèi)平均水平，使用PRE-MAP預(yù)測的注視點(diǎn)分布精準(zhǔn)、邊緣高度吻合人眼的真實(shí)注視位置。

03 解碼視覺：重塑人機(jī)溝通的未來圖景

縱觀數(shù)智技術(shù)的發(fā)展歷程，技術(shù)價(jià)值的體現(xiàn)從不止于數(shù)據(jù)的數(shù)量或算法的復(fù)雜性；真正的突破在于，能否通過數(shù)據(jù)洞察與模型演進(jìn)，為人類行為和認(rèn)知打開更深層的理解窗口。

PRE-MAP研究正是對這一理念的實(shí)踐，它通過多模態(tài)技術(shù)的創(chuàng)新探索，實(shí)現(xiàn)讓AI深度剖析人類視覺行為，從“籠統(tǒng)理解人們在看什么”走向“精確預(yù)測什么樣的人在看哪里”，幫助廣告行業(yè)從粗放式傳播邁向尊重個(gè)體差異的精準(zhǔn)溝通，賦能AI更好地理解‘人’，并與‘人協(xié)作。

從2024年通過超圖多模態(tài)大型語言模型（HMLLM）理解人類主觀反應(yīng)，到今年研發(fā)PRE-MAP模型預(yù)測個(gè)性化視覺注視點(diǎn)，明略科技正逐步構(gòu)建起一套全面理解人類認(rèn)知的底層技術(shù)體系。相信未來，這一體系將引領(lǐng)廣告數(shù)智化發(fā)展的新航向，并為人機(jī)協(xié)作描繪一幅互聯(lián)、智能、共贏的未來圖景。

上一篇

下一篇

推薦閱讀

明略科技 Mano Technical Report

2025-09-18

Graphical user interfaces (GUIs) are the primary medium for human-computer interaction, yet automating GUI interactions remains challenging due to the complexity of visual elements, dynamic environments, and the need for multi-step reasoning. Existing methods based on vision-language models (VLMs) often suffer from limited resolution, domain mismatch, and insufficient sequential decisionmaking capability. To address these issues, we propose Mano, a robust GUI agent built upon a multi-modal foundation model pre-trained on extensive web and computer system data. Our approach integrates a novel simulated environment for high-fidelity data generation, a three-stage training pipeline (supervised fine-tuning, offline reinforcement learning, and online reinforcement learning), and a verification module for error recovery. Mano demonstrates state-of-the-art performance on multiple GUI benchmarks, including Mind2Web and OSWorld, achieving significant improvements in success rate and operational accuracy. Our work provides new insights into the effective integration of reinforcement learning with VLMs for practical GUI agent deployment, highlighting the importance of domain-specific data, iterative training, and holistic reward design.
了解更多

邀請函丨明略科技邀您共赴GDMS全球數(shù)字營銷峰會(huì)，探索Agentic Marketing增長新范式

2025-09-13

來。明略科技旗下秒針系統(tǒng)受邀參會(huì)，將于「AI實(shí)踐」分論壇中發(fā)表主旨演講，從垂直視角剖析品牌差異化實(shí)踐，抽絲剝繭呈現(xiàn)增長之道。誠邀您蒞臨交流，共話營銷新可能！
了解更多

為什么AIGD比AIGC更重要？9月17日，最新「生成式營銷產(chǎn)學(xué)研合作報(bào)告」線上揭曉

2025-09-13

營銷，是一系列職能的組合，同時(shí)，也是一系列關(guān)鍵決策的集合。決策，貫穿于組織的各個(gè)層次，也貫穿于管理的全過程。管理就是決策，營銷管理也不例外，即使進(jìn)入AI時(shí)代，決策仍是核心。那AI時(shí)代的營銷決策該怎么做呢？ 9月17日，下午2:30-4:00，由復(fù)旦大學(xué)管理學(xué)院、秒針營銷科學(xué)院、明略科技聯(lián)合舉辦，得到AI高研院作為知識分享伙伴的「從AIGC，到AIGD」線上發(fā)布會(huì)，將正式對外發(fā)布產(chǎn)學(xué)研課題組年度最新研究成果——《生成式營銷產(chǎn)業(yè)研究報(bào)告：從AIGC到AIGD》。
了解更多

上一篇：行業(yè)觀察 | 72%消費(fèi)者信AI下單，GEO是品牌生存唯一出路嗎？

下一篇：2025愛分析大模型市場評估：明略科技多模態(tài)大模型應(yīng)用價(jià)值凸顯

返回行業(yè)資訊

拉尾盘说明什么-股票app官网公司名称-【东方资本】,股票交易规则t 0代表什么,a股怎样会被st,涨8配资网站

01 現(xiàn)有技術(shù)的短板：像素瓶頸與個(gè)性化盲區(qū)

02 雙重革新：SPA-ADV數(shù)據(jù)集與PRE-MAP模型

?? 新數(shù)據(jù)集SPA-ADV：視覺行為的百科全書

?? 自研PRE-MAP模型：個(gè)性化視覺預(yù)測引擎

03 解碼視覺：重塑人機(jī)溝通的未來圖景