當AI讀懂你的目光:明略自研PRE-MAP如何破解個性化視覺注意力的密碼
2025-07-15
在數字廣告領域,洞察消費者的目光焦點是實現精準傳播的關鍵一步。設想一下,如果廣告商能夠精準預測不同年齡、不同性別的消費者在廣告畫面中更傾向于關注哪些細節元素,那么廣告創意的優化、投放效果的評估將變得更加科學可控。這不僅能夠提升信息傳遞的效率,還能顯著降低營銷資源的浪費,幫助品牌方和廣告商更科學地實現“精準觸達”。
而這正是明略科技最新研究成果《PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction》的未來價值所在。目前,該論文以其理論創新和應用價值,已被全球多媒體技術領域的旗艦會議ACM MM 2025正式接收,并有望為廣告測量的智能化發展樹立新范式。
明略科技集團創始合伙人、總裁兼首席財務官姜平也深度參與了這項開創性研究,并擔任論文共同第一作者。
多模態技術的獨特價值不止于理論上的創新,更在于它能夠讓數據與模型成為理解人類行為和認知的橋梁。PRE-MAP正是這種技術應用的典范,通過將用戶個性化的視覺關注點精確化,我們讓機器真正理解‘是什么樣的人在關注哪些信息’,這為信息傳播的精準化和個性化創造了新的可能性。更重要的是它能讓技術以一種真正理解人類的方式去提升各方面的體驗,重塑人機溝通的邏輯。
——明略科技集團創始合伙人、總裁兼首席財務官 姜平
盡管眼動追蹤是一個近年來備受關注的研究方向,但傳統技術仍存在顯著的短板,阻礙了其真正解鎖個性化視覺認知的潛力:
● 像素級別的”近視癥”
傳統模型就像戴著厚眼鏡的”近視眼”,通常依賴于低分辨率圖像生成注視熱圖,或通過對低分辨率特征圖進行上采樣重建,這會導致空間精度下降和明顯的方塊偽影,造成細節效果大打折扣。即使在高分辨率下訓練和推理,最終結果仍需放大至原始尺寸,難以保留細節,影響預測精度。
● “千人一面”的定式
大多數模型默認所有觀察者的注視模式相同,忽略了不同個體的差異性,如性別、年齡、經驗等。未能有效捕捉廣泛人群在視覺注意力分布上的顯著差異,限制了模型的泛化能力和個性化預測效果。
● 數據的”營養不良”
大模型的性能高度依賴多樣化、大規模、高質量數據的供給。然而,現有注視點預測數據集樣本數量有限,尤其是與廣告營銷相關的數據,缺乏涵蓋廣泛個體差異的標注數據,限制了AI對復雜人類視覺行為的學習能力。
面對這些挑戰,明略科技的研究團隊從根本上重新思考問題,并基于——更準確地預測個體在觀看視頻時的注視點、避免傳統方法因分辨率限制導致的細節丟失與預測精度不足,兩大研究目標,從數據和技術框架兩方面進行了革新,提出了有針對性的解決方法。
為了更好解析不同個體在觀看視頻時的注視差異,研究團隊構建了全新的大規模個性化注視行為數據集SPA-ADV。這一數據集涵蓋了4500多名不同年齡段、性別的真實用戶對486個精選廣告視頻的細致注視記錄,包括眼球運動軌跡以及精確的注視點坐標等真實視覺行為。
SPA-ADV數據集的獨特之處在于:
● 廣泛捕捉了個體屬性(如性別、年齡)的顯著影響,為大規模個性化注視行為的建模和分析奠定基礎,一定程度上解決了模型訓練中存在主觀偏差與推廣能力不足的問題。
● 數據規??涨按?,為個性化顯著性建模提供了高質量的基準數據支持。
基于數據集,明略科技進一步研發了PRE-MAP創新AI預測模型,通過兩大關鍵模塊,實現個性化視覺注視點的高精度預測:
● 多屬性點式注意力建模(Multi-Attribute Point-Based Attention)
傳統模型類似“油畫筆”,無法精準勾勒個體注視點,生成的注視熱圖較為模糊。而PRE-MAP則像是一支“激光筆”,能在全高清畫面中精確定位注視點。
PRE-MAP通過融合用戶屬性(如性別、年齡)與視頻語義內容,引導模型在高分辨率視頻幀上直接預測個性化注視點,提升預測的針對性與分辨率保真度。例如,當輸入”35歲女性觀看化妝品廣告”時,PRE-MAP會結合這位用戶可能具有的視覺偏好和廣告中的視覺元素,直接預測出她最可能關注的精確位置,而非籠統的區域。
● Consistency Group Relative Policy Optimization(C-GRPO)
由于注視點預測是一個結構化輸出任務,如何確保預測結果的空間一致性與格式規范至關重要,深刻影響可視化與后續應用。
PRE-MAP在訓練過程中引入了一種基于強化學習的優化機制——Consistency Group Relative Policy Optimization(C-GRPO),通過對預測點的空間一致性與格式規范進行策略約束,進一步增強個性化注視點預測的可控性與精度。
根據論文中的實驗結果,PRE-MAP的表現得到了充分驗證。與傳統模型(如SUM和Transalnet)相比,PRE-MAP在多個維度上的表現遠超業內平均水平,使用PRE-MAP預測的注視點分布精準、邊緣高度吻合人眼的真實注視位置。
縱觀數智技術的發展歷程,技術價值的體現從不止于數據的數量或算法的復雜性;真正的突破在于,能否通過數據洞察與模型演進,為人類行為和認知打開更深層的理解窗口。
PRE-MAP研究正是對這一理念的實踐,它通過多模態技術的創新探索,實現讓AI深度剖析人類視覺行為,從“籠統理解人們在看什么”走向“精確預測什么樣的人在看哪里”,幫助廣告行業從粗放式傳播邁向尊重個體差異的精準溝通,賦能AI更好地理解‘人’,并與‘人協作。
從2024年通過超圖多模態大型語言模型(HMLLM)理解人類主觀反應,到今年研發PRE-MAP模型預測個性化視覺注視點,明略科技正逐步構建起一套全面理解人類認知的底層技術體系。相信未來,這一體系將引領廣告數智化發展的新航向,并為人機協作描繪一幅互聯、智能、共贏的未來圖景。
信息填寫