近日,复旦大学白泽智能团队负责人张谧教授接受南都大数据研究院记者专访,围绕“生成式引擎优化”(GEO)影响AI搜索引擎的生成结果以夹带商业推广内容的运作机制进行了剖析,指出其潜在风险,并进一步提出了构建可信AI搜索引擎的前沿思考与可行路径。
AI搜索引擎:广告内容正‘潜入’回答?
有网友关注到“AI搜索回答疑似出现广告”,针对这一现象,南都大数据研究院“AI新治向”工作室对国内多款主流AI对话和AI搜索工具展开了实测。
实测发现,AI回答中的确存在广告化倾向:多款AI反复推荐同批品牌,且引用信源高度重合,其中不乏商业推荐类榜单网站;部分回答所引用的信源可信度较低,或内容与回答不符,或夹带购物链接。
访谈内容
Q1:使用AI搜索引擎时,AI回答会出现“结构化重组”“跨信源整合”。例如提问“适合学生党的面霜”,AI会将产品介绍、用户评测、皮肤科建议整合成逻辑链,而原始信源并无此类串联。这反映了AI大模型的什么特性?
A1: 回答中的“逻辑链”展现了当前AI大模型为了更好地解决用户需求、增强用户体验而发展出的“深度思考”能力,用户在使用DeepSeek、豆包、腾讯元宝等商用大模型时,可以直观地看到其推理过程。面对用户输入,AI大模型会首先拆解用户的实际需求(例如将“适合学生党”解读为平价、好用、适合年轻人等),然后在知识库和网页中检索对应品牌,并对候选商品信息进行整合与分析,判断信息可靠性和优先级,最终将清晰、有层次的商品推荐内容呈现给用户。
为赋予大模型此类能力,训练厂商在预训练阶段使用海量人类文本,让模型学习其中的逻辑表达与知识整合模式,而其中的高质量语料往往本身具有较强的可读性、权威性与结构化特征,从而潜移默化地塑造了模型的偏好。在后训练阶段,通过指令微调与人类反馈强化学习,进一步引导模型生成符合用户期待的清晰、可信回答,使其不仅能够满足用户需求,还逐渐形成超越单纯信息复述的能力,展现出“结构化重组”和“跨信源整合”的特征。
Q2:从AI大模型的算法角度,GEO为品牌改变AI生成内容的机制原理是怎样的?这种品牌内容被AI搜索工具精准抓取并推荐为答案的几率是可以控制的吗?
A2: 随着AI搜索引擎普及,用户日益习惯于“零点击搜索”——无需点击网页,直接从AI回复中获取所需信息。GEO的核心目标,正是让特定品牌在AI的检索与排序中获得更高优先级,从而提高其在AI回答中的“被采纳率”,为品牌赢得更多曝光与流量。
与针对传统搜索引擎的SEO(搜索引擎优化)侧重关键词、外链优化来提升网页排名和点击不同,GEO主要策略为:从用户消费心理出发,打造大量品牌推广文章并全网投放,形成覆盖全面的内容矩阵,并定期更新内容以增强时效性,使之易被检索;提升推广内容的可读性、结构化程度(如Markdown排版)、专业性(如加入统计数据、引用学术文献)、权威性(如包装成排行榜、专家推荐),使之更容易被AI搜索引擎识别、理解、信任并直接在回复中引用。
基于上述策略,GEO使品牌推广内容更符合AI模型的偏好,被AI搜索工具精准抓取并推荐为答案的几率大幅提升。同时,通过周期性监测AI回答中的关键指标(如品牌链接的引用次数、内容被提及的频率、整体声誉倾向等),GEO可以评估当前策略的效果,并探索进一步提升几率的优化方向。
Q3:我们在测评中注意到:一方面,部分AI搜索引擎宣称信源筛选会依据权威性、时效性等;但另一方面,实际搜索结果中仍存在大量低流量内容、甚至广告网页。据您所知,AI搜索引擎信源纳入的底层逻辑,除了公开宣称的标准,是否还存在未明示的优先级?
A3: 多款商用大模型的实际表现反映其中可能存在其他潜在偏好。
首先,AI搜索结果往往会向“同平台生态”的内容倾斜。例如,文心一言更常引用百度百科、百家号内容,腾讯元宝则更偏向微信公众号等来源。可能的原因一是同生态内容获取便捷、版权清晰,方便用作低成本、大规模的训练语料,导致训练后模型对这些内容更易理解与引用;二是平台出于商业考量,希望把流量留在自身生态中,强化了AI引擎对同生态内容的优先选择。 此外,部分AI搜索厂商为快速扩充知识库,鼓励内容生产者通过API上传内容。这类数据进入知识库后往往会在检索、排序上占据优势。
因此GEO除了针对AI模型的偏好进行内容优化外,还会将内容广泛发布到各生态中的主流媒体平台,甚至有GEO服务商宣称直接面向AI引擎营销,使其收录推广内容。这导致许多未经优化但真正有价值的内容被边缘化,反而让经过GEO包装的低质量信息获得更高优先级。
Q4:实测发现AI回答推荐的产品像是广告植入,例如:推荐餐厅经查评价较低;推荐护肤品时,在众多知名品牌中突然插入两个没听说过的“白牌”;推荐游戏时对某款未上线手游进行反复多次推荐。想请教您,消费者应该如何判断一段AI回答是否被植入了经过GEO的“广告信息”?您认为应该如何防范GEO广告营销侵蚀用户对AI回答的信任边界?
A4: 通常,AI搜索引擎会在回答中标注引用来源的链接,消费者可以点击进入相应网站,并结合其内容特征来判断回答中是否夹带了通过GEO生成的广告。首先,网站内容可能与AI回答内容甚至用户问题不匹配,这是AI搜索引擎出现了幻觉现象,该部分内容不应采信;其次,若引用的多个网站中存在内容重复、语言“模板化”、含免责声明等典型AI生成痕迹时,可能为GEO使用AI工具批量生成并大规模投放的推广内容。此外,用户可对同一问题进行多次提问,若某一品牌始终被推荐,则需警惕陷入潜在的广告陷阱。
为防止GEO广告的欺骗与诱导,AI搜索平台应承担首要责任,加强管理并警示风险。在模型训练阶段,一方面需抑制模型生成与问题无关的产品推荐行为,另一方面应降低对广告内容的引用倾向,从而减少生成用户非预期的广告类回复;在模型应用阶段,应当围绕GEO投放内容设置护栏,在检索过程中对用户交互度较低(如点击量、评论数不足)、疑似AI生成的低质量网页直接过滤或降低排序权重,同时,对可疑广告内容明确打上“广告”标识,提醒用户注意潜在的商业推广。
Q5:由于AI大模型有“黑箱”与“追溯性缺失”的特性,导致输出结果在版权、事实性、安全性和责任认定方面都有模糊,因此即使品牌应用GEO影响了用户的消费决策导致问题,也比较难追溯某一方的责任。那么GEO产业发展是否不当利用了这些特性?业界有哪些更合规的解决方案?
A5: GEO产业的发展确实在盈利过程中利用了AI大模型的‘黑箱’与‘追溯性缺失’特性,从而模糊甚至转嫁了责任。模型决策的不可解释性与结果的不可追溯性,使用户难以判断AI回答究竟源于模型的‘内部知识’还是受到检索内容的影响,也难以确认检索信息本身的真实性。在此背景下,模型提供商、AI搜索引擎、品牌方、GEO服务商之间的责任边界并不清晰,甚至在用户因广告误导而遭受损失时,责任归属亦难以明确。
今天,AI检索内容的“话语权”也成为各大品牌竞逐的焦点。当部分企业利用GEO机制散布违规、负面或误导性内容时,如何实现快速、准确的溯源,并建立有效的防御机制,已成为AI搜索引擎必须正视的课题。一方面,业界需提升对AI搜索“可解释性”的重视,通过链路追踪、因果解释等方式打开大模型决策的“黑箱”,同时在检索、排序、整合并回答的全链路中构建记录与溯源机制,明确AI回答的依据。另一方面,可依照规范AI生成内容的传播过程的《人工智能生成合成内容标识办法》,出台行业规定约束商业GEO服务商的行为,要求投放内容必须打上GEO广告标识,使AI搜索引擎及用户能直接辨识内容类型。
团队介绍
复旦白泽智能团队专注于对话大模型、多模态大模型与智能体安全研究。团队负责人为张谧教授,参与信安标委《生成式人工智能服务安全基本要求》、《人工智能生成合成内容标识办法》等多项国家/行业标准起草/建议工作,主持科技部重点研发计划课题等,并主持奇安信、阿里、华为等企业项目,曾获CCF科学技术奖自然科学二等奖等荣誉。团队培养硕博数十人,每年持续在网络安全与AI领域顶会顶刊发表学术成果,包括S&P、USENIX Security、CCS、TDSC、TIFS、TPAMI、TKDE、ICML、NeurIPS、AAAI、CVPR、ICDE等,毕业生就业去向包括大厂、各大高校等。
复旦白泽智能团队(Whizard AI)主页:https://whitzard-ai.github.io/