网络威胁情报(Cyber Threat Intelligence,CTI)分析技术可以有效减少信息差,提高主动防御能力。目前,威胁情报分析多以专家人工分析为主,自动化和智能化程度尚待提高。本文旨在系统梳理基于大模型的可信威胁情报信息抽取研究进展。首先定义了可信威胁情报信息抽取的总体任务框架,然后对任务框架中的数据、抽取模型、可信性评估和应用等核心部分展开了深入分析。在数据部分,对CTI数据源和数据集进行了分类和总结,对适用于大模型的新型数据集构建进行了重点分析;在抽取模型部分,分别就实体及关系、事件及关系抽取的研究做了总结分析,重点讨论了基于大模型的研究进展。考虑到可信性直接影响CTI应用,进一步展开了基于大模型的信息抽取可信性分析,随后对CTI应用情况进行了分类梳理,最后对面临的挑战和未来的研究方向进行了展望,旨在为大模型应用于CTI提供参考框架和持续研究思路,推动基于大模型CTI信息抽取的研究发展。
大语言模型凭借其出色的语言理解与生成能力在多个重要领域得到广泛应用。然而,受训练数据、学习目标与生成机制等因素影响,大语言模型的幻觉现象普遍存在,不仅对模型的输出准确性与决策可靠性构成根本性挑战,还严重制约其在高准确性要求领域的应用,已成为国内外研究者广泛关注的焦点。当前研究多集中于幻觉的检测、归因或缓解等单一环节,却未能在各环节间建立有效关联,以形成统一的治理流程,亦缺乏整体化的技术体系支撑。聚焦大语言模型幻觉治理技术,借鉴医学诊断与治疗的理念,以幻觉治理为导向构建新的综述框架,归纳梳理出涵盖“检测—归因—缓解” 3个步骤的幻觉治理流程及技术体系。该体系围绕大语言模型幻觉的现象分类、归因分析、检测数据集、检测方法及缓解策略5个维度,进行系统归纳与有机整合,形成层次化、关联化的治理技术框架,为大语言模型幻觉治理提供理论支撑。
随着大语言模型(Large Language Models, LLM)能力的快速提升,其潜在的极端安全风险日益凸显,呈现出更高的不确定性与跨领域影响。围绕网络攻击、生物安全与自主性等典型高风险情境,学术界与产业界已开展多维度评估探索。因此,梳理了前沿LLM的极端风险测评方法,总结了主流的实验设计与衡量指标,并对不同风险领域的评估实践进行了对比与归纳。在此基础上,进一步探讨了体系化和标准化的测评框架的未来发展趋势,旨在为后续极端风险评估体系的构建与完善提供参考与启发。
随着生成式人工智能的蓬勃发展,强化学习作为一项关键技术,已被广泛应用于提升模型的综合性能。然而,强化学习的引入也将模型的决策核心暴露在新的攻击面之下,其涉及的状态感知、奖励评估和动作执行每一环节均可能存在安全风险,使得强化学习过程的鲁棒性成为至关重要的安全问题。因此,从强化学习鲁棒性的视角对该交叉领域进行了系统性综述,通过建立传统强化学习安全与新兴应用场景之间的联系,深入剖析了各类攻击算法向对抗性提示、奖励模型投毒等新型威胁的演化路径;与此对应,从对抗训练、博弈论、可验证鲁棒性等多个维度,探讨了经典防御策略的迁移潜力。最后,对未来研究方向作出展望,旨在为构建更安全、可靠的生成式人工智能系统提供理论参考与技术洞见。
随着网络安全威胁的不断升级,生成式恶意流量的检测已成为网络安全领域的核心挑战。生成式流量通过人工智能技术模拟真实网络行为,增加了恶意流量隐藏的复杂性,使传统检测方法面临失效风险。图神经网络凭借其强大的结构建模能力,在捕获生成式流量字节单元间的复杂关联模式方面展现出显著潜力。然而,传统同构图建模方法难以全面刻画生成式流量中头部与负载之间的多维异构关系。异构图神经网络虽能应对此类复杂性,但独立边类型建模导致参数冗余和训练开销激增,且缺乏边类型间的协同知识传递机制。为此,提出了一种跨类型蒸馏机制,通过构建统一的结构表示路径,实现异构边类型间的双向知识传递,打破传统异构图神经网络的“信息孤岛”效应,显著提升弱语义边的特征表达能力。在此基础上,设计了一种轻量化生成式恶意流量检测模型——HEDGAT(Heterogeneous Edge-aware Distilled Graph Attention Model)。该模型采用边类型权重共享机制,将多种边类型的传播权重压缩至统一表示空间,并融入图注意力计算,大幅降低训练时间,同时保留感知结构差异的能力。基于异构图框架,HEDGAT能够精确刻画字节单元间及头部与负载间的复杂依赖关系,结合动态融合机制生成全面的流量表示。在多个生成式流量数据集上的包级和流级分类实验表明,HEDGAT在检测准确率、训练效率和模型参数规模方面均优于现有方法,展现出性能和轻量化优势。
大语言模型(Large Language Models,LLM)面临后门攻击的安全威胁,其在处理干净样本输入时表现正常,一旦输入包含触发器,就会输出攻击者预先指定的内容。现有的大多数后门攻击集中在多对一或一对一范式上(仅允许攻击者通过操纵输入攻击单个目标类),这些范式在复杂应用场景下难以实现对多个目标的灵活且隐蔽的攻击。鉴于以上问题,本文提出一种面向大语言模型的多目标复合后门攻击方法,通过在指令和输入两部分分别插入触发词,构建多组触发器与目标标签之间的映射关系,实现对多目标的灵活控制;同时,引入后门负样本以增强攻击鲁棒性并降低错误触发率。实验结果表明,该方法在LLaMA-7B模型上,对Emotion与AG’s News两个数据集均能达到接近100%的攻击成功率;引入后门负样本后,两个数据集上的攻击鲁棒性分别提升13.47%和7.18%,错误触发率分别相对降低91.79%和85.62%。
深度神经网络在视觉任务中表现卓越,但易受对抗样本威胁。对抗样本在视觉上对人类几乎不可察觉,却能显著误导模型并危及系统安全;其迁移性使攻击者无需了解目标模型结构与参数即可实施有效攻击。已有方法虽在提升迁移性上取得进展,但生成扰动过度依赖短期即时局部梯度,缺乏全局先验约束,导致更新方向不稳,限制样本质量与跨模型泛化能力。因此,提出一种基于全局先验引导的对抗样本生成方法,在初始阶段利用早期扰动信息,形成全局先验以稳定梯度更新,从而更有效地突破目标模型的决策边界,显著提升对抗样本的生成质量。该方法不仅增强黑盒攻击的迁移性,还可集成至已有基于梯度的攻击框架。实验结果表明,在以基于输入变换与基于梯度的攻击方法作为基础方法时,该方法攻击成功率分别提升15.80%和15.60%,同时保持扰动的不可感知性。
针对当前社交平台依赖删帖、封号等易引发言论自由争议的治理方式,以及现有自动化回应机制存在的泛化缺乏依据等问题,为探索兼顾言论自由与有效干预的仇恨言论治理路径,对基于大语言模型(Large Language Models,LLM)的反驳生成机制进行了研究。该方法采用4层架构设计,包含增强预处理、知识检索、模型生成与内容评估模块,结合自建结构化知识库,从逻辑、法律、事实及心理引导角度生成反驳文本。实验结果表明,在地域、种族、宗教与性别4类仇恨言论上,该框架在语言质量、生成多样性及反驳性能等指标上均优于BM25、L-seq2seq、T5、CDial-GPT和ChatGLM等基线模型。研究表明,融合知识增强与多层控制的生成框架可有效提升反驳内容的专业性、可信度与社会适应性,为自动化反仇恨言论干预提供了可解释、可控制的技术路径,并在知识库构建与评估标准制定方面提供了可借鉴的实践参考。
随着网络攻防对抗日益激烈,威胁情报的深度挖掘与有效利用成为提升网络安全防御能力的关键。针对传统信息抽取技术处理图文并茂多模态情报时信息融合不充分、知识映射不准确的局限性,提出一种基于大语言模型(Large Language Models,LLM)的多模态协同分析框架,命名为M2A-TTP(Multimodal Modular Analysis Framework for TTP Parsing)。借助LLM强大的多模态推理能力,该框架首先依据STIX(Structured Threat Information eXpression)本体抽取出结构化实体与关系,再通过跨模态证据关联机制实现文本与视觉信息的深度协同,进而引入结构化检索增强生成技术,将攻击行为精准映射至TTP(Tactics,Techniques,and Procedures)知识体系,最后通过验证与可解释性生成流程确保分析过程可靠。实验结果表明,所提方法的精度和召回率均高于现有方法。总体而言,该研究引入灵活高效的智能化多模态分析方法,优化威胁情报的知识融合过程,为构建可解释网络安全知识图谱、提升网络防御的主动性与先进性提供新思路。