近期,极昆仑连续推出了一系列关于大模型知识增强生成的深度文章,如《GraphRAG能让大模型落地应用转起来吗?》、《检索增强生成(RAG)为何Demo易,落地难?》以及《大模型检索知识增强策略三板斧——预训练、微调、推理》等。这些文章系统性地阐述了GraphRAG、RAG等检索增强生成技术的原理、诞生背景以及它们各自的技术优势与局限,为我们清晰地勾勒出大模型知识增强应用的进展轨迹和未来方向。这些方法的出现是为了满足对更智能、更准确的信息处理需求,旨在克服传统语言模型知识更新难、推理能力有限的问题。它们利用外部知识库或文档检索系统来增强模型的表现,使得生成的内容更加丰富和精确。
然而,从现有技术到企业应用的实际需求之间,仍存在距离。大部分企业经年累月沉淀了大量业务数据,理论上,可以为大模型知识增强工作提供知识数据支持,然而大部分缺乏从数据到知识的提炼,知识质量较低。而知识质量对模型效果的影响是显著的(无论是基于文本的检索,还是图的检索)。这不仅体现在检索的准确性,还体现在用户意图识别的准确性上。检索范围内的数据质量不高,结果不准确,后续的排序、生成的意义大打折扣;而意图识别不准确,甚至可能是答非所问的效果。
为获得高质量数据,需要精细化数据治理方法论与技术,这是大部分技术团队不具备的、也不愿意投入的地方(成本过高)。
在大模型理解与生成能力出现质的提升前(也许GPT5? 也或许很难看到,毕竟Scaling Laws后继乏力),知识的质量依然是最不应该被忽略的地方,知识质量的劣化会极大地削弱检索增强生成的价值。
大模型知识增强生成难点在于知识质量
1 未精炼处理的繁杂知识数据,增加计算消耗和精度损失。
繁杂的、无关的或低质量的知识数据会导致模型在处理和存储时需要更多计算资源,因为模型必须处理大量冗余信息,导致计算开销暴增。如果注入的信息中包含无关或噪声数据,模型会受到这些不相关知识的影响,生成的内容很容易出现偏差,降低模型准确性和有效性。例如,未加区分地直接注入多义实体的多个语义,会让模型难以选择正确的语义,导致模型生成的回答可能不可靠、偏离正确答案,甚至产生误导,而处理这些多义实体,又需要更多的工程方法。如果使用的是基于提示(prompt)的方法,那则会导致高昂的token消耗成本,比如,企业级智能客服项目,极容易出现收入难以覆盖token成本,而客户满意度也难以保证。
在模型注入知识之前,应进行严格的筛选和过滤,确保只有高质量、相关性强的知识被加入,这不仅能减少计算消耗,还能提高生成结果的准确性。然而,实际落地项目中,要做到这一点,对企业级知识数据的管理、运营、理解要求非常高,属于劳动密集型、业务知识密集型项目,尤其是ToB项目中,缺少用户反馈,这也是导致大部分项目落地困难的重要原因之一。
2 知识的顺序敏感性考虑不足,容易导致上下文不一致和信息过载。
在大规模语言模型中,知识的顺序和上下文的关联性非常重要,尤其是在外部知识检索增强时,如果检索到的文档和查询简单拼接后直接输入模型,未充分考虑文档的排序和与查询的相关性,可能导致模型在生成回答时缺乏有效的上下文连接。例如,模型可能将不相关的信息与重要内容混合,导致输出不精确或无法回答实际问题。拼接多个文档后,知识量过大且无序,可能会让模型在推理时被过多的无关信息干扰,影响最终回答的质量。
所以,对于检索到的文档、图数据,还需进行排序、精炼和优化,以确保知识的顺序与查询的上下文高度契合,提高模型在实际任务中的表现。
3 未对不同知识类型区分处理,浪费计算资源,更容易引入噪声。
不同类型的知识需要根据其重要性、相关性和模型已经掌握的情况进行有区别的处理,如果将所有输入的知识进行检索和增强,忽略模型已经掌握的常识性知识和已知信息,会造成计算资源的浪费。比如,如果模型已经知道某个基本事实,但每次都通过外部检索增强,该过程将不必要地消耗计算资源,降低了效率。另外,如果没有精细筛选模型需要增强的知识类型,模型可能会接收到不相关的或噪声数据,影响最终的推理结果。例如,注入一些常识性、无关的事实可能干扰特定领域的生成任务,使得模型无法专注于任务核心。
4 缺乏新旧知识更新机制,模型容易出现知识遗忘、稳定性降低。
通过编辑算法将新知识加入模型时,如果没有适当的机制,模型可能会忘记之前已经学到的有用知识(特别是通过旧的训练数据学到的内容),这种遗忘现象通常是由于新知识在参数更新时未与旧知识平衡引起的。此外,随着知识编辑的频次增加,模型可能会逐渐失去其原有的稳定性,导致生成的回答出现不一致或不准确的情况。比如,新增的知识可能改变了原有的推理路径,产生不符合先前逻辑的输出,影响模型的长期表现。
应对大模型知识增强生成落地难的策略
1 精细化数据治理
为应对上述知识质量问题,需要将数据知识化(哪怕只是清洗数据),在具体的工业场景中,首先要清楚什么是知识增强检索中的“知识”:知识就是根据业需,经过一定清洗、筛选和组织后的数据。
如下图所示,数据中任一字符都是数据,依据一定需求把数据简单结构化并定义字段后,数据就被赋予了具体场景语义,变成了人可理解的知识,也是大语言模型(large language model,LLM)能更准确理解的知识。如果,希望LLM具备良好的推理性能、高精度可控性,在此基础上,可以考虑将整理后的知识进一步结构化,形成知识图谱,尤其是针对那些稳定的、多部门业务所需的、逻辑推理的场景中。
知识的简单结构化和字段定义,主要针对那些范围开放、类型丰富、低频的知识应用需求。它首先需要一个数据归纳结构,将数据按照一定的体系做基础的归类,目的是:明确各类数据在下游知识应用过程中的适用性权重、制定数据清洗转换和适用策略、进行数据层次化管理。
比如上图中从一堆繁杂调度资料中整理出业务部门经常使用的关键内容。又如,能源、制造业的设施设备采购与安全监控数据,将会涉及到大量数据:从内容形式上,可能包含设施设备产品谱系分类、状态运行监控系统及监控数据、技术规范、管理培训制度、运行维护日志、配件供应商及产品知识;从信息形式上,可能包含图片、视频、音频、文本;从数据形式上,可能包含结构化数据、半结构化数据、非结构化数据。在实际知识管理与应用落地场景中,整合这些多元数据难度与数据价值成正相关。
将数据知识化一些务实的基础策略参考:
① 统一数据规范:为不同类型的数据制定统一的格式和标签体系,如元数据标签,为原始数据提供上下文,帮助不同数据在分类、检索时具备一致性。
② 数据分类、分层:对非结构化数据(如文本、图片、视频)进行内容解析,将其归类到对应的知识领域。例如:根据业需将技术规范和标准制度结构化(文本实体抽取和关系抽取,或简单的文本宏观主题结构化化抽取与存储);根据数据使用频繁程度,将数据分层,并对热门数据进行细粒度知识分析,比如内容层面采用FAQ、知识图谱、摘要等形式组织,存储查询层面则采用多级数据聚合、冷热数据分层等查询引擎加速优化。
③ 动态数据权重机制:不同数据的适用性权重需要根据具体应用动态调整。例如:设备采购场景,产品谱系和技术规范的权重高;安全监控场景,实时运行监控数据和历史日志的权重更高。
知识图谱(Knowledge Graph, KG) 是一种融合算法、知识运营与工程实践的综合性知识管理与应用解决方案。这种方案在处理高频、深度知识问答方面非常有效,能够显著提升精确查询、数值计算和规则推理的能力,尤其在宏观和长链条问题的分析中表现突出。通过KG知识表示方式的结构化和清晰性,数值计算和规则推理可以实现更深入的关联分析。此外,知识图谱构建过程中会进行冲突检测和消解,从而保证事实的正确性,同时具备较强的可解释性,所有推理和结论都可追溯。然而,知识图谱在处理长尾问题时可能面临数据稀疏、模型效果差和性价比低的挑战。总体来看,知识图谱的高深度、高精度与其不够一般化之间存在内在的权衡关系。
然而,知识图谱的构建是一项高门槛的工作,需要在实际需求和资源约束下综合考虑:用户输入的类型和形式、知识需求的粒度与优先级,到知识获取的便利性、存储与查询效率的折中;此外,也需考虑后续知识的运营与管理良好的便利性。这需要团队深刻理解业务需求和知识图谱的技术特点,一个高质量的领域知识图谱往往需要行业专家、数据运营专家和算法专家的密切协作。因此在项目初期,明确的业务场景和目标定义至关重要,同时还需根据这些目标对知识的深度和颗粒度进行优化,以满足复杂的业务查询和推理需求,并沉淀业务知识。
构建知识图谱一些实用策略:
① 深刻分析目标业务中的输入类型、查询复杂性、对结果粒度的需求,以及潜在的扩展场景。如果没有明确的目标定义,团队可能会在数据收集和构建过程中陷入“数据过载”或“方向不明”的困境,最终导致资源浪费和图谱效用不足。知识图谱应聚焦于快速回答用户的常见问题,设计重点在于高频问答对的覆盖和高效检索,而在因果推断、故障检测等洞察性场景,重点可能在于知识间复杂关系的推理能力。
② 图谱的深度和颗粒度根据业务目标和资源情况动态调整,粒度过细会导致构建和运营成本高昂,粒度过粗则可能无法满足复杂推理或精确回答的需求。在业务目标的引导下,对关键知识点进行深化,优化知识关系网络,使图谱能为复杂查询提供支持。
③ 权衡存储与查询效率,基于图数据库的系统(如Neo4j)在检索效率上可能优于传统关系数据库,但在大规模分布式存储和更新的场景下,需权衡技术栈的选择和硬件成本。
④ 设计良好的知识更新机制(基于规则的编辑工具或自动化更新算法,降低知识编辑的门槛),在业务持续更新和演化过程中,应尽量在不破坏已有结构和逻辑的前提下高效增量。
这些数据转换为知识的策略,在很多人看来很初级,但却往往能给下游算法模型效果带来大幅提升,在未经恰当数据处理的数据上反复迭代的高大上算法模型,收益反而有限。
2 大模型与知识图谱融合
广泛的商业应用场景中,如何有效地融合大语言模型与知识增强的能力,确保模型能理解复杂的语境、获取最新实时知识,从而输出最相关、准确的答案,不仅需要考知识范围与组织形式,更需要技术创新。
作为知识管理工具,KG构建门槛高,低频知识数据稀疏,而LLM不具备专业知识和领域推理计算能力。《GraphRAG能让大模型落地应用转起来吗?》介绍了无本体图谱构建,导致图谱笨重、低效益,虽不是一个具有广泛可落地性的方案,但它结合KG与LLM的优势,在垂直领域将数据和业务下钻的思路是很有启发性的。
2.1KAG框架
阿里最近发布的 KAG模型(Knowledge Augmented Generation),在知识增强生成领域引入了新的实践。KAG参考了 DIKW层次结构(数据->信息->知识->智慧),并在此基础上升级了SPG(Schema-Property-Graph),使其更加适配LLM的需求,形成了面向大模型友好的知识表示形式 LLMFrSPG。这一表示方式兼容强Schema(高度结构化的专业知识)和弱Schema(开放式、灵活的信息),通过构建图结构知识与文本知识的互索引,解决两类知识协同管理的问题。
KAG 的设计目标是全面覆盖不同类型的数据和知识,包括:
l 非结构化数据:如新闻、事件、日志、书籍等
l 结构化数据:如交易、统计、审批等
l 规则化知识:如业务经验和领域知识
为实现这一目标,KAG采用了多种技术手段,包括:
l 版面分析:提取文档的排版结构和关键信息布局。
l 知识抽取:从数据中识别出可用的知识点。
l 属性标准化:统一属性和字段的格式以提升一致性。
l 语义对齐:确保不同来源知识之间的语义一致性。
通过这些技术,KAG将原始业务数据与专家规则融合到一个统一的业务知识图谱中。
KAG 的核心目标是降低KG构建门槛,并缓解知识稀疏问题。同时,针对 RAG模型,KAG注重文本块(chunk)的逻辑管理,提升文档分割后各单元的关联性与准确性。此外,KAG优化了 GraphRAG的开放式信息抽取过程,有效减少噪声干扰。通过这一系列改进,KAG力求在垂直领域实现更准确的事实性回答,同时保留知识的分层结构,促进不同层级知识的有机融合。
KAG是一个复杂的系统,图谱构建与开放信息抽取流程与KG类似,涉及结构化构建、映射与关联、要素标准化等。每一步都依赖于前一步的输出,计算资源消耗大也是一个不容忽视的方面,误差传播和三元组生成的稳定性是核心挑战。
然而,这种复杂性对于在开放领域数据集上追求知识的准确性、结构化和深度表达可能是必要的。需要指出的是,以高置信度的初始知识库(例如领域专家的知识)作为基准,可以确保初始知识的可靠性,从而大大减少误差传播的可能性,为了提高 KAG 的效率,采用高质量的初始知识库被认为是性价比最高的策略。
2.2 KG增强意图理解策略
在企业级应用场景中,由于用户的业务类别和方向相对稳定,业务活动产生的数据和对数据的需求也具有相对的方向性和一致性。因此,用户的查询意图往往是有限且集中的。通过对数据的精细化治理,可以进一步从用户查询语句(query)中构建关于意图的知识图谱(Intent Knowledge Graph, IKG),以更贴合企业垂直领域业务逻辑的方式,解析用户输入中隐含的任务和目标。极昆仑在解决实际落地项目中,提出了一套基于意图知识图谱的技术方案,这种意图知识图谱的关键步骤是:
① 全局业务梳理与高维抽象建模:首先,对企业的业务类型、数据结构、动态数据形式以及具体的应用场景进行梳理和抽象建模。通过自顶向下的方法,构建统一的知识本体,涵盖结构化数据库、非结构化知识库和隐性业务经验等数据来源。在运行优化过程中,可以进一步增加动态意图学习功能,通过用户反馈持续更新意图知识图谱,优化对新需求的适应性。这种方式避免了对每个具体知识点进行精细表示,而是通过高维抽象提高知识的覆盖范围。
② 意图拆解与任务分配:用户的查询语句经过意图知识图谱的解析,拆解为一系列子任务。例如,当系统识别用户意图后,会根据查询内容匹配适合的数据源(如FAQ数据库、知识图谱、摘要简报、学科知识库或研究报告、图像数据、隐性业务经验库),并对不同数据库采取特定的检索策略。
③ 模块化任务执行与动态集成:各任务模块能够独立运行并优化,例如某模块针对FAQ数据快速检索,而另一个模块对知识图谱进行深度推理。最终,所有检索结果依据权重和相关性进行重排序,并以Prompt形式与用户query拼接后传给LLM,生成自然语言的最终答案。
这种方案的优势在于:
① 提高任务拆解的准确性与效率:基于意图知识图谱,系统对用户输入的理解更加深入,不仅能快速定位所需数据,还能根据拆解的任务更精确地执行检索。
② 优化知识覆盖与推理效率:通过高维抽象的本体构建,避免繁琐的知识细节表示,同时降低推理复杂度,在实现广泛知识覆盖的同时确保查询高效。
③ 减少幻觉问题与复杂工程化挑战:该方案克服了RAG模型中可能出现的幻觉问题和KAG系统的高工程复杂性。系统的模块化设计还支持独立优化和动态调整。
④ 灵活的结果集成与输出:将各模块的检索结果动态整合,通过统一的生成模型提供一致、准确的输出,满足用户的业务需求;在没有LLM支持的情况下,用户也能得到比较准确的相关性答案片段。
这种基于意图知识图谱的查询解析与任务执行方案,结合企业级应用中数据与场景的特性,能够高效满足用户需求,同时显著提升系统的智能化和可靠性。
当下流行的Agent+RAG的方案与本方案非常近似,都有一个任务分解、执行决策过程,但Agent严重依赖于LLM,使用大语言模型昂贵,又常有延时问题,另外数据安全问题、易受prompt攻击等安全问题,在许多情况下,使得Agent+RAG的方案不值得付出代价。
结语
知识增强生成技术的核心在于高质量知识的获取、组织与应用,而这一过程离不开精细化数据治理和知识图谱融合。通过构建清晰的知识框架,优化数据治理流程,融合大模型与知识图谱等技术手段,可以有效提升知识增强生成的实际应用价值。然而,要实现技术从实验室到企业应用场景的全面落地,仍需平衡技术创新与业务需求之间的关系,重点关注知识质量、模型性能与成本效益的统一。未来,随着大模型能力的持续发展和知识管理技术的不断完善,知识增强生成有望在更多垂直领域释放潜力,为智能化信息处理和决策支持提供更强有力的支撑。