0 引言
我国煤矿点多面广,总数达4 000多座,随着开采深度的不断增加,各类灾害风险耦合叠加,传统监管监察能力已不能适应新发展阶段的要求,因此需要采取“人防+技防”的方式,加快煤矿安全智能化建设,为监管监察工作提供大数据支撑,利用智能辅助决策、24 h远程监控、“互联网+执法”[1]等技术手段,有效弥补监管监察能力不足。为应对挑战,国家矿山安全监察局着眼未来,依托“互联网+电子政务”[2]的管理理念,组织各省级监管监察单位,按照煤矿企业到省级监管监察单位,再到国家矿山安全监察局的技术路线,实施煤矿数据联网工作,目前已实现全国煤矿的安全监控、人员定位、视频监控系统数据在“应急云”上汇聚。随着数据接入率的提升,煤矿数据资源体量不断增长,监测预警与监督执法的科学性也不断提升[3]。因此,持续探索通过数据要素的深入挖掘和人工智能大模型等新质生产力的创新应用,对煤矿行业内的数据进行有效融合、关联和分析利用[4],构建煤矿多灾种和灾害链综合监测、风险早期识别和预警预报能力,以新质生产力加强煤矿智能化建设具有重要意义[5]。
自以ChatGPT[6]为代表的大语言模型出现以后,掀起了新一轮的研究和应用浪潮,其中知识检索生成的应用尤为广泛,ChatGPT 在人机自然语言交互方面取得的成功表明了检索语言的重要价值。在煤矿垂直行业领域,基于通用模型的知识检索生成仍有欠缺,由于大模型存在生成内容与事实存在偏差的情况[7],其依赖的信息可能随时间迁移而不再精准适用,在处理特定专业知识时响应效率有限,难以提供专业领域内深刻独到的见解,同时在复杂逻辑推理能力方面也有待提升。在实际应用中,数据需要不断更新以反映最新的发展,生成的内容必须是透明可追溯的,以便控制成本并保护数据隐私。因此,不能简单依赖这些“黑盒”模型,需要更精细的解决方案来满足这些复杂的需求。
利用RAG检索增强生成技术,能够有效提升大模型输出内容的可靠性[8]。具体而言,该技术通过为大模型接入外部专业领域知识库[9],在生成回答时优先检索权威信息源进行内容校准与补充,从而显著降低模型输出与事实存在偏差的情况,帮助大模型提供更精准、更具专业性的回答。通过语言大模型和检索增强生成技术相结合,利用煤矿行业积累的丰富的法律法规、技术规范、历史案例、文献资料以及风险监测预警报告等文档,构建煤矿风险智能咨询平台,实现精准的文档检索和智能化的知识问答,以满足煤矿行业工作者准确检索煤矿安全风险的需求。
1 平台业务流程
煤矿风险智能咨询平台主要业务流程包括构建数据索引、检索和生成。平台业务流程如图1所示。

图1 平台业务流程
Fig.1 Platform business process flow
(1)构建数据索引。在构建数据索引的过程中,首先需要将不同格式的文档切片成均匀的小块,这些小块被称为“文本块”,每个文本块包含了一段原始文本信息。针对煤矿监管业务需求,文档类型主要涵盖法规标准与技术规范、风险监测预警报告、历史案例和文献资料这3类。切片方式根据文档特性调整,例如法规文档按章节和条款递归分割,监测报告按时间维度或事件类型拆分,确保每个文本块保持语义完整性。利用向量模型为每个文本块生成嵌入向量,嵌入向量实际上就是利用多维空间中的点,可用来比较单词/句子之间的相互关系。最后,将这些嵌入向量存储到专门设计的向量数据库中,以便后续快速检索。
(2)检索。在检索阶段,模型接收到用户的查询,例如“某高瓦斯矿井瓦斯浓度1.5%持续8 min,是否构成红色风险预警?”,利用向量模型将查询转换为向量形式,并在向量数据库中进行相似度比较,找出与查询最相关的K个文本块。这个过程是基于向量空间中的距离度量,比如余弦相似度[10],确保检索出来的文本块与用户问题在语义上尽可能接近。
(3)生成。在生成阶段,首先构建提示工程,提示工程可以引导大模型更好地理解任务需求和上下文信息,从而提高大模型的输出质量。例如,针对“风险预警分级”问题,提示语可设计为“请根据《矿山安全风险监测预警处置工作管理办法(试行)》,结合当前监测数据,给出风险预警分级建议”。然后将原始查询和检索得到的文本块结合起来生成提示语并作为输入,送入大语言模型中。大语言模型根据提示语生成连贯且信息充实的回答,如“根据《矿山安全风险监测预警处置工作管理办法(试行)》,瓦斯浓度大于等于1.5%且持续时长大于等于10 min时,判定为红色预警,该矿瓦斯浓度达1.5%且持续8 min未达标准,需立即核查通风系统,1 h内提交处置报告”。
2 平台技术架构
煤矿风险智能咨询平台按照基础资源层、数据存储层、服务层、应用层4层技术架构进行设计。平台技术架构如图2所示。

图2 平台技术架构
Fig.2 Platform technical architecture
(1)基础资源层。基础资源层包括平台所需硬件资源、系统软件(操作系统、应用中间件、数据库系统等)、网络环境等基础性工程,重点需要依托向量模型工具(如m3e、bge等)和大语言模型工具(如DeepSeek、ChatGLM[11]和Baichuan[12]等),向量模型可对用户问题及文档片段向量化,大语言模型可对匹配的向量片段内容做总结、概括、分析处理。
(2)数据存储层。数据存储层用于存储文档信息,为问题检索和答案生成提供数据支撑,其中,向量数据库(如Milvs、Faiss[13]等)存储文档向量结果,Doris分析型数据库存储原文档数据,ES数据库存储文档索引。针对煤矿监管需兼顾“语义关联”和“结构化查询”的复合需求,数据存储层实现多模态数据管理,向量数据库支持毫秒级相似度检索,Doris数据库支持按“分类(法规/案例等)”“时间(近1月/近1年等)”等维度快速筛选,ES数据库支持布尔查询(如“瓦斯超限 AND 处置措施”)。
(3)服务层。提供通用文档解析能力,文档上传、下载和发布等管理服务,与大语言模型进行接口对接,支持基于提示工程生成答案,结果可溯源,并提供提示管理、相关推荐和高亮回显等辅助服务。针对煤矿监管“依规执法、依案处置”的核心需求,服务层封装了监管场景专用提示模板(如“请根据《XX条例》第X条,结合当前监测数据,给出处置建议”),并内置版本控制(如“《煤矿安全规程》2025版与2022版对比”)和权限管理(如市级监管人员仅可编辑本市案例)等功能,降低用户使用门槛。
(4)应用层。提供服务能力和平台2种形态,便于业务轻量化集成,可结合实际需求构建文档问答和搜索应用。应用层覆盖“远程监察”“现场执法”“企业自查”等多场景,Web端应用支持监管人员在线查阅法规规范并生成报告,API接口对接现有监管系统,包括煤矿风险监测预警系统等,实现“问题咨询-处置建议-执行反馈”的闭环,移动端适配支持现场监察人员“随时调取法规”的需求,推动监管模式从“线下为主”向“线上线下融合”转型。
3 平台主要功能模块设计
煤矿风险智能咨询平台主要功能模块包括文档管理和文档问答2个模块。
3.1 文档管理模块
文档管理模块支持用户在线管理文档,可支持在线管理非结构化文本,对文档进行段落拆分,对拆分后的段落生成新的段落主键,可支持对文档进行发布、下线、下载、删除等操作。针对煤矿法规更新频繁、风险监测预警报告时效性强的特点,文档管理功能强化了版本控制与实时更新能力,法规文档上传时可添加版本标签,风险监测预警报告通过接口自动同步监测系统生成的日/周/月报,确保知识库时效性。
(1)分类管理。支持定义文档分类,包括行业法律法规与技术规范、风险监测预警报告和历史案例与文献资料等,可按分类型搜索,便于监管人员快速定位关键文档。
(2)上传文档。支持批量上传多个文档,文档上传后平台会对文档进行片段切分,切分完成后即可对该文档进行发布操作。文档上传拆分完成后默认状态为草稿状态,草稿状态的文档不支持搜索,需要发布后才可被搜索,确保仅审核通过的文档进入检索库。
(3)预览文档。可对已上传文档进行在线预览,支持表格数据转换为结构化文本,提升文档可读性。
(4)发布文档。可将文档片段同步给向量模型,生产片段向量,满足搜索需求,同时将文档元数据(如标题、时间、适用煤矿分类)存入Doris数据库,辅助精准检索。
(5)下线文档。对于发布的文档可进行下线操作,下线的文档不支持搜索该文档内容,适用于过期法规或错误案例的快速下架。
(6)新建文档。支持用户新建文档,文档名称定义后进入到文档内容编辑页面,支持用户定义文档段落篇章及内容,特别适用于录入企业自查报告或专项整治方案。
(7)下载文档。新建或上传的文档支持用户下载本地操作,满足档案留存需求。
(8)删除文档。支持用户删除文档,删除后的文档不支持搜索,确保知识库的清洁性。
3.2 文档问答模块
文档问答模块提供基于自然语言问答知识的能力,利用文本向量检索引擎能力,实现知识库智能问答服务。针对煤矿监管中问题专业性强、信息需多维度等特点,文档问答支持以下功能。
(1)文档筛选。该模块支持选择某个分类下的文档搜索,分类支持多选,也支持指定具体文档或多个文档。
(2)问题搜索。该模块支持用户输入自然语言搜索,平台通过双路径检索(语义+关键词)提升准确率。
(3)追溯来源。该模块匹配的答案支持追溯来源文档及片段,提供召回结果供溯源,满足监管“证据链完整”的要求。
(4)结果反馈。该模块对于返回的最终结果,支持用户点赞、点踩反馈,反馈数据用于优化检索模型。
(5)文档关键词匹配结果。该模块基于ES关键词索引匹配到的文档段落结果,解决语义检索在煤矿专业术语处理和结果可解释性等方面的不足。
(6)相关推荐。该模块可基于用户问题推荐相关问题,如输入“瓦斯超限处置”,推荐“瓦斯超限如何判定为重大隐患?”,提升查询效率。
(7)热门搜索。该模块推荐用户高频检索问题,反映监管关注重点。
4 关键技术
4.1 领域知识入库
对各类文档做格式解析转化成文本内容,解析后的文档平台会按文档主题拆分子片段,保障一个片段的内容完整性,切分好的片段会通过向量模型生成文本的嵌入向量,存储于向量数据库。领域知识入库流程如图3所示。

图3 领域知识入库流程
Fig.3 Domain knowledge ingestion process
高性能RAG系统依赖于准确且清洁的原始知识数据。为保障数据准确性,运用文档读取器和多模态[14]模型,对煤矿行业丰富多样的知识源展开处理,涵盖各类文档、图表、报告等,通过先进模型将其转换为大语言模型能够理解并处理的纯文本数据,实现不同模态信息的有效融合与转化。与此同时,针对知识文档,开展一系列基础数据清洗工作:一是运用基本文本清理方法,去除文本中的格式错误、拼写错误等常见问题,保证文本的规范性;二是借助实体解析技术,精准识别文本中的关键实体,如矿井名称、风险类型、处置标准等,为后续知识处理与检索提供明确的语义指向;三是采用文档划分手段,将长文档合理分割为多个部分,便于后续处理;四是实施数据增强策略,通过同义词替换、语义扩展等方式丰富数据表达,提升数据的多样性与丰富度;五是建立用户反馈循环机制,根据用户在实际使用过程中的反馈,及时发现并修正数据存在的问题,持续优化数据质量;六是设置时间敏感参数,确保数据的时效性,使系统能够及时获取并应用最新的煤矿行业知识。
文档完成解析后,需要分割成多个文本块再进行向量嵌入,本平台采用的是递归分块,即通过重复地应用分块规则来递归地分解文本,如先通过段落换行符进行分割,然后检查块大小,若超过128个词元则用单换行符再次分割,以此类推,确保块大小灵活调整。文档完成切片后,使用支持中文较好的bge模型将文本转换成向量,存储到向量数据库,同时将文档元数据(名称、摘要、关键词、章节名称、时间)一同存储,辅助精准检索。
针对煤行业文档特性,领域知识入库流程强化了数据清洗与语义增强。对于法规标准类文档,采用递归分块策略,按照章节→条款→句子逐层分割,确保每个文本块对应具体条款,并提取关键词、适用煤矿类型等作为元数据,提升检索精准度;对于监测报告类文档,将表格数据转换为结构化文本,并对口语化描述进行语义扩展,提升检索覆盖率。
4.2 问题向量索引
用户问题输入后,用户问题会通过向量模型生成问题嵌入向量,使用问题向量在向量数据库中搜索文档片段向量,找到与之最匹配的若干片段。将这些原始片段返回,并把相似度排序处于前K位的检索结果提供给大语言模型。
问题向量化后,从向量数据库中检索时,平台使用K-mean算法将向量分为数个簇,找到距离查询向量最近的簇进行搜索,并采用余弦相似度衡量向量相似度,其忽略文本长度差异,专注于语义相似性。为提高检索质量,平台在向量数据库检索之上提供滑动窗口搜索(匹配分块后扩展上下文)、摘要搜索(先检索摘要再定位详细文本块)、添加元数据搜索(如时间、文档类型)等优化措施,并针对“语义相似≠业务相关”问题,对初始检索结果运行重排序模型,提升最终块列表的相关性。针对煤矿监管中“问题专业性强、需结合历史对话”的特点,平台通过结合历史对话的重新表述和多查询检索提升召回效果。
4.3 多源结果比较
用户问题会经过多线路索引匹配,在收到用户问题后,平台会将用户问题同时传输给向量模型和ES索引库,基于2条路径匹配的结果进行比较计算可信度后,取最终召回的结果提供给大模型。多源结果比较流程如图4所示。

图4 多源结果比较流程
Fig.4 Retrieval process flow
问题向量索引将用户问题向量化后,基于向量结果索引匹配的文档片段索引,按置信度由高到低排序;ES索引库将用户问题进行分词后,通过ES提供的API进行关键词索引,结果按置信度由高到低排序。最终召回篇章取向量检索排名前K结果和ES索引匹配排名前K结果,合并后去重并按综合评分排序,经过测试本平台选用的综合评分公式为:语义相似度×0.7+匹配度×0.6+时效性/权威性×0.4,确保结果既符合语义又满足业务需求。
4.4 大模型应用
为实现大语言模型的多轮对话,需要从会话历史中提取上下文,组织大语言模型的提示语,利用大模型的推理能力,结合用户查询内容和检索到的知识片段给出问题答案。大模型文档问答流程如图5所示。

图5 大模型文档问答
Fig.5 Large model document Q&A
针对煤矿监管“准确性、可追溯性、合规性”要求,平台通过提示工程引导模型“说真话、讲依据”[15]。通用提示要求“回答需符合《煤矿安全规程》要求,不添加主观推断”,场景化提示针对“隐患判定”问题要求“明确回答是否构成重大隐患,并引用具体条款”,针对“处置建议”问题要求“给出分步处置措施,包括时间要求、责任部门、法律依据”。结果溯源在生成回答时嵌入引用文档的编码与片段偏移量,用户点击可跳转至原文档预览,满足监管“证据链完整”的要求。少量样本学习在提示词中加入典型案例,引导模型学习判定边界。提示语设定完成后,调用开源且支持中文的大语言模型,使用LangChain[16]作为开发框架实现流程编排,该框架拥有调试工具,可定义回调函数查看上下文使用情况,检查检索结果来源,确保生成过程透明可控。
5 平台应用
2023年,煤矿风险智能咨询平台在国家矿山安全监察局云南局得到成功应用,该平台基于大语言模型和检索增强生成技术来提高风险预警准确性和实时性,显著提升了监管监察机构精准执法能力、煤矿企业的安全管理水平和风险防控能力。
(1)平台收录了煤矿安全生产条例、煤矿安全规程、煤矿重大事故隐患判定标准和煤矿数据采集联网规范等700多部法律法规、部门规章制度和技术规范,以及2 500多册历史事故案例和文献资料,为相关风险产生的标准判定、防控处置措施和处罚规定等提供参考。
(2)利用国家矿山安全监察局云南局已建的煤矿风险监测预警系统自动收集煤矿安全风险监测预警分析研判日报、周报和月报,报告包含上期各地区煤矿风险落实情况、本期重点监测气体超限和处置情况和存在问题、人员定位系统存在问题以及处置情况、联网运行情况以及风险详情列表等。同时,支持上传煤矿企业自查报告和专项整治方案等报告。通过监测报告内容,可实现按检索条件生成煤矿风险信息。文档管理界面如图6所示。

图6 文档管理界面
Fig.6 document management
(3)利用平台前端进行风险相关问题咨询,可以展示回答的结果来源于哪个文档,方便溯源,且同步展示基于关键词匹配的结果列表,提供更多参考信息。咨询问答界面如图7所示。

图7 咨询问答界面
Fig.7 Consultation and advices
(4)平台上线后,构建800 多个问答测试集,围绕法律法规与技术规范、风险监测预警报告和历史案例与文献资料3个类型,对比煤矿风险智能咨询平台与ChatGLM等通用大模型回答的准确率结果显示,该平台在法律法规与技术规范问答中,回答准确率平均领先通用大模型 28%;在风险监测预警报告相关问答里,准确率平均高出 59%;针对历史案例与文献资料的问答,准确率平均超出 45%。应用结果表明,煤矿风险智能咨询平台在煤矿专业知识的精准把握以及时效性知识的高效应答方面具备显著优势。
(5)平台运行后,有效推动了国家矿山安全监察局云南局执法的效率,目前实现人均每月远程线上巡查次数达到60余次,共发现风险隐患500余次,并根据线索证据开展线下核查,处置相关风险隐患,对相关责任单位进行处罚,有效推动了国家矿山安全监察局云南局远程监察执法的精准性。同时煤矿企业通过该平台及时发现自身风险,参照处置办法开展风险防控,实现风险早发现早处置。
(6)该平台的应用极大提升了煤矿风险监测预警的自动化和智能化水平,通过不断调优,风险预警分析准确率达到90%以上,能够快速准确提供风险处置措施建议或应急响应方案,同时通过广泛的数据学习和模式识别能力,风险识别的覆盖率提升到92%以上。
6 结语
基于大语言模型和检索增强生成的煤矿风险智能咨询平台,通过在语言模型生成答案之前,先从广泛的文档数据库中检索相关信息,然后利用这些信息来引导生成过程,极大地提升了内容的准确性和相关性。增强检索生成技术有效地缓解了大语言模型容易生成与事实不符内容的问题,提高了知识更新的速度和知识专业程度,并增强了内容生成的可追溯性,使得大语言模型在实际应用中变得更加实用和可信,既可以充分发挥大语言模型的语言组织天赋,又可以由专业知识库来保证回答的准确性。随着更多煤矿行业风险相关知识入库,煤矿风险智能咨询平台的问题覆盖范围与回答深度将得到显著提升,未来将深入多模态的研究和应用,进一步提升该平台的智能化水平。