发布网友 发布时间:2022-05-01 02:57
共1个回答
热心网友 时间:2022-06-22 23:19
6. 3. 1 确定 BN 节点
确定煤层底板突水危险性评价的贝叶斯网络节点就是建立反映煤层底板突水的评价指标体系。根据区域危险性评价的综合原则、主导因素原则、定性定量相结合原则,在全面阐述煤层底板突水因素的基础上,结合 GIS 对突水评价指标量化及叠加分析的结果,确定基于 BN 的煤层突水区域危险性评价模型节点。
本项目共选取地质构造特征、含水层条件、隔水层条件和开采活动 4 个方面 13 个评价指标及煤层底板突水发生与否共 14 个节点作为构建煤层底板突水危险性评价 BN 模型的节点( 表 6. 1) 。
表 6. 1 贝叶斯网络节点名称及属性
6. 3. 2 数值属性离散化
BN 与许多机器学习算法、不确定推理算法、分类算法一样,也要求将节点的连续数值属性进行离散化( 王飞,2002; 赵卫东,2003) ,由于 BN 中各个节点间的关系是以条件概率表的方式进行描述的。所以对于包含连续变量的 BN 来说,连续变量离散化是参数学习中需要解决的首要问题。
离散化是指按照某种规则,将连续数值属性的值域划分若干子区间,给每个区间分配一个离散值,最后将原始数据更新为离散值( 凌方等,2002; 杨平先等,2005) 。
连续数值离散化算法要求能够自动确定从连续型属性到离散型属性的对应关系,现有的离散化方法大致可以分为无监督和有监督两类,无监督离散方法如等距离划分方法(是把连续区间按照区间长度等分)、等频率划分方法(是保证落入所划分的区间数据样本量相等)、K-Means算法等;有监督的离散方法如ChiMerge算法、D-2算法、决策树离散算法等。这些算法都可归纳为通过某种方法选定断点,然后根据选取的断点对连续属性构成的空间进行划分,得到有限个区域,并用自定义的标识符对每个区域进行命名标号。
从表6.1可以看出,有5个节点(断层密度、断层落差、裂隙发育程度、渗透系数、隔水层强度)的属性为连续值。本项目采取K-Means算法对这5个节点的连续属性进行离散化。K-Means算法是最经典也是最著名的类别划分算法,在各种聚类算法中一直处于比较重要的位置(付炜,1998;戴晓燕等,2003;石云平,2006;李永森等,2006)。它的优点是算法快速、简捷,并且可以有效地处理多变量和大样本数据。下面简单介绍K-Means算法的基本原理。
以K为参数,把n个对象分成K个簇(类),使得不同簇(类)之间的相似度最小、差异度最大,而同一簇(类)的内部相似度最大、差异度最小。
首先,由用户确定K(即所要聚类的数目),并任意选择K个对象,每个对象代表一个簇(类)的中心或均值。对剩余的对象,根据其与各簇(类)中心的距离,把它赋给最近的簇(类)。然后对每个簇(类)中的所有对象重新计算平均值,并将其作为新的聚类中心。这个过程重复进行,直到下列(6.1)式准则函数收敛为止。
基于BN+GIS新技术的突水态势研究
这里的E是所有研究对象的平方误差总和,p为数据对象,mi是簇ci的平均值。按照这个准则生成的结果簇趋向于紧凑和独立。
K-Means算法的过程可以描述为以下步骤:
(1)任选K个对象,作为初始的簇(类)中心;
(2)将所有对象划分到相似度最小的簇(类)中;
(3)对每个簇(类)中所有对象计算平均值,将所有对象重新赋给最类似的簇(类);
(4)重复;
(5)直到不再发生变化。
根据图6.16中属性数据库中的数据,并考虑BN条件概率的组合数量,本文将连续属性数值分为8类,即初始K=8,经计算后得到离散结果如表6.2。
表6.2 贝叶斯网络连续数据离散结果表
6. 3. 3 BN 网络的建立
BN 的建立分为拓扑结构和参数分布的建立,根据它们的构造方式,BN 的构造有 3 种不同的方式:
( 1) BN 的节点、BN 的拓扑结构及其参数分布( 即概率分布) 全部由专家确定和指定。显然,这种方式构造的 BN 完全取决于专家知识。由于人类获得知识具有局限性,因此导致构建的 BN 与实践中积累下的数据具有很大的偏差。
( 2) BN 的节点和 BN 拓扑结构由专家的知识来指定,而 BN 的参数( 即概率分布) 则是通过机器学习的方法从训练样本数据中学习得到。在领域中变量之间的条件依赖关系较明显的情况下,这种方法能大大地提高学习效率。
( 3) 由领域专家确定 BN 的节点,而 BN 的结构和参数则是通过大量的训练数据学习得到。这是一种完全由数据驱动的构造方法,具有较强的适应性,并且随着数据挖掘、机器学习和人工智能的不断发展,使得这种方法成为可能。如何从数据中学习 BN 的结构和参数,已经成为目前 BN 研究的热点。
本次分析使用第二种方法构建 BN,即由专家确定 BN 的节点和节点间的拓扑结构,然后从训练样本中学习得到 BN 的概率分布。
6. 3. 3. 1 训练样本数据
专题图叠加后共形成 579 个评价单元,故本项目共选取研究区 579 个评价单元的属性数据建立总体样本。为了结果验证需要,将总体样本以 2∶ 1 的比例分为训练样本和验证样本两部分,其中训练样本包含 356 个评价单元的属性数据。为了结果的有效性和结果的验证需要,在划分的时候要注意两部分都要包含突水点。
6. 3. 3. 2 拓扑结构
通过专家知识构建的煤层底板突水危险性评价的 BN 拓扑结构如图 6. 17 所示:
图 6. 17 煤层底板突水危险性评价 BN 拓扑结构
6. 3. 3. 3 参数学习
建立模型的拓扑结构后,根据训练样本数据采用最大似然估计得到关于底板危险性评价的 BN 参数分布。Genie2. 0 中参数学习的界面如图 6. 18 所示,分别将 BN 节点和数据库中的属性字段对应,BN 节点状态与数据库属性字段的各属性值对应,然后进行参数学习。参数学习后部分节点参数分布如表 6. 3、表 6. 4 所示。
图 6. 18 Genie2. 0 参数学习界面
至此,已完成煤层底板突水区域危险性评价的 BN 建立,下一过程就是对 BN 模型的解释和分析。
6. 3. 4 模型解释
BN 是用于知识发现和数据挖掘的很好的方法,使用它可以更好地理解问题域上不同属性间的概率依赖关系。BN 的模型解释就是用自然语言把 BN 所表示的知识含义清晰地描述出来,以便更好的理解。BN 的模型解释主要可以分为 3 个方面: BN 的节点描述、概率值的单词描述、概率依赖关系的自然语言描述( 张少中,2003) 。下面本项目从这 3 个方面对煤层底板突水区域危险性评价的 BN 进行解释。
6. 3. 4. 1 BN 的节点描述
BN 的节点描述包括节点的名称、节点的属性以及各属性的取值。图 6. 17 中 BN 节点的描述举例如表 6. 5 所示。
6. 3. 4. 2 概率值的单词描述
BN 的概率值单词描述就是将 BN 的拓扑结构定性地描述出来,这种定性描述反映问题域上不同节点之间的概率依赖关系,可以方便地使用“if…then”的自然语言进行描述。同时将概率值与概率关系对应起来,将 BN 的参数描述转化为自然语言描述形式,从而易于理解。根据文献( Druzdzel,1996; 张少中,2003) 常使用表 6. 6 中的词汇描述不同的概率值。
6. 3. 4. 3 概率依赖关系的自然语言描述
BN 的拓扑结构是一个有向无环图,其有向边描述了节点间的概率依赖关系,有定性描述和定量描述两种对概率依赖关系的描述方式: 定性描述是使用自然语言进行描述,其描述方法是 <节点名称 > depends directly on <父节点 1 > and…and <父节点 n > 。显然,当 BN中节点和有向边的数目较大时,图形模型看起来要比自然语言描述更简洁直观,但是它是对图形描述的补充; 定量描述是使用概率描述词汇描述具体概率值,并用概率语言直接描述节点的状态,对于不存在父节点的节点(根节点)而言,其条件概率实际上反映了它不同取值状态下的先验概率。
表6.3 煤层底板突水危险性评价BN结点断层与断层长度、断层密度、断层落差、断层性质的条件概率分布
表 6. 4 底板突水危险性评价 BN 部分节点先验概率
表 6. 5 BN 网络节点描述
表 6. 6 概率值的词汇描述
对煤层底板突水危险性评价的 BN 的概率依赖关系描述如下:
( 1) 定性知识
<裂隙发育程度( FL) > depends directly on <断层密度( FD) > ;
<断层导水性( FT) > depends directly on <断层密度( FD) > and <裂隙发育程度( FL) >and <断层落差( FF) > and <断层性质( FK) > ;
<突水( I) > depends directly on <褶皱强度( FS ) > and <断层导水性( FT ) > and<含水层水压( WB ) > and <含水层富水性( WA ) > and <含水层渗透性( WP) > and<隔水层厚度( AT) > and <隔水层强度 ( AS ) > and <开采厚度 ( MT ) > and <矿压( MP) > ;
( 2) 定量知识
模型中节点断层密度、断层落差、断层性质、褶皱强度、含水层水压、含水层富水性、含水层渗透性、隔水层厚度、隔水层强度、开采厚度和矿压不存在父节点,使用先验概率反映其不同状态描述:
<断层密度( FD) > is <P( FD) > to be <s1、s2、s3、s4、s5、s6、s7、s8 > in this domain;
<断层落差( FF) > is <P( FF) > to be <s1、s2、s3、s4、s5、s6、s7、s8 > in this domain;
<断层性质( FK) > is <P( FK) > to be <nothing、normal、reverse > in this domain;
<褶皱强度( FS) > is <P( FS) > to be <1、10 > in this domain;
<含水层水压( WB ) > is <P( WB ) > to be <30、40、50、60、70、80、90、95 > in thisdomain;
<含水层富水性 ( WA ) > is <P ( WA ) > to be <w eak、medium、strong > in thisdomain;
<含水层渗透性( WP) > is <P( WP) > to be <s1、s2、s3、s4、s5、s6、s7、s8 > in thisdomain;
<隔水层厚度( AT) > is <P( AT) > to be <2、3、4、6、8、10 > in this domain;
<隔水层强度 ( AS ) > is <P ( AS ) > to be <s1、s2、s3、s4、s5、s6、s7、s8 > in thisdomain;
<开采厚度( MT) > is <P( MT) > to be <0、1、1. 2、2 > in this domain;
<矿压( MP) > is <P( MP) > to be <200、300、400、500、600、700、800、900、950 > inthis domain;
模型中其他节点存在父节点,使用条件概率描述为:
When <断层密度( FD ) > is <断层密度( FD ) 的状态 s1、s2、s3、s4、s5、s6、s7、s8 > ,<裂隙发育程度( FL) > is <P( FL) > to be <裂隙发育程度( FL) 的状态 s1、s2、s3、s4、s5、s6、s7、s8 > ;
When <断层密度( FD ) > is <断层密度( FD ) 的状态 s1、s2、s3、s4、s5、s6、s7、s8 > ,and,<裂隙发育程度( FL ) > is <裂隙发育程度( FL ) 的状态 s1、s2、s3、s4、s5、s6、s7、s8 > ,and,<断层落差( FF) > is <断层落差( FF) 的状态 s1、s2、s3、s4、s5、s6、s7、s8 > ,and,<断层性质( FK) > is <断层性质( FK) 的状态 nothing、normal、reverse > ,<断层导水性( FT) > is<P( FT) > to be <断层导水性( FT) 的状态 0、1、2、3、4、5、6、7、8、10 > ;
When <褶皱强度( FS) > is <褶皱强度( FS) 的状态 1 、10 > ,and,<断层导水性( FT) >is <断层导水性( FT) 的状态 0、1、2、3、4、5、6、7、8、10 > ,and,<含水层水压( WB) > is <含水层水压( WB) 的状态 30、40、50、60、70、80、90、95 > ,and,<含水层富水性( WA) > is <含水层富水性( WA) 的状态 weak、medium、strong > ,and,<含水层渗透性( WP) > is <含水层渗透性( WP) 的状态 s1、s2、s3、s4、s5、s6、s7、s8 > ,and,<隔水层厚度( AT) > is <隔水层厚度( AT) 的状态 2、3、4、6、8、10 > ,and,<隔水层强度( AS) > is <隔水层强度( AS) 的状态 s1、s2、s3、s4、s5、s6、s7、s8 > ,and,<开采厚度( MT) > is <开采厚度( MT) 的状态 0、1、1. 2、2 > ,and,<矿压( MP) > is <矿压( MP) 的状态 200、300、400、500、600、700、800、900、950 > ,<突水( I) > is <P( I) > to be <突水( I) 的状态 <false 、true > 。
6. 3. 5 模型分析
对 BN 模型进行分析的目的在于进一步挖掘 BN 内部的隐含信息,分析的结果有利于研究者更加充分地认识、理解模型所解决的问题,并更好地应用 BN 进行推理。
BN 区别于其他人工智能推理模型的一个重要特点在于它的任意节点都可以作为输入,其他任意节点也可以作为输出。根据这个特点,本项目将底板突水危险性评价的 BN 模型中的“突水”节点的状态“true”作为输入节点,其他节点作为输出节点。观察“突水”节点“true”状态下其他节点的属性值,实质为诊断推理。根据表 6. 7 的分析结果,当断层密度为0. 000164617 ~ 0. 000189825、断层落差大于 123. 5m、断层性质为 normal、裂隙发育程度为1164. 88 ~ 1436. 05m、褶皱强度为 1、断层导水性为 8、含水层水压为 70、含水层富水性为strong、含水层渗透性为 5. 5 ~ 6. 5、隔水层厚度为 2m、隔水层强度小于 0. 84、开采厚度为 0、矿压为 500 时,这样的因子状态组合最利于突水的发生。这样的结果有利于我们从整体上认识研究区内利于突水发生的各因子不同状态的组合情况,在实际工作中可以根据可观测因子的状态以及变化情况进行突水预报预警。
表 6. 7 BN“突水”节点“true”状态下其他节点的最大相关属性及条件概率
6. 3. 6 BN 推理
BN 推理是 BN 应用的重要内容,本文应用 BN 的主要目的就是给定网络结构中除“突水”外的其他各节点的属性值,估计输出节点“突水”状态为“true”的概率,以此作为判断底板突水发生可能性大小的依据。将研究区所有评价单元的属性数据输入学习得到的 BN,通过推理得到所有评价单元突水发生的概率,图 6. 19 为概率推理后的属性数据库表,显示了部分评价单元各因子的属性以及推理得到的突水发生概率。
图 6. 19 BN 推理结果属性数据库
根据BN的推理结果,以GIS为工具,将研究区内所有评价单元的底板突水发生的概率以不同颜色表示,得到东欢坨煤层底板突水危险性评价的结果图(图6.20)。
图6.20中以黄-橙-红依次代表底板突水发生的概率由低到高。深红色表示的底板突水概率最大,在0.81~0.93之间;而浅*表示的底板突水发生的概率最小,在0.00~0.10之间。
从危险性评价分区图可以看出,突水概率较大的区域为红色区域,其突水概率在0.61~0.93之间,且大都在0.70以上。这些区域可以分两部分:一是位于矿区的北部F7,F5断层周围区域(图6.21、图6.22Ⅰ),坐落于该区域的村庄有西曹庄、小庄子、东欢坨、西欢坨等,该区域构造发育好,且隔水层厚度和隔水层强度很小,含水层富水性强,这部分区域是突水易发区;二是位于矿区的南部F27,F30,F31,F32,F34等断层周围区域(图6.21、图6.22Ⅱ),坐落于该区域的村庄有大齐坨、小齐坨,显然该区域构造发育好,且含水层水压较大、含水层富水性强,这部分区域也是突水易发区。
突水概率居中的区域为橙色区域,其突水概率在0.34~0.61之间,这些区域可以分为3部分,一是位于矿区的东南部,坐落于该区域的村庄有南曹庄、三神庄等,该区域含水层水压较大;二是矿区的中偏南部F18,F20,F22,F23,F36等断层周围区域,坐落于该区域的村庄有大荣各庄、小荣各庄,显然该区域构造发育较好,含水层水压较大,隔水层较薄;三是其他一些断裂构造比较发育的区域,分布较零散。
突水概率较小的区域为*区域,其突水概率在0.00~0.34之间,可以分为3部分:一是位于矿区北部区域,该区域构造发育差,含水层水压小,且矿压小;二是位于矿区中部,构造发育差;三是位于矿区西南部,构造发育差,该区域无断层,含水层渗透系数较小,且隔水层强度大。
图6.20 东欢坨矿区煤层底板突水危险性评价结果图
图6.21 断层与底板突水危险性评价结果拟合图
图6.22 断层与底板突水危险性评价结果拟合图局部放大
综上所述,突水易发区均位于断层构造发育的区域(图6.21,图6.22),这说明地质构造作用对区内底板突水的影响很大,这与东欢坨底板突水多发生在多断层地带的现实情况相吻合;且这些区域或含水层水压较大、富水性较强,或隔水层厚度和隔水层强度较小,说明含水层和隔水层对区内底板突水的影响也较大。含水层水压越大,对底板突水提供的动力越大,较强的含水层富水性则为底板突水提供了水源基础;而隔水层厚度越小、隔水层强度越弱对底板突水的抑制能力越差。可见,断层构造对该矿区煤12-2煤的底板突水影响最大,此外含水层水压、含水层富水性、隔水厚度、隔水层强度也对突水影响较大。