数据补齐 >属性补齐
属性补齐
环境监测数据中经常存在缺失监测值,除空间内插、时间内插外,借助监测数据体中所蕴含的不同指标间关系,可以尝试将数据补齐。由于环境数据体中蕴含着多种趋势和过程,这些过程之间互相叠加和影响,描绘出一幅极为复杂的图景,这时就需要借鉴使用数据科学中的手段和方法来把握指标间关系,进而对缺失监测值进行补齐。本工具使用自组织神经网络(SOM)对环境数据体进行融合补齐。
自组织神经网络的英文全称是Self-Organizing Map(SOM),是神经网络的一种特殊组织形式。我们知道,一般的神经网络有输入层,隐藏层和输出层,而且隐藏层经常还包含更多子层,隐藏层越多,模型就越复杂;而SOM一共只有两层,分别是输入层和竞争层(可以理解为输出层)。SOM输入层中接收到数据后会映射到竞争层,通过竞争学习之后,相似的数据会在竞争层中映射到相近的位置。由于这种聚类过程使用的并非某个单一维度,而是基于输入层所接受到的全部维度,所以这个聚类结果就具有数据融合的属性,可以帮助我们掌握数据体的总体规律。比如某次监测中只检测了其他指标,并未检测氯离子,而SOM可以根据其它指标的监测结果在整个数据体中的位置,将氯离子数据补齐,具有相当高的可信度。
本工具在使用时将首先累积输入图层中所有时间点的属性数据,进行统一训练,随后进行补齐操作。
属性数列:请选择参与SOM训练的属性数列。SOM的学习优化过程并不在意维度之间的逻辑关系,比如上图中的Time维度是样品的采集时间,而Layer是地下水的层位号,一般这一类非传统指标不会与其他化学指标等同分析,但SOM算法并不关注维度的物理意义,非传统指标的加入也不会对聚类结果产生重大影响,这样就为数据探索过程赋予更大的自由度。
缺失值标记:请输入数据集中代表缺失值(NaN)的整型数字,默认为-999。在准备原始数据时,请将缺失的数据统一替换为此数值。
迭代次数:请指定神经网络训练的迭代次数,若为0系统将使用默认步数:20步。一般不需要用户干预。
神经网络行数:请指定神经网络的行数,供熟悉SOM的用户手工指定。如不指定,系统将自动计算。
神经网络列数:请指定神经网络的列数,供熟悉SOM的用户手工指定。如不指定,系统将自动计算。