地球化学 > TSNE降维
TSNE降维
使用TSNE(t-Distributed Stochastic Neighbor Embedding)算法对数据进行降维分析。TSNE是目前来说效果最好的数据降维与可视化方法,但是它的缺点也很明显,比如:占内存大,运行时间长。但是,当我们想要对高维数据进行分类,又不清楚这个数据集有没有很好的可分性(即同类之间间隔小,异类之间间隔大),可以通过TSNE投影到2维或者3维的空间中观察。EnviFusion支持对散点数据、网格数据、附加数据、表格数据等进行TSNE降维分析。由于TSNE需要尽可能多的样本进行训练,所以系统将首先遍历所有时间步,并将所有样本数据收集在一起,然后进行训练。
输入数据:请指定输入数据类型。包括散点数据、网格数据、附加数据、表格数据等。
属性数列:请选择参与计算的属性数列。
输出维度:请指定输出数列的维度,应大于1且小于当前选中数据的维度。
近邻数量:请指定TSNE算法中的perplexity参数,即近邻数量,默认为15。此参数应小于数据行数的三分之一。
学习梯度:请指定学习梯度值,即Gradient Accuracy参数,默认为0.5。本参数小于0.2时会大幅增加计算时间,大于0.8时会增加计算误差。
迭代次数:请指定降维计算的最大迭代次数,默认为30步。
如上图所示,执行TSNE降维后将在结果图层数据中生成三列新字段,分别为第一(ef_TSNE0)、第二(ef_TSNE1)、和第三(ef_TSNE2)组分。可以理解为原始数据投影到新的三维空间后的散点坐标。