异质网络初探2

下面对《A Survey of Heterogeneous Information Network Analysis》一文中第3部分RESEARCH DEVELOPMENTS进行阅读

引言

作者对hin的数据挖掘任务分为了7类,如下图所示

example

A 相似性度量

分为两种方法:基于特征的和基于连接的

  • 基于特征的使用特征值,有余弦相似性,皮尔森相似性等
  • 基于连接的使用图中的连接信息

在HIN上进行相似性度量的限制是元路径,因为不同元路径语义不同。

下面列出相似性的方法

  • PathSim基于对称路径来衡量同种类型节点
  • HeteSim衡量不同类型节点相似性
  • AvgSim使用两个对称Random Walk来衡量相似性
  • 后来又加入了其他信息如社交影响来衡量相似性

B 聚类

  • 传统聚类是基于目标特征,HIN聚类使用丰富的属性信息。
  • 文本信息在HIN挖掘中同样扮演着重要角色
  • 同样加入了用户指导信息
  • 聚类常常和其他挖掘任务集合在一起
  • 边缘点检测和聚类任务有强相关性。

C 分类

传统ML方法认为目标之间相互独立同分布,然而现实中目标之间相互有联系,因此也就产生了许多对传统方法拓展的研究连接的方法。

假设目标和联系之间独立。

HIN分类过程有一些新的特点:

  • 同时进行多个分类过程
  • 标签信息可以在整个网络中进行传播,分类过程可看做知识传播过程
  • 多标签分类在HIN中很流行
  • meta path在HIN分类中广泛使用

D 链路预测

链路预测用来估计两个节点之间是否有连接的可能性,链路预测可看做二分类问题:有还是没有联系。

分为两种方法:基于结构性质的和基于属性信息的。

在使用了元路径之后。许多工作使用了两步走的方法来解决HIN中的链路预测

  1. 提取基于元路径的特征向量
  2. 训练一个回归或分类模型

概率模型同样广泛应用。
多HIN之间的链路预测以及动态HIN也有相应的研究。

E 排序

排序也是一个重要挖掘方向,在算法基础上评估目标重要性和流行程度

HIN排序挑战在于:

  • 不同类型的节点和联系
  • 不同类型的节点有不同的语义信息

F 推荐

HIN因为具有丰富的语义和综合信息往往能产生更好的推荐效果。元路径被用来探索物体间的联系,此外大量的方法尝试去融合各种各样的信息。

G 信息融合

信息融合表示从不同的概念、文本中合并信息。随着HIN的兴起,在多个HIN中进行信息融合是一个重要的课题。

HIN信息融合的一个重要前提条件是对HIN中共享的公共实体进行排列

-------------本文结束感谢您的阅读-------------