下面对《A Survey of Heterogeneous Information Network Analysis》一文中第3部分RESEARCH DEVELOPMENTS进行阅读
引言
作者对hin的数据挖掘任务分为了7类,如下图所示
A 相似性度量
分为两种方法:基于特征的和基于连接的
- 基于特征的使用特征值,有余弦相似性,皮尔森相似性等
- 基于连接的使用图中的连接信息
在HIN上进行相似性度量的限制是元路径,因为不同元路径语义不同。
下面列出相似性的方法
- PathSim基于对称路径来衡量同种类型节点
- HeteSim衡量不同类型节点相似性
- AvgSim使用两个对称Random Walk来衡量相似性
- 后来又加入了其他信息如社交影响来衡量相似性
B 聚类
- 传统聚类是基于目标特征,HIN聚类使用丰富的属性信息。
- 文本信息在HIN挖掘中同样扮演着重要角色
- 同样加入了用户指导信息
- 聚类常常和其他挖掘任务集合在一起
- 边缘点检测和聚类任务有强相关性。
C 分类
传统ML方法认为目标之间相互独立同分布,然而现实中目标之间相互有联系,因此也就产生了许多对传统方法拓展的研究连接的方法。
假设目标和联系之间独立。
HIN分类过程有一些新的特点:
- 同时进行多个分类过程
- 标签信息可以在整个网络中进行传播,分类过程可看做知识传播过程
- 多标签分类在HIN中很流行
- meta path在HIN分类中广泛使用
D 链路预测
链路预测用来估计两个节点之间是否有连接的可能性,链路预测可看做二分类问题:有还是没有联系。
分为两种方法:基于结构性质的和基于属性信息的。
在使用了元路径之后。许多工作使用了两步走的方法来解决HIN中的链路预测
- 提取基于元路径的特征向量
- 训练一个回归或分类模型
概率模型同样广泛应用。
多HIN之间的链路预测以及动态HIN也有相应的研究。
E 排序
排序也是一个重要挖掘方向,在算法基础上评估目标重要性和流行程度
HIN排序挑战在于:
- 不同类型的节点和联系
- 不同类型的节点有不同的语义信息
F 推荐
HIN因为具有丰富的语义和综合信息往往能产生更好的推荐效果。元路径被用来探索物体间的联系,此外大量的方法尝试去融合各种各样的信息。
G 信息融合
信息融合表示从不同的概念、文本中合并信息。随着HIN的兴起,在多个HIN中进行信息融合是一个重要的课题。
HIN信息融合的一个重要前提条件是对HIN中共享的公共实体进行排列