社交圈子挖掘小结

这篇博客是对之前做的社交圈子挖掘方面尝试的总结,这个工作并没有深入太多。因为没有实际需求的驱动,没有做深。不过还是有些心得,记录下来,以后捡起来也方便,或者最好的情况,可以对后面的同学有些启发。 社交圈子挖掘,这里的圈子主要有两种:

  1. 线下真实的朋友圈子(不用诧异,真的就是如此)
  2. 还有兴趣导向的“圈子”

为什么会有两种不同的呢?因为微博具备这两个特点,在国内,微博不仅仅是一个社交媒体,而且也是一个sns社区。这就产生了这两种不同的圈子,sns的特性,似乎在腾讯微博更加显著。这两类圈子都很有用,对于社会化电商,广告的精准投放都是非常有用的。做这两中类型的圈子挖掘,要区分不同的方法,其实,以我的经验,就是要构建不同的初始网络。我在实践中做的主要是线下真实的朋友圈子的挖掘,而且效果不错。 前面的博客也有提到,现在圈子挖掘主要有两个难题:

  1. 社交网络过于复杂
  2. 评价困难

我这里只说第一个,究竟有多复杂呢?举个例子,国外的研究文章得出一个结论,说度为7,8的时候,基于链接的算法比较好。这个什么意思呢,直观可以理解为,当你有7,8个好友的时候,效果最好。可是,事实上,要远大于这些。新浪微博为例,某些人的关注都是2000。太恐怖了,他能接受得了这么多信息么?当然不能。

所以,我经常回想,实际的网络会是如此复杂么?肯定不会。所以,在正式开始圈子挖掘之前,要对社交网络进行精简。 我开始对这个想法,并不十分坚定。认为精简会漏掉很多结果。但随着实验的进行,我发现,真实的圈子并没有漏掉。反而去掉了一些实际上并不是圈子的结果。这个想法儿,并不是我的原创,但是我确实在实践中,发现这个想法儿优异。可以想想,如果有了两个用户之间的交互日志,那么精简网络,将会是一件非常简单的事情,那么最终得到的圈子,将会非常靠普。

这方面,目前只有新浪有数据,所以我很期待新浪将来会推出相关的产品。

初始网络构建完毕之后,就是选择方法进行圈子挖掘,我没有创造方法,只是试验了很多论文中的方法,其中,k-clique等效果非常好。尤其是在合理的构建初始化网络的基础之上。大家可以看我之前的博客贴出的表格,我的同事,同学圈子挖掘的相当准确。但是兴趣圈子效果不尽人意。大家如果想试试这些方法,在networx,igraph中都有。

最近国内机器学习很火,其实国外,有很多研究人员已经在用机器学习的方法,进行圈子挖掘。像新浪微博,还是有很多feature的,节点,边的属性都很丰富。要做出漂亮的结果,并不是难事。有数据就好办。

上面没有条理的小结了一番,欢迎大家讨论。我也提到,在我的实验中,兴趣圈子挖掘效果很差,主要表现为会出现非常大的圈子,不能进一步区分。这个如果后面继续做,我会再研究研究。大家有什么好方法呢?欢迎讨论。

[主要内容完,以下是广告]

做个广告,其实方法模型有好多,有些方法非常棒,但是受限于数据。尤其是现在大家都嚷嚷BigData。数据很少怎么做研究呢?

加入到爬盟中国吧:在这里大家一起收集数据,贡献得越多,你得到的就越多。加入到爬盟中国,在大数据上做研究:www.cnpameng.com