这几天,我计算了几个领域的PageRank,包括投资人,程序员这种大的垂直领域,也包括“机器学习”“数据挖掘”等这样的小的领域。在挖掘的过程中,也遇到很多有意思的事情。不过,做这个,并不是要给谁排座次,只是想尝试挖掘出来一些有意思的东西。
下面是我通过“机器学习”“数据挖掘”“信息检索”等关键字找出来的一批人,然后再计算排名得到的结果。后面一列是粉丝数。不过一些新开通微博的牛人:@余凯 @老师木 尚不在其中。我的数据是之前的一个快照。
这样的一个排序,和粉丝的数量关系就不太一致了。所以,垂直领域,还是能够做出很有意思的东西的。可以进一步挖掘,到底哪些因素影响了某一排名。
- 张栋_机器学习 48966
- 李航博士 20336
- 刘挺 44324
- 孙茂松 6147
- 沈浩老师 30236
- 马少平THU 6964
- 小蚊子乐园 37021
- 王斌_ICTIR 7032
- 刘铁岩 11266
- 王海峰_百度 10679
- 白硕 SH9930
- ICTCLAS张华平博士 4714
- 刘群MT-to-Death 3261
- 郑来轶 10421
- 张磊IDMer 6571
- 谢幸Xing 14620o
综合一下这些事情,可以得出,对微博博主进行PageRank计算,得到的结果的含义:每一个博主的PageRank值,直接代表了博主的传播力。具体点说,就是博主发布一条微博消息,能够传播覆盖多少人,越多传播力越到,PageRank越大。很多同学会讲,这个不就是粉丝的数量么?不是的,粉丝本身有的质量高,有的质量低,实际上能够影响多少人,这个是需要衡量的。举一个例子,某一个博主300w粉丝,大部分买来的僵尸粉,而另外一个博主,只有3w,都是一个一个积累起来的。对于做营销而言,哪个更好呢?显然是后者。PageRank在一定程度上,就是起到了着作用。
PageRank是一种计算的框架,一种计算的方法。在这个框架下,我们可以有很多的改进,比如就拿上面的这些人来看,我们如果想要计算专家能力排序,应该怎么做呢?仅仅是有关注,就确切表示一条边么?其实在网络建模的过程中,我们有很多的基础可以用来加强模型,或者利用不同的信息,为不同目的建立模型。比如,这条关注的边强度有多大呢?如何来衡量,一个很有用的点就是微博上两个人之间的交互信息。这个很重要,新浪可以做很多事情。
社交网络时代,数据为王。我们有很多工具,很多算法可以来做挖掘,但是,没有数据,都是白费心思的。尤其是涉及到网络的一些挖掘,网络规模达到一定程度,好多性质是不会涌现出来的。
希望和更多的同学一起交流。
计算的工具依然是graphchi,非常好用。限定领域这块儿,我做的比较粗糙,目前就是通过关键字去检索。只要匹配上了,我就认为这个博主是该领域相关的。这部分,也是需要一些工作量的。也是很有意思,很有价值的一块儿工作。