大数据与复杂网络

写这篇文章,有两个原因:

  • 看了李院士的《大数据研究的科学价值》,有些感触。
  • 我自己做了一段时间社交,也有一些想法。

之前也写过复杂网络的东西,但是都非常肤浅,没有真正的理解复杂网络,近期看了一些资料,有了进一步的理解。

李院士的文章,是从科学家的角度,理解大数据的价值。从文章中,我了解到以下几点:

  • 数据inside:未来数据将数据转换为产品或者服务的人。
  • 分析即服务:Aaas。构建一个统一的数据分析平台,提供丰富的api,供数据分析师进行分析,挖掘金矿。是一件很有用,同时也很有钱途的事业。
  • 大数据的存储、计算、挖掘分析的技术,还需要更进一步的发展。一些同学,规划自己的职业生涯,把这个作为储备,现在开始学习,是一个非常好的选择。我之前做过一些存储相关的东西,存储还是要往多层方向发展。
  • 在大数据中的个体之间存在着关系,有可能大数据的本质就是复杂网络的本质。为研究指名了一个方向。
  • 第四范式:之前的研究都需要有模型,在大数据的背景之下:所有的模型都是错误的,进一步说,没有模型你也可以成功。

文章中,李院士提到大数据的本质,可能就是复杂网络的本质。这是因为大数据个体之间都是关系的。举个例子,互联网。个体是网页,网页和网页之间通过超链接互相链接,当然也可能有单向的。互联网就是一个复杂网络。其中的关系已经被验证了意义的重大——PageRank算法——搜索引擎的核心之一。另一方面,大数据的产生,整体分为两类:1)生物科学中,人脑细胞、神经元,基因等等。都是大数据。2)还有就是社会群体产生的。国内现在火热的微博。就每天会产生很大量的数据。在这两类中,我们都要考虑个体之间的关系,都有一些参数和性质:平均路径长度、度分布、聚集系数、核数和介数等。这些都可以归结到复杂网络的研究当中。不过,大数据的研究刚刚开始,其本质是否就是复杂网络所能解释的还很难说。复杂网络本身也在发展演变的过程中,几年之后,那时的复杂网络也不是现在的样子。但是,社交网络确确实实是复杂网络的体现。所以,通过复杂网络的理论,研究大数据,研究社交网络,一定是一个很好的方向。

说了半天的复杂网络,到底复杂网络是什么呢?这里,我只说说我对复杂网络的浅显理解。也欢迎大家指点、讨论。我们一般所说的复杂网络具备两个特点:

  • 无尺度
  • 小世界

看起来很玄的两个词,那么该如何理解呢?无尺度的概念,比较好理解:就是网络中的度分布满足幂律分布。幂律分布可以理解度的分布比较集中。我们以新浪微博为例,粉丝上千万那的人非常少,百万的人也非常少。更多的是几百粉丝的。直白一点说,就是粉丝非常多的人很少,很集中。粉丝比较少的,分布就比较广,比较多。我之前做微博数据分析的时候,有统计过几乎所有用户的粉丝数分布的。完全符合幂律的分布。如果大家需要,可以和我进一步讨论之类。我也可以找找之前的统计数据。

小世界我觉得需要从两个角度考虑:第一个,就是网络中两点的平均最短路径很小。著名的米尔格拉姆实验的第一个结果就是:六度分隔。意思就是在我们的世界上,你想联系任何一个人,你不认识的,平均就需要找5、6个人就可以了。随着社会的发展,facebook等社交网络兴起,这个度越来越小。有报道说,已经是4.5个人就可以了。这个事情比较有意思,前些日子,还有个开发者做了一个微博应用,计算你到某个明星的距离。很多人会想,是不是很远,是不是计算很复杂?其实都不是的,小世界的特性告诉我们,这个值会很小。同时,即使在线读取关注,深度搜索的暴力方式解决,这也是很快的。第二个,不仅仅平均最短路径很小,如果消息在网络中传播,会以很大的概率,通过最短路径传播到目的地。这个很重要,这个是根本。这个是,现在微博上进行微博营销的根本所在。如果没有这个特性,通过转发,甚至是大号的转发,很难出现传播爆发的情况,很难让更多的人知道。所以这个很重要,这个也是米尔格拉姆试验的第二个重要的结果。

其实上面两个结果,都有对应的模型,能够很好的证明,而且,在实际的社交网络中,也得到的验证。大家感兴趣,可以自己研究。

那么大数据,我们作为程序员、作为研究者,能够做什么呢?其实前面也说过了,主要就三点:

  1. 存储
  2. 计算
  3. 算法

我们围绕着这三块进行,无论是工程开发者,还是研究者,都可以在这个过程中发现问题,归纳共性,提炼本质,然后上升到科学的高度。

我目前还没有李老师的高度,我也是围绕着微博做了一些复杂网络相关的研究。我希望,以后,我的工作,也能够为大数据科学进步,起到一点点作用。那我的工作,就真的有价值了。

下面是我自己感兴趣的一些点,欢迎大家讨论:

  1. 复杂网络社团结构的发现,对应社交网络中的圈子挖掘。
  2. 社交网络中,特定领域,人物影响力的排名。
  3. 社交网络中,信息传播的研究
  4. 社交网络用户关系的存储

其中,1、2、4我做了比较多的尝试,1、2效果还不错,4没有好的方法。3目前只是了解阶段,还没有开始动手。
仅以此文,抛砖引玉。
【完】