大数据是谜还是圈套

某电视节目录播的尾声,有94%的现场观众投票表示“大数据会引发商业变革”,这与录播过程中几次突然响起的莫名其妙的掌声雷同,这群观众里面究竟有多少人在乎“大数据”是个什么玩意?也许,务虚的话题不适合引起思辨。

问:您知道什么是大数据吗?
答:不知道。
问:您认为大数据会引发商业变革吗?
答:会!
问:为什么?
答:不知道。

这段假想的对话,是我对与会观众的基本印象。我将自己排除在外,将听到的,想到的,感受到的,无论对错,都记在这里,就是想弄明白:大数据是什么?但没及时读完《大数据时代》应该是个遗憾,以至于在这场由作者维克托亲身参与的讨论中,我越发觉得大数据像一个谜,教人探索。也像一个圈套,诱人盲从。如果我笃信这世上无商不奸的话。

当然,不客气的说,前提是那些商人得知道怎么用好大数据才行。而这,又是一个暂时找不到答案的重要问题。

大数据是模拟未来?

对企业而言,“模拟未来”不是一个新课题,凡规划,必有假设,假设即模拟。以往的模拟基于经验层面,诸如领导者的智慧,对行业的判断,对趋势的理解,对市场的感觉等等,都可算作经验,但看上去无法量化。

在大数据时代,却有过去经营所产生的巨量数据可供分析,理论上为判定或模拟未来提供了数据支撑,结果应更为可靠。

现实却不是那么回事,发现(或存储)所有(可被视作的)数据,并不代表其可被分析及可产生价值。仅此,低获取成本的大数据意味着高分析成本。这一点得到关注没有?

在一段时间内,被肤浅分析过的大数据或可为模拟未来提供支持,但要据此作出经营上的决策,依然仰赖于大数据概念流行之前的传统经验模式。

大数据拒绝经验之谈?

既然是可被量化的数据,与“经验”就不该并行。某种团队协作的游戏似乎也提醒我们,靠经验,并不能让各位了解周遭,幸亏还有可量化的一些数字。它比经验更可靠。正如你闭上双眼之后,用两手感知的世界会有新发现一样新奇。但那仅仅是新奇而已。数据存在某处,你知道或不知道罢了。不代表你能懂或不能懂。那么,大数据的密码又是什么呢?

另外,所有可量化的数据都是已发生过的。在这个基础上作出的判断,过于理性,缺乏想象力,而后者却是企业成长中更为需要的。这个时候,经验会跳出来告诉你:过去的数据意味着什么。而非数据自动生成一个答案,告诉你下一步如何如何。

在大数据时代,迷信数据,拒绝经验,就会走进死胡同。

假数据、不完整数据、数据的边界

在大数据时代,讨论假数据,感觉难将事情发展下去。认真点追究,在社会诚信,消费者认知、法律法规、商业信誉等方面都残缺的前提下,假数据却是现实存在,不作假便难生存。相反,假数据更能体现大数据的逻辑,至少它是在有了各种前提之下的一个“理想”产品。

尽管痛恨假数据,但有人看到假数据的意义在于理想化,人们作假的目的,也是认可假数据比真数据更加漂亮。如果是内外有别的的两本账本,假数据确实可以为真数据提供一些经营上的参考。

不过,即便假数据是在作恶,可说到底,不过是自欺欺人,不会长久。

有人指出,不完整数据才是大数据的隐患。可“不完整”与“求全”也很矛盾,例如,大数据的“大”边界在哪里?该如何评估几乎无边无际的大数据的采集、分析成本与实际收益呢?这些问题,让大数据更难看懂。

扼杀创作、所有权

大数据是不是在“扼杀创作”呢?这是一种具有社会意义的担忧。在一些设定恰当的前提下,大数据让企业理性经营,同时,这意味着平庸、扼杀了创作。有相反的观点却指出:正因为大数据这个工具的使用,让基础工作更为高效,从而提升了创作空间。

还有人指出大数据的所有权问题,说大众创造数据,企业只是这些数据的载体,那么他们是否有权利使用这些数据,并因此获利?

那么,这问题是不是过分矫情了呢?若想强调人的百分百自主权,需要从立法做起了,可是,这社会能跟得上吗?

……

还有很多问题,包括维克托所问, 大数据扮演什么角色?它们在哪里?谁拥有它?它有什么作用?这问题一个接着一个,个个都需考虑,但又似乎个个都考虑不清。当然,我也知道,将大数据融合到企业业务中做打算更为合适,问题是,怎么做呢?

换句话说,为什么我到现在会觉得大数据就是个圈套,像西天取经路上跳出的妖怪,换了副行头骗骗唐僧罢了。

百度魔图不好玩

我们上传一张图片到网络中,最多是给图片一个命名,比如我给个人照片往往命名为“eric.chu”,这样做是为了方便管理,谈不上有什么目的。略懂SEO的人会认为,这样做方便搜索引擎抓取,为图片带来更多的曝光量。

如果你上传一组图片呢?你也只是重复这样的一个命名而已。再加上图片本身携带的信息,包括何时拍的、用的什么机器等,但不管怎样,图片所能提供的信息仅止于此。能让图片像文字一般,传递更多更丰富的信息吗?

假设读者能通过一张图片得到一个小故事,通过一组图片得到一组有逻辑、有关联的大故事,有人会说,这构成了他们想要的“结构化信息”。这个解释适用于百度。

一位来自百度商业产品研究规划部的总监级负责人在一次行业活动上简单解释了何为“结构化信息”,并透露他正在推进的某个项目。现在去百度搜索Nike的图片,在搜索结果里,会看到数以千万计的各种Nike产品,鞋子混杂服装,没有归类。点开图片,只有出处和简单描述。而未来会有不同。百度希望在搜索框里呈现的是由Nike官方提供的带有时间轴、品牌故事、演进历史、商品细节、甚至贩售提醒等丰富的、有归类的“大图片”。如此,搜索者将会获得所谓的结构化信息。

是否愿意传递更多信息,取决于发布者对信息的态度。

也有人不喜欢为自己的照片命名,一旦他知道,可以通过这个命名来确认“照片是谁”的时候,他更觉隐私受到威胁。但企业或者不需要有这个担忧,从市场推广的角度,让更多的人知道和了解自己不正是他们的目的吗?但事实未必如此。在上面的案例中,百度的构想并未得到某品牌方的支持。这种不支持提醒我们意识到:他们或有自己的道理,只是我们还不能理解。

看看最近微信朋友圈里最热的图片分享,来自百度魔图。这种PK明星脸的玩法很娱乐,吸引人参与。可联想到结构化信息,就有点不放心了。有人指出,百度正在为自己的人脸识别搜集数据。也就是说,以后有人看你顺眼,给你拍个照片传到网上做个比对,就能知道你是谁了…一想到百度为收购魔图花了上千万美元,大家就难免要阴谋论一番,百度企图心不小啊~可是,我们的隐私要如何保护呢?

也有人可能会想,不如断了社交,拒绝各种SNS,不传照片,各种不参与、与世隔绝能对隐私有所保护。但我们要的是有自由的隐私权,我可以做我想做的,但我依然需要保护我想保护的。关于这点,百度们找不到理由让我们放心。只是那些所谓你情我愿的“用户协议”在发挥作用罢了。但谁真的介意用户的自由呢?

在我看来,百度魔图是不好玩的,尤其是将我PK成这样。很明显,魔图更适合为眼镜找PK对象。

pk