大数据到底是什么鬼

大数据真的是越来越火了,但凡什么创业公司吹牛的时候就喜欢宣称自己使用了大数据技术,使用了数据挖掘、机器学习。外行人听起来云里雾里、不明觉厉,听说某名校还专门成立了大数据专业。

大数据这名词听起来很高大上,但其实内里简单的不得了。什么叫大数据呢?就是大量的数据。对的,就是这么简单。大量的数据就是大数据了。

大量的数据是从哪来的?

小明早晨起床,想起昨天答应女友要送她一个新的包包,可是小明对包包一窍不通,鬼知道女友喜欢什么款式啊!只能上网去搜今年的流行包包,打开百度,查到今年流行机车包(我瞎写的,因为我也不懂包包),于是又赶快去淘宝上搜索机车包,可是出来的样式千奇百怪,最惨的是价格从几十到几千相去甚远,小明彻底蒙了,要是买错了可是要跪泡面的啊!于是又赶快打开微信,发了个朋友圈,问问朋友圈里的同事们该送什么包包给女友,顺便还记得屏蔽了一下女朋友。同事小丽说要买MK的,小红却说要买巴黎世家的,小甜说……小明彻底晕菜,干脆把这些牌子放到淘宝里搜一搜,找了个最贵的买下来了,寄送地址填的是老婆的上班地址。毕竟要给老婆在同事们面前显摆才是买包包的第一要务。

在上例中,小明使用了百度、淘宝和微信,分别在其中输入了各种关键字。而这三大巨头的后台数据库,也把小明的这一天的行为完全的记录了下来。

以淘宝为例,小明今天的行为数据就长这样:

- 用户小明,登录
- 搜索机车包
- 点击下一页
- 关闭页面

半小时后

- 用户小明,登录
- 搜索 MK 机车包
- 按价格排序
- 点开排名第一的商品
- 加入购物车
- 回到搜索页
- 搜索 巴黎世家 机车包
- 按价格排序

……

- 点击购买
- 填写寄送信息(寄送信息地点为 上海浦东)
- 购买成功

每一个用户的每时每秒的数据,都会被如实的记录下来,以淘宝的注册用户数量和用户粘性来判断,估计每天的用户行为数据就能上PB。注意,是每天。大量的数据就这样产生了。

多大的量才能被叫做大量的数据呢?

其实这事因时而异。大数据名词刚被提出的时候,如果没记错,大约是06年吧(家里网络不好,上不去谷歌index,明日查明之后更新),那时候,总数据量上到百级GB,就可以说自己数据量很大了,现在呢,谁还没有个TB级的硬盘呢。

大数据和普通数据的分水岭在于它们不同的处理方式。普通数据通常使用结构化存储,比如大家所熟知的 MySQL ,商用的 ORACLE 等,而大数据通常使用 Hadoop 家族产品及 Hadoop 周边产品,比如 HDFS、Hbase 和 MongoDB 等等。通常,数据量小的时候适合使用 MySQL, 而数据量大了之后,适合使用 NoSQL 存储(比如刚刚提到的Hbase 和 MongoDB),而不同的NoSQL存储又有它们各自的擅长之处,以后会有详细展开。

数据大和小?看你的处理方式啦!

大量的数据有什么用呢?

大数据在互联网的使用场景十分广泛,比如用户推荐。

以上文提到的小明的行为数据为例,如果有一天淘宝、百度和腾讯合并了,三家的数据放到了一块,通过登录设备和 IP 地址匹配到了小明在三家网站使用的不同账号,发现了小明这一天的完整的心路历程。唔,这是一个会给女友买昂贵礼物的好男人,打上“愿意给女友花钱的好男人”标签吧!

第二天,小明的女友搜索了 lamer 眼霜。

第二天的晚些时候,小明打开淘宝,突然弹出对话框“您的女友搜索了 lamer 眼霜,就等着您买给她啦!”

你说小明是买还是不买呢……

在不远的未来,你的电脑就会比你更懂你自己了!

处理大量数据和处理少量数据有什么区别?

在计算机界,一直有个很有意思的比喻,我们通常会把编程比喻成盖房子。

数据也可以这样比喻。

处理一个 excel 的数据可以比喻成盖狗窝,只要是个正常人,简单学习一下,都能盖出一个来。就好像你处理 excel ,可以写宏,可以用 pivot table ,也可以手算(毕竟一个 sheet 最多也就 6 万多行数据嘛)。

处理关系型数据可以比喻成盖个小别墅,麻烦了些,一个人是搞不定了,得有个团队。不过有类似 MySQL 这类的通用框架,就好像别墅的墙板全都做好了,一个人也能借助工具拼装一下把别墅盖好呢!

处理非关系型数据(通常大数据才需要非关系型的结构)就好像盖一栋大楼,打地基,搭混凝土框架,每一项都是专业人士的领域,需要的人手更多,需要的时间更长。不过呢,现在采用拼搭技术,7天也能盖一栋大楼,因为各个墙面部件全部都在工厂做好了呢,而 Hadoop 及其各种周边们,就是计算机领域的拼搭技术,它使得一个受过培训的普通工程师,也能独立搭建使用分布式系统,处理大量的非关系型数据。

本文只是一个序章,后续将会和《豆酱》合作,以漫画的形式,展现大数据的各种神奇瑰丽。

打赏支持我写出更多好文章,谢谢!

打赏作者

打赏支持我写出更多好文章,谢谢!

2 5 收藏 评论

关于作者:顾星竹

数据处理,分析,建模 个人主页 · 我的文章 · 33

相关文章

可能感兴趣的话题



直接登录
跳到底部
返回顶部