数据从业者不能错过的 kaggle

工作 5 年以来,有 3 年主要是从事数据分析岗位的,从编写 SQL 到报表展示,可以说是一个熟练工种,请注意,如果自己通过短时间的培训可以快速上手,那么别人也可以,说明这个岗位很大众,接下来就要培养自己的核心竞争力, 既然是核心竞争力,当然就是自己有,大多数人没有的能力,比如在一千个挑一个。在数据行业,核心竞争力就是能从数据中发现别人发现不了的价值。

数据提取、数据展示这些都是成为熟练工种后可以闭着眼睛干的,数据分析,比如说哪个指标上长升了,或者下降了,具体原因是什么,稍加分析,也不难做到,毕竟人人是事后诸葛亮。而有难度的,也更能体现数据价值的,就是数据预测。

没有数据,或者数据很少,则任何牛人都不可能预测出什么。数据预测的基础是大数据,数据之大,之多超越你的想象。一般数据来源于自身业务的积累,互联网上的爬虫(爬虫与反爬看谁更牛),以及程序模拟出的数据,实在不行还可以花钱买数据,现在各大数据平台都有数据可以购买。因此数据的获取也是一种能力,作为数据分析师如果你会爬虫,那么你能为公司节约不少获取数据的成本,这算是一个核心竞争力。

有了数据,这就看人的看家本领了,因此机器学习(ML)是少不了的。但机器学习的各种框架和工具现在已经满大街了,会的人只会越来越多,ML 工具的熟悉使用,很难作为核心竞争力。但工具的使用是基础,否则连怎么做都不知道。不仅要知道怎么做,还要知道为什么这么做,每一种算法都有自己的适应场景,可以解决特定场景的问题,因此对算法的选择和优化是核心竞争力。

当然,数据和英语好的也是种竞争力,玩算法的码农,打拼靠蓝条,像是法师,数学就等于蓝条最大值,数学差,魔法值不高,很快就到瓶颈了。英语影响回蓝速度,影响经验和智力加急速和穿透。

问题来了,这些核心竞争力如何训练出来呢?

工作中训练,别想了,具我所知数据分析工作在绝大多数公司其实就是取数员,无非是按照产品经理或老板的想法把该取的数据取出来,产品经理或老板自然会去分析和决策,数据分析每天忙于沟通和数据搬运,很少有人有时间去再学习,如果工作想出成绩,工作之余的再学习是非常必须的。

工作之余,数据从业者提升核心竞争力的平台是什么?

我想说的是 Kaggle,Kaggle 是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。企业和研究者可以使用最好的模型解决难题,而统计学者和数据挖掘专家可能获得奖金,还可以获得影响力和工作机会。

想想吧,假如你学有所成,自己创作的模型可以通过这个平台服务于更多的企业,是不是达到一次劳动,服务多个企业的效果了呢? 假如你学无所成,只要在这个平台上多学习,这是不可能发生事件。这就是互联网思维,你的价值可以通过互联网放大 N 倍。

Kaggle中组织一场竞赛的过程如下:

  1. 竞赛主持人准备数据和问题的描述。Kaggle对这一过程以及竞赛的建构、数据的匿名化以及集成最终获胜的模型提供咨询服务。
  2. 参与者通过不同的方法进行实验,相互竞赛以获得最优的模型。对于大多数的参与者,他们的提交会根据预测精度被立即评分,并在实时的积分榜上显示。
  3. 在截止时间过后,竞赛主持人为“全球性的,永久性的,不可撤销和免版税地使用获奖作品”支付奖金。亦即竞赛获胜者的算法、软件和相关的知识产权是非排他性的,除非特别指明。

除了公开竞赛以外,Kaggle 还向活跃参与者提供私下的比赛,以及为大学团体提供 Kaggle-in-Class 项目。

Kaggle 有多牛,2017 被谷歌已经收购,后来加入谷歌云平台。根据 Kaggle 官方提供的数据,Kaggle 在全球范围内拥有将近20万名数据科学家,专业领域从计算机科学到统计学、经济学和数学。Kaggle 也曾经和 NASA、维基百科、德勤和好事达合作举办竞赛。其中的一项奖项高达 300 万美金的竞赛是 Heritage Health Prize,目的是通过病人看病及吃药住院等数据预测明年病人住院的天数。另一项与微软合作的竞赛则旨在提高 Kinect 的手势识别精度。

Google 首席经济师哈尔·范里安称 Kaggle 提供了一种“将全世界最有才能的数据科学家组织起来并使各种规模的机构都能够触及”的方式。

加入 Kaggle 与全世界最有才能的数据科学家一起共舞吧。

相关链接介绍:

kaggle 官方网站
谷歌宣布收购全球最大数据科学社区Kaggle
Kaggle比赛:如何以及从哪里开始

留下你的脚步
推荐阅读