Kaggle 入门

什么是 Kaggle?

Kaggle是一个进行数据挖掘和预测竞赛的在线平台。

从公司的角度,可以提供一些数据,进而提出一个实际需要解决的问题。

从参赛者的角度来讲,组队参与项目,针对其中一个问题提出解决方案,如果作为最佳方案被选中,可以获得奖金。

此外,Kaggle官方每年会举办一次大规模竞赛,奖金高达一百万美金,吸引了很多人参与。

Kaggle的创建初衷是,希望不受学历和工作经验的限制,为顶尖人才和公司之间搭建一座桥梁,让最优秀的人去解决最棘手的问题。

Kaggle首席科学家Jeremy Howard的采访

Kaggle 的竞赛模式

通过出题方给予的训练集建立模型,再利用测试集算出结果用来评比。

每个进行中的竞赛项目都会显示剩余时间、参与的队伍数量以及奖金金额,并且会实时更新选手排位。在截至日期前,所有队伍都可以自由加入竞赛,或者对已经提交的方案进行完善。

*没有标准答案,只有无限逼近最优解!

“That’s one small step for [a] man, one giant leap for mankind.” — Neil Armstrong

Kaggle 参赛者的背景大多是什么样的?

以奖金为主的职业Kaggler,以提升skills和背景为目的的业余爱好者和在校学生。

如何上手?

从练习赛开始熟悉,这些项目难度低,而且有官方给出的参考答案。

下面是三个经典项目:

  1. Titanic(泰坦尼克之灾)
    中文教程: 逻辑回归应用之Kaggle泰坦尼克之灾
    英文教程:An Interactive Data Science Tutorial

  2. House Prices: Advanced Regression Techniques(房价预测)
    中文教程:Kaggle竞赛 — 2017年房价预测
    英文教程:How to get to TOP 25% with Simple Model using sklearn

  3. Digital Recognition(数字识别)
    中文教程:大数据竞赛平台—Kaggle 入门
    英文教程:Interactive Intro to Dimensionality Reduction

关于 Kaggle 名次

常来说,几个具有一定水平的业内人士在临时组队的情况下最多也就拿到20名左右的成绩,想要再往前冲往往都需要有一定程度的默契和合作经验了。

所以,对于以学习与实践为目的的小白选手来说,不要太在意排名,从参赛的过程中不断地提升自己才是最终的目的。

Kaggle 认可度

很高