Kaggle入门
Kaggle 入门
什么是 Kaggle?
Kaggle是一个进行数据挖掘和预测竞赛的在线平台。
从公司的角度,可以提供一些数据,进而提出一个实际需要解决的问题。
从参赛者的角度来讲,组队参与项目,针对其中一个问题提出解决方案,如果作为最佳方案被选中,可以获得奖金。
此外,Kaggle官方每年会举办一次大规模竞赛,奖金高达一百万美金,吸引了很多人参与。
Kaggle的创建初衷是,希望不受学历和工作经验的限制,为顶尖人才和公司之间搭建一座桥梁,让最优秀的人去解决最棘手的问题。
Kaggle 的竞赛模式
通过出题方给予的训练集建立模型,再利用测试集算出结果用来评比。
每个进行中的竞赛项目都会显示剩余时间、参与的队伍数量以及奖金金额,并且会实时更新选手排位。在截至日期前,所有队伍都可以自由加入竞赛,或者对已经提交的方案进行完善。
*没有标准答案,只有无限逼近最优解!
“That’s one small step for [a] man, one giant leap for mankind.” — Neil Armstrong
Kaggle 参赛者的背景大多是什么样的?
以奖金为主的职业Kaggler,以提升skills和背景为目的的业余爱好者和在校学生。
如何上手?
从练习赛开始熟悉,这些项目难度低,而且有官方给出的参考答案。
下面是三个经典项目:
Titanic(泰坦尼克之灾)
中文教程: 逻辑回归应用之Kaggle泰坦尼克之灾
英文教程:An Interactive Data Science TutorialHouse Prices: Advanced Regression Techniques(房价预测)
中文教程:Kaggle竞赛 — 2017年房价预测
英文教程:How to get to TOP 25% with Simple Model using sklearnDigital Recognition(数字识别)
中文教程:大数据竞赛平台—Kaggle 入门
英文教程:Interactive Intro to Dimensionality Reduction
关于 Kaggle 名次
常来说,几个具有一定水平的业内人士在临时组队的情况下最多也就拿到20名左右的成绩,想要再往前冲往往都需要有一定程度的默契和合作经验了。
所以,对于以学习与实践为目的的小白选手来说,不要太在意排名,从参赛的过程中不断地提升自己才是最终的目的。
Kaggle 认可度
很高