Kaggle入门
Kaggle 入门什么是 Kaggle?Kaggle是一个进行数据挖掘和预测竞赛的在线平台。
从公司的角度,可以提供一些数据,进而提出一个实际需要解决的问题。
从参赛者的角度来讲,组队参与项目,针对其中一个问题提出解决方案,如果作为最佳方案被选中,可以获得奖金。
此外,Kaggle官方每年会举办一次大规模竞赛,奖金高达一百万美金,吸引了很多人参与。
Kaggle的创建初衷是,希望不受学历和工作经验的限制,为顶尖人才和公司之间搭建一座桥梁,让最优秀的人去解决最棘手的问题。
Kaggle首席科学家Jeremy Howard的采访
Kaggle 的竞赛模式通过出题方给予的训练集建立模型,再利用测试集算出结果用来评比。
每个进行中的竞赛项目都会显示剩余时间、参与的队伍数量以及奖金金额,并且会实时更新选手排位。在截至日期前,所有队伍都可以自由加入竞赛,或者对已经提交的方案进行完善。
*没有标准答案,只有无限逼近最优解!
“That’s one small step for [a] man, one giant leap for mankind.” — N ...
Python数据分析:pandas入门(五)
第五章 pandas入门
本文代码仓库地址
pandas含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。
pandas专门处理表格和混杂数据设计的,numpy更适合处理统一的数值数组数据。
我们使用下面的方式引入pandas,并且由于Series和DataFrame经常被使用,我们也将其引入到本地命名空间中:12import pandas as pdfrom pandas import Series, DataFrame
pandas的数据结构首先,我们需要熟悉pandas的两个主要数据结构:Series和DataFrame。
虽然它们解决不了所有的问题,但它们为大多数应用提供了一种可靠的、易于使用的基础。
SeriesSeries是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签(索引)组成:123456789In [11]: obj = pd.Series([4, 7, -5, 3])In [12]: objOut[12]: 0 41 72 -53 3dtype: int64
通常,我们希望创建的Series带有一个可以对各个数据 ...
Python数据分析:Numpy基础(四)
第四章
本文代码仓库地址
NumPy(Numerical Python的简称)是Python数值计算最重要的基础包,可以高效处理大数组的数据。
ndarray:一种多维数组对象NumPy最重要的一个特点就是其N维数组对象(即ndarray),该对象是一个快速而灵活的大数据集容器。
可以利用这种数组对整块数据执行一些数学运算,其语法跟标量元素之间的运算一样。12345678910111213141516In [12]: import numpy as npIn [13]: data = np.random.randn(2, 3)In [14]: dataOut[14]: array([[-0.2047, 0.4789, -0.5194], [-0.5557, 1.9658, 1.3934]])In [15]: data * 10Out[15]: array([[ -2.0471, 4.7894, -5.1944], [ -5.5573, 19.6578, 13.9341]])In [16]: data + dataOut[16]: array([ ...
Python数据分析:Python的数据结构、函数和文件(三)
第三章数据结构和序列
Python的数据结构简单而强大,通晓它们才能成为熟练的Python程序员。
元组元组是一个固定长度,不可改变的Python序列对象。
使用tuple可以将任意序列或迭代器转换成元组。
可以用方括号访问元组中的元素。和C、C++、Java等语言一样,序列是从0开始的。
元组中存储的对象可能是可变对象,一旦创建了元组,元组中的对象就不能修改了。但是当元组中包含像list这样的对象时,我们可以对list这样的元素在原位进行修改。
可以使用+将几个元组复制串联起来,得到一个新的元组。同理,将元组乘以一个整数,像列表一样,会将该元组复制整数份称为一个新的元组。
列表与元组对比,列表的长度可变、内容可以被修改。
我们可以用方括号定义,或者使用list函数。
列表和元组的语义接近,在许多函数中可以交叉使用。
添加和删除元素
append在列表结尾添加元素
insert在特定的位置插入元素
pop移除并返回指定位置的元素
remove寻找第一个目标值并去除
in和not in可以检查列表是否包含某个值
串联和组合列表与元组类似,可以用+将两个列表串联起来。
如果已经定义了一个 ...
Python数据分析:Python语法基础,IPython和Jupyter Notebooks(二)
第二章Python 解释器
Python是解释性语言。Python解释器同一时间只能运行一个程序的一条语句。标准的交互Python解释器可以在命令行中通过键入python命令打开:
123456C:/Users/86178>pythonPython 3.9.15 (main, Nov 24 2022, 14:39:17) [MSC v.1916 64 bit (AMD64)] on win32Type "help", "copyright", "credits" or "license" for more information.>>> a = 5>>> print(a)5
>>>提示输入代码。要退出Python解释器返回终端,可以输入exit()或按Ctrl-D。
运行Python程序只需调用Python的同时,使用一个.py文件作为它的第一个参数。假设创建了一个hello_world.py文件,它的内容是:
1print('Hello ...
Python数据分析:准备工作(一)
第一章本系列的内容
利用 Python 进行数据控制、处理、整理、分析等方面的具体细节和基本要点。
虽然标题是“数据分析”,重点却是 Python 编程、库,以及用于数据分析的工具。
什么样的数据 ?
出现“数据”时,主要指的是结构化数据,这个术语代指了所有通用格式的数据。
例如
表格型数据,其中各列可能是不同的类型(字符串、数值、日期等)。比如保存在关系型数据库中或以制表符/逗号为分隔符的文本文件中的那些数据。
多维数组(矩阵)。
通过关键列(对于 SQL 用户而言,就是主键和外键)相互联系的多个表。
间隔平均或不平均的时间序列。
大部分数据集都能被转化为更加适合分析和建模的结构化形式,或者将数据集的特征提取为某种结构化形式。
Excel 是典型的使用广泛的数据分析工具。
为什么要使用 Python 进行数据分析
在众多解释型语言中,Python 发展出了一个巨大而活跃的科学计算(scientific computing)社区。在过去的10年,Python 从一个边缘或“自担风险”的科学计算语言,成为了数据科学、机器学习、学界和工业界软件开发最重要的语言之一 ...
Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
Quick StartCreate a new post1$ hexo new "My New Post"
More info: Writing
Run server1$ hexo server
More info: Server
Generate static files1$ hexo generate
More info: Generating
Deploy to remote sites1$ hexo deploy
More info: Deployment