Pandas速成
- Series : 一位数组, 只允许存储相同的数据类型
- Time-Series : 以时间为索引的Series
- DataFrame : 二维的表格型数据结构 , 可以理解为是Series 的容器
- Panel : 三维数组,可以理解为DataFrame 的容器
Series
1 | import matplotlib.pyplot as plt |
DataFrame
1 | arr= np.array([ |
1 | arr= np.array([ |
获取行列
1.ix[ ]
- 先行后列
1 | print(dataframe.ix[[0]]) #获得第一行内容 |
2.loc[ ]
- loc,是基于索引的名称选取数据集,这里的索引名称可以是数字,先行后列。注意,[0:2]是选取名称为0, 1, 2行的数据,一共三,只能写行和列的名称,不能写序号。
1 | print(dataframe.loc['row1']) |
3.iloc[]
- iloc,它是基于索引位来选取数据集,也就是数字序号来选取,0:2就是选取 0,1这两行,需要注意的是这里是前闭后开集合。只能写行和列的序号,不能写名称( i可以看着int,因此iloc就是用数字(int)来取数据的),否则会报错。
1 | print(dataframe.iloc[2]) |
总结:
-
loc使用范围比iloc更广更实用,loc可以使用切片、名称(index,columns)、也可以切片和名称混合使用;但是loc不能使用不存在的索引来充当切片取值,像-1
-
iloc只能用整数来取数
▲.推荐使用loc
Author: Mrli
Link: https://nymrli.top/2018/12/21/Pandas速成/
Copyright: All articles in this blog are licensed under CC BY-NC-SA 3.0 unless stating additionally.