pandas

层次化索引

层次化索引让你能在一个轴上拥有多个索引级别。
层次化索引我个人理解是对索引进行了分组,比方说一部分数据是今年的,一部分数据是明年的,可通过层次化索引进行切块以方便后续选取数据

In [263]: data = Series(np.random.randn(10), index=[['2010','2010','2010','2011','2011','2011','2012','2012','2013','2013'],[
     ...: 1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])  # 这种形式叫做带有```MultiIndex```索引的格式化输出形式。

In [264]: data
Out[264]:
2010  1    1.739760
      2   -1.685753
      3    0.046604
2011  1   -0.580861
      2   -1.848230
      3    0.148327
2012  1    0.552871
      2    1.347311
2013  2   -0.555054
      3    0.601366
dtype: float64

选取分好组的数据:

In [265]: data['2010']
Out[265]:
1    1.739760
2   -1.685753
3    0.046604
dtype: float64

In [267]: data.loc[['2010','2011']]
Out[267]:
2010  1    1.739760
      2   -1.685753
      3    0.046604
2011  1   -0.580861
      2   -1.848230
      3    0.148327
dtype: float64

##重塑层次化索引
重塑相当于是把一个带有层次化索引的Series转换成了DataFrame,或者把DataFrame转换成带有层次化索引的Series

In [269]: data.unstack()
Out[269]:
             1         2         3
2010  1.739760 -1.685753  0.046604
2011 -0.580861 -1.848230  0.148327
2012  0.552871  1.347311       NaN
2013       NaN -0.555054  0.601366
In [280]: data.unstack().stack()
Out[280]:
2010  1    1.739760
      2   -1.685753
      3    0.046604
2011  1   -0.580861
      2   -1.848230
      3    0.148327
2012  1    0.552871
      2    1.347311
2013  2   -0.555054
      3    0.601366
dtype: float64

unstack 把带有层次化索引的Series对象转换成DataFrame对象
stackDataFrame对象转换为带有层次化索引的Series对象