NumPy

NumPy数组的切片与Python中列表的区别在于它的切片是直接对原始数据进行操作,也就是说你做的任何修改都会直接影响到源数据,因为它修改的是内存中的数据。

NumPy数组切片与列表切片的区别

In [36]: arr = np.arange(10)

In [37]: arr
Out[37]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]: arr[3:6]
Out[38]: array([3, 4, 5])

In [39]: arr[3:6] = 10

In [40]: arr
Out[40]: array([ 0,  1,  2, 10, 10, 10,  6,  7,  8,  9])

In [43]: arr2 = arr  #将arr赋值给一个新的数组arr2

In [44]: arr2
Out[44]: array([ 0,  1,  2, 10, 10, 10,  6,  7,  8,  9])

In [45]: arr2[3:6] = 1

In [46]: arr2
Out[46]: array([0, 1, 2, 1, 1, 1, 6, 7, 8, 9])

In [47]: arr  #先前对arr2进行的操作也直接影响到了arr
Out[47]: array([0, 1, 2, 1, 1, 1, 6, 7, 8, 9])

上面其实涉及到了浅拷贝与深拷贝的问题,已经不属于本篇文章的内容暂时不讨论。

NumPy数组的索引与Python列表索引的区别

# 创建NumPy数组arr
In [50]: arr = np.array([[[1, 2, 3],[4, 5, 6]],[[7, 8, 9],[10, 11, 12]]])

In [51]: arr
Out[51]:
array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [52]: arr[0]
Out[52]:
array([[1, 2, 3],
       [4, 5, 6]])

In [53]: arr2 = [[[1, 2, 3],[4, 5, 6]],[[7, 8, 9],[10, 11, 12]]]

In [54]: arr2
Out[54]: [[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]]

# 这里分别对它们的元素进行赋值
In [59]: arr[0] = 1

In [60]: arr
Out[60]:
array([[[ 1,  1,  1],
        [ 1,  1,  1]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [55]: arr2[0]
Out[55]: [[1, 2, 3], [4, 5, 6]]

In [57]: arr2[0] = 1

In [58]: arr2
Out[58]: [1, [[7, 8, 9], [10, 11, 12]]]

这里还是因为NumPy中的所有运算都是针对数组的关系,所以就算是数组中元素是个数组,它依旧会对数组进行遍历然后赋值,不会像Python那样把列表强行改成了1。

NumPy数组的切片

它的基本用法和Python切片差不多,这里不再多赘述。具体可以之前写的这篇文章:深度解析Python切片

这里主要分析下在NumPy多维数组中,它的切片是什么样子的

In [61]: arr = np.array([[1, 2, 3],[4, 5, 6],[7, 8, 9]])

In [63]: arr[1:2]
Out[63]: array([[4, 5, 6]])

In [64]: arr[1:2, 0:1]
Out[64]: array([[4]])  # 高维数组的切片输出的结果是一个数组

In [83]: arr[:2, :] = 1

In [84]: arr  # 同样,对高维数组的赋值也会扩散到整个选区
Out[84]:
array([[1, 1, 1],
       [1, 1, 1],
       [7, 8, 9]])

它也支持反向切片


In [98]: arr[-1:0:-1]
Out[98]:
array([[7, 8, 9],
       [1, 1, 1]])

布尔型索引

顾名思义,它意味着ndarray将通过布尔值来索引。布尔值是如何与索引产生联系的?

In [112]: values = np.array([1+2, 2+2, 1+3, 2+3, 5-1, 2+4])

In [114]: values == 4
Out[114]: array([False,  True,  True, False,  True, False])

In [109]: data = np.random.randn(6, 3)

In [110]: data
Out[110]:
array([[-0.2727878 , -0.38506136, -1.17539146],
       [ 0.90674017, -0.8799524 , -1.18851203],
       [ 0.22901328,  2.14870512,  0.22426147],
       [ 1.32918343, -0.62140714, -0.45032477],
       [ 0.34037236,  0.1902144 ,  0.28806536],
       [-2.57158431, -0.77592511,  1.13117563]])

In [115]: data[values == 4]
Out[115]:
array([[ 0.90674017, -0.8799524 , -1.18851203],
       [ 0.22901328,  2.14870512,  0.22426147],
       [ 0.34037236,  0.1902144 ,  0.28806536]])

在这里data[values == 4] 最终的取值由它包含的True值的索引值决定。values == 4 就意味着data根据索引124取出对应的数据放到了一个数组中。

布尔型索引还有其他玩法

In [117]: data[values != 4]
Out[117]:
array([[-0.2727878 , -0.38506136, -1.17539146],
       [ 1.32918343, -0.62140714, -0.45032477],
       [-2.57158431, -0.77592511,  1.13117563]])

在条件判断中的**&** 、|这两个运算符也能使用,需要注意的是andor则不能在布尔型数组中使用

In [120]: data[(values == 4) | (values == 3)]
Out[120]:
array([[-0.2727878 , -0.38506136, -1.17539146],
       [ 0.90674017, -0.8799524 , -1.18851203],
       [ 0.22901328,  2.14870512,  0.22426147],
       [ 0.34037236,  0.1902144 ,  0.28806536]])

花式索引

花式索引其实是利用整数数组进行索引的方式。

In [134]: arr = np.empty((8, 4))

In [135]: for i in range(8):
     ...:     arr[i] = i
     ...:

In [136]: arr
Out[136]:
array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

整数数组的索引不但能把对应的数据给取出来放入一个数组中,还能将结果与传入数组的顺序相对应

In [137]: arr[[4,3,2,1]]
Out[137]:
array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [2., 2., 2., 2.],
       [1., 1., 1., 1.]])

In [139]: arr[[6, -2, 2, 0]] #它也支持负数索引
Out[139]:
array([[6., 6., 6., 6.],
       [6., 6., 6., 6.],
       [2., 2., 2., 2.],
       [0., 0., 0., 0.]])
# 从数据结果中可以发现,花式索引是将数据复制出来的,我传入的 6与-2就已经说明了。很显然,它和切片还是有一些区别的。

如果传入多个数组索引会发生什么?

In [142]: arr = np.random.randn(10, 4)

In [143]: arr
Out[143]:
array([[-1.43876298, -0.23957973, -1.83891463,  2.08959497],
       [-0.79340387,  0.78143357, -0.61248365, -1.2307146 ],
       [ 0.80405578,  0.53750907,  1.36936934, -0.9900462 ],
       [-0.91811926, -2.09393981,  0.48268699, -0.21606196],
       [ 1.28271354,  0.21576689, -0.15377526, -0.91878478],
       [-1.58513838,  0.58090698,  0.13100848, -0.82052273],
       [ 0.49242816,  2.6476725 , -0.10732899,  2.16061303],
       [-0.95456289,  0.65855723, -0.5262351 , -0.51669448],
       [-1.47027242,  0.34633814, -1.20603468,  0.14270022],
       [ 0.42067564, -0.06938376,  1.31784661,  0.18053118]])

In [144]: arr[[1, 2, 3, 4],[1, 1, 1, 1]]
Out[144]: array([ 0.78143357,  0.53750907, -2.09393981,  0.21576689])

其实它最终是按照(1,1)、(2,1)、(3,1)、(4,1)来取出数据的,和以往的索引方式有很大的区别。

总结

在本章中学到了NumPy索引的一些玩法:
布尔型索引:可以根据另一个数组以条件判断产生的布尔值对其索引。
切片索引:基本操作方式和Python切片差不多,唯一要注意的是它的赋值将会扩散到整个切片区域,还有一点切片索引将会对源数据进行操作,需要特别注意。
花式索引 :很特殊的一种索引方式,脑洞大开的设计居然可以用数组来对数组进行索引,同时还可以对取出的数据进行排序,我想这个排序功能以后会经常使用。