NumPy数组的切片与Python中列表的区别在于它的切片是直接对原始数据进行操作,也就是说你做的任何修改都会直接影响到源数据,因为它修改的是内存中的数据。
NumPy数组切片与列表切片的区别
In [36]: arr = np.arange(10)
In [37]: arr
Out[37]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
In [38]: arr[3:6]
Out[38]: array([3, 4, 5])
In [39]: arr[3:6] = 10
In [40]: arr
Out[40]: array([ 0, 1, 2, 10, 10, 10, 6, 7, 8, 9])
In [43]: arr2 = arr #将arr赋值给一个新的数组arr2
In [44]: arr2
Out[44]: array([ 0, 1, 2, 10, 10, 10, 6, 7, 8, 9])
In [45]: arr2[3:6] = 1
In [46]: arr2
Out[46]: array([0, 1, 2, 1, 1, 1, 6, 7, 8, 9])
In [47]: arr #先前对arr2进行的操作也直接影响到了arr
Out[47]: array([0, 1, 2, 1, 1, 1, 6, 7, 8, 9])
上面其实涉及到了浅拷贝与深拷贝的问题,已经不属于本篇文章的内容暂时不讨论。
NumPy数组的索引与Python列表索引的区别
# 创建NumPy数组arr
In [50]: arr = np.array([[[1, 2, 3],[4, 5, 6]],[[7, 8, 9],[10, 11, 12]]])
In [51]: arr
Out[51]:
array([[[ 1, 2, 3],
[ 4, 5, 6]],
[[ 7, 8, 9],
[10, 11, 12]]])
In [52]: arr[0]
Out[52]:
array([[1, 2, 3],
[4, 5, 6]])
In [53]: arr2 = [[[1, 2, 3],[4, 5, 6]],[[7, 8, 9],[10, 11, 12]]]
In [54]: arr2
Out[54]: [[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]]
# 这里分别对它们的元素进行赋值
In [59]: arr[0] = 1
In [60]: arr
Out[60]:
array([[[ 1, 1, 1],
[ 1, 1, 1]],
[[ 7, 8, 9],
[10, 11, 12]]])
In [55]: arr2[0]
Out[55]: [[1, 2, 3], [4, 5, 6]]
In [57]: arr2[0] = 1
In [58]: arr2
Out[58]: [1, [[7, 8, 9], [10, 11, 12]]]
这里还是因为NumPy中的所有运算都是针对数组的关系,所以就算是数组中元素是个数组,它依旧会对数组进行遍历然后赋值,不会像Python那样把列表强行改成了1。
NumPy数组的切片
它的基本用法和Python切片差不多,这里不再多赘述。具体可以之前写的这篇文章:深度解析Python切片
这里主要分析下在NumPy多维数组中,它的切片是什么样子的
In [61]: arr = np.array([[1, 2, 3],[4, 5, 6],[7, 8, 9]])
In [63]: arr[1:2]
Out[63]: array([[4, 5, 6]])
In [64]: arr[1:2, 0:1]
Out[64]: array([[4]]) # 高维数组的切片输出的结果是一个数组
In [83]: arr[:2, :] = 1
In [84]: arr # 同样,对高维数组的赋值也会扩散到整个选区
Out[84]:
array([[1, 1, 1],
[1, 1, 1],
[7, 8, 9]])
它也支持反向切片
In [98]: arr[-1:0:-1]
Out[98]:
array([[7, 8, 9],
[1, 1, 1]])
布尔型索引
顾名思义,它意味着ndarray将通过布尔值来索引。布尔值是如何与索引产生联系的?
In [112]: values = np.array([1+2, 2+2, 1+3, 2+3, 5-1, 2+4])
In [114]: values == 4
Out[114]: array([False, True, True, False, True, False])
In [109]: data = np.random.randn(6, 3)
In [110]: data
Out[110]:
array([[-0.2727878 , -0.38506136, -1.17539146],
[ 0.90674017, -0.8799524 , -1.18851203],
[ 0.22901328, 2.14870512, 0.22426147],
[ 1.32918343, -0.62140714, -0.45032477],
[ 0.34037236, 0.1902144 , 0.28806536],
[-2.57158431, -0.77592511, 1.13117563]])
In [115]: data[values == 4]
Out[115]:
array([[ 0.90674017, -0.8799524 , -1.18851203],
[ 0.22901328, 2.14870512, 0.22426147],
[ 0.34037236, 0.1902144 , 0.28806536]])
在这里data[values == 4]
最终的取值由它包含的True值的索引值决定。values == 4
就意味着data根据索引1,2,4取出对应的数据放到了一个数组中。
布尔型索引还有其他玩法
In [117]: data[values != 4]
Out[117]:
array([[-0.2727878 , -0.38506136, -1.17539146],
[ 1.32918343, -0.62140714, -0.45032477],
[-2.57158431, -0.77592511, 1.13117563]])
在条件判断中的**&** 、|这两个运算符也能使用,需要注意的是and 和 or则不能在布尔型数组中使用
In [120]: data[(values == 4) | (values == 3)]
Out[120]:
array([[-0.2727878 , -0.38506136, -1.17539146],
[ 0.90674017, -0.8799524 , -1.18851203],
[ 0.22901328, 2.14870512, 0.22426147],
[ 0.34037236, 0.1902144 , 0.28806536]])
花式索引
花式索引其实是利用整数数组进行索引的方式。
In [134]: arr = np.empty((8, 4))
In [135]: for i in range(8):
...: arr[i] = i
...:
In [136]: arr
Out[136]:
array([[0., 0., 0., 0.],
[1., 1., 1., 1.],
[2., 2., 2., 2.],
[3., 3., 3., 3.],
[4., 4., 4., 4.],
[5., 5., 5., 5.],
[6., 6., 6., 6.],
[7., 7., 7., 7.]])
整数数组的索引不但能把对应的数据给取出来放入一个数组中,还能将结果与传入数组的顺序相对应
In [137]: arr[[4,3,2,1]]
Out[137]:
array([[4., 4., 4., 4.],
[3., 3., 3., 3.],
[2., 2., 2., 2.],
[1., 1., 1., 1.]])
In [139]: arr[[6, -2, 2, 0]] #它也支持负数索引
Out[139]:
array([[6., 6., 6., 6.],
[6., 6., 6., 6.],
[2., 2., 2., 2.],
[0., 0., 0., 0.]])
# 从数据结果中可以发现,花式索引是将数据复制出来的,我传入的 6与-2就已经说明了。很显然,它和切片还是有一些区别的。
如果传入多个数组索引会发生什么?
In [142]: arr = np.random.randn(10, 4)
In [143]: arr
Out[143]:
array([[-1.43876298, -0.23957973, -1.83891463, 2.08959497],
[-0.79340387, 0.78143357, -0.61248365, -1.2307146 ],
[ 0.80405578, 0.53750907, 1.36936934, -0.9900462 ],
[-0.91811926, -2.09393981, 0.48268699, -0.21606196],
[ 1.28271354, 0.21576689, -0.15377526, -0.91878478],
[-1.58513838, 0.58090698, 0.13100848, -0.82052273],
[ 0.49242816, 2.6476725 , -0.10732899, 2.16061303],
[-0.95456289, 0.65855723, -0.5262351 , -0.51669448],
[-1.47027242, 0.34633814, -1.20603468, 0.14270022],
[ 0.42067564, -0.06938376, 1.31784661, 0.18053118]])
In [144]: arr[[1, 2, 3, 4],[1, 1, 1, 1]]
Out[144]: array([ 0.78143357, 0.53750907, -2.09393981, 0.21576689])
其实它最终是按照(1,1)、(2,1)、(3,1)、(4,1)来取出数据的,和以往的索引方式有很大的区别。
总结
在本章中学到了NumPy索引的一些玩法:
布尔型索引:可以根据另一个数组以条件判断产生的布尔值对其索引。
切片索引:基本操作方式和Python切片差不多,唯一要注意的是它的赋值将会扩散到整个切片区域,还有一点切片索引将会对源数据进行操作,需要特别注意。
花式索引 :很特殊的一种索引方式,脑洞大开的设计居然可以用数组来对数组进行索引,同时还可以对取出的数据进行排序,我想这个排序功能以后会经常使用。