python代码优化指南_扣丁学堂Python视频教程之Pandas初学者代码优化指南-程序员宅基地

扣丁学堂Python视频教程之Pandas初学者代码优化指南

2018-02-05 10:44:24

1320浏览

今天扣丁学堂给大家介绍一下关于Python视频教程之Pandas详解，首先Pandas是PythonDataAnalysisLibrary的简写，它是为了解决数据分析任务而创建的工具，本文介绍了五种由慢到快逐步优化其效率的方法，如果你用Python语言做过任何的数据分析，那么可能会用到Pandas,一个由WesMcKinney写的奇妙的分析库。通过赋予Python数据帧以分析功能，Pandas已经有效地把Python和一些诸如R或者SAS这样比较成熟的分析工具置于相同的地位。

不幸的是，在早期，Pandas因“慢”而声名狼藉。的确，Pandas代码不可能达到如完全优化的塬始C语言代码的计算速度。然而，好消息是，对于大多数应用程序来说，写的好的Pandas代码已足够快;Pandas强大的功能和友好的用户体验弥补了其速度的缺点。

在这篇文章中，应用于PandasDataFrame函数的几种方法的效率，从最慢到最快：

1.在用索引的DataFrame行上的Crudelooping

2.用iterrows()循环

3.用apply()循环

4.PandasSeries矢量化

5.NumPy数组矢量化

对于我们的实例函数，将使用Haversine(半正矢)距离公式。函数取两点的经纬度，调整球面的曲率，计算它们之间的直线距离。这个函数看起来像这样：

importnumpyasnp

#DefineabasicHaversinedistanceformula

defhaversine(lat1,lon1,lat2,lon2):

MILES=3959

lat1,lon1,lat2,lon2=map(np.deg2rad,[lat1,lon1,lat2,lon2])

dlat=lat2-lat1

dlon=lon2-lon1

a=np.sin(dlat/2)**2+np.cos(lat1)*np.cos(lat2)*np.sin(dlon/2)**2

c=2*np.arcsin(np.sqrt(a))

total_miles=MILES*c

returntotal_miles

Pandas中的Crudelooping，或者你永远不应该这么做

首先，让我们快速回顾一下Pandas数据结构的基本塬理。Pandas的基本结构有两种形式：DataFrame和Series。一个DataFrame是一个二维数组标记轴，很多功能与R中的data.frame类似，可以将DataFrame理解为Series的容器。换句话说，一个DataFrame是一个有行和列的矩阵，列有列名标签，行有索引标签。在PandasDataFrame中一个单独的列或者行是一个PandasSeries—一个带有轴标签的一维数组。

几乎每一个与我合作过的Pandas初学者，都曾经试图通过一次一个的遍历DataFrame行去应用自定义函数。这种方法的优点是，它是Python对象之间交互的一致方式;例如，一种可以通过列表或数组循环的方式。反过来说，不利的一面是，在Pandas中，Crudeloop是最慢的方法。与下面将要讨论的方法不同，Pandas中的Crudeloop没有利用任何内置优化，通过比较，其效率极低(而且代码通常不那么具有可读性)

例如，有人可能会写像下面这样的代码：

#Defineafunctiontomanuallyloopoverallrowsandreturnaseriesofdistances

defhaversine_looping(df):

distance_list=[]

foriinrange(0,len(df)):

d=haversine(40.671,-73.985,df.iloc[i]['latitude'],df.iloc[i]['longitude'])

distance_list.append(d)

returndistance_list

为了了解执行上述函数所需要的时间，我们用%timeit命令。%timeit是一个“神奇的”命令，专用于Jupyternotebook(所有的魔法命令都以%标识开始，如果%命令只应用于一行，那么%%命令应用于整个Jupyter单元)。%timeit命令将多次运行一个函数，并打印出获得的运行时间的平均值和标准差。当然，通过%timeit命令获得的运行时间，运行该函数的每个系统都不尽相同。尽管如此，它可以提供一个有用的基准测试工具，用于比较同一系统和数据集上不同函数的运行时间。

%%timeit

#Runthehaversineloopingfunction

df['distance']=haversine_looping(df)

结果是：

1645ms±31msperloop(mean±std.dev.of7runs,1loopeach)

通过分析，crudelooping函数运行了大约645ms,标准差是31ms。这似乎很快，但考虑到它仅需要处理大约1600行的代码，因此它实际上是很慢的。接下来看看如何改善这种不好的状况。

用iterrows()循环

如果循环是必须的，找一个更好的方式去遍历行，比如用iterrows()方法。iterrows()是一个生成器，遍历DataFrame的所有行并返回每一行的索引，除了包含行自身的对象。iterrows()是用PandasDataFrame优化，尽管它是运行大多数标准函数最不高效的方式(稍后再谈)，但相对于Crudelooping，这是一个重大的改进。在我们的案例中，iterrows()解决同一个问题，几乎比手动遍历行快四倍。

%%timeit

#Haversineappliedonrowsviaiteration

haversine_series=[]

forindex,rowindf.iterrows():

haversine_series.append(haversine(40.671,-73.985,row['latitude'],row['longitude']))

df['distance']=haversine_series

1166ms±2.42msperloop(mean±std.dev.of7runs,1loopeach)

使用apply()方法实现更好的循环

一个比iterrows()更好的选择是用apply()方法，它应用一个函数，沿着DataFrame某一个特定的轴线(意思就是行或列)。虽然apply()也固有的通过行循环，但它通过采取一些内部优化比iterrows()更高效，例如在Cython中使用迭代器。我们使用一个匿名的lambda函数，每一行都用Haversine函数，它允许指向每一行中的特定单元格作为函数的输入。为了指定Pandas是否应该将函数应用于行(axis=1)或列(axis=0)，Lambda函数包含最终的axis参数。

%%timeit

#TimingapplyontheHaversinefunction

df['distance']=df.apply(lambdarow:haversine(40.671,-73.985,row['latitude'],row['longitude']),axis=1)

190.6ms±7.55msperloop(mean±std.dev.of7runs,10loopseach)

iterrows()方法用apply()方法替代后，大致可以将函数的运行时间减半。为了更深入地了解函数中的实际运行时间，可以运行一个在线分析器工具(Jupyter中神奇的命令%lprun)

#Haversineappliedonrowswithlineprofiler

%lprun-fhaversinedf.apply(lambdarow:haversine(40.671,-73.985,row['latitude'],row['longitude']),axis=1)

结果如下：

我们可以从这个信息中得到一些有用的见解。例如，进行叁角计算的函数占了总运行时间的近一半。因此，如果想优化函数的各个组件，可以从这里入手。现在，特别值得注意的是每一行都被循环了1631次—apply()遍历每一行的结果。如果可以减少重复的工作量，就可以降低整个运行时间。矢量化提供了一种更有效的替代方案。

PandasSeries矢量化

要了解如何可以减少函数所执行的迭代数量，就要记得Pandas的基本单位，DataFrame和Series，它们都基于数组。基本单元的固有结构转换成内置的设计用于对整个数组进行操作的Pandas函数，而不是按各个值的顺序(简称标量)。矢量化是对整个数组执行操作的过程。

Pandas包含一个总体的矢量化函数集合，从数学运算到聚合和字符串函数(可用函数的扩展列表，查看Pandasdocs)。对PandasSeries和DataFrame的操作进行内置优化。结果，使用矢量Pandas函数几乎总是会用自定义的循环实现类似的功能。

到目前为止，我们仅传递标量给Haversine函数。所有的函数都应用在Haversine函数中，也可以在数组上操作。这使得距离矢量化函数的过程非常的简单：不是传递个别标量值的纬度和经度给它，而是把它传递给整个series(列)。这使得Pandas受益于可用于矢量函数的全套优化，特别是包括同时执行整个数组的所有计算。

%%timeit

#VectorizedimplementationofHaversineappliedonPandasseries

df['distance']=haversine(40.671,-73.985,df['latitude'],df['longitude'])

11.62ms±41.5μsperloop(mean±std.dev.of7runs,1000loopseach)

通过使用apply()方法，要比用iterrows()方法改进50倍的效率，通过矢量化函数则改进了iterrows()方法100倍—除了改变输入类型，什么都不要做!

看一眼后台，看看函数到底在做什么：

注意，鉴于apply()执行函数1631次，矢量化版本仅执行一次，因为它同时应用于整个数组，这就是主要的时间节省来源。

用NumPy数组矢量化

Pandasseries矢量化可以完成日常计算优化的绝大多数需要。然而，如果速度是最高优先级，那么可以以NumPyPython库的形式调用援军。

NumPy库，将自己描述为一个“Python科学计算的基本包”，在后台执行优化操作，预编译C语言代码。跟Pandas一样，NumPy操作数组对象(简称ndarrays);然而，它省去了Pandasseries操作所带来的大量资源开销，如索引、数据类型检查等。因此，NumPy数组的操作可以明显快于pandasseries的操作。

当Pandasseries提供的额外功能不是很关键的时候，NumPy数组可以用于替代Pandasseries。例如，Haversine函数矢量化实现不使用索引的经度和纬度系列，因此没有那些索引，也不会导致函数中断。通过比较，我们所做的操作如DataFrame的连接，它需要按索引来引用值，可能需要坚持使用Pandas对象。

仅仅是使用Pandasseries的values的方法，把纬度和经度数组从Pandasseries转换到NumPy数组。就像series矢量化一样，通过NumPy数组直接进入函数将可以让Pandas对整个矢量应用函数。

%%timeit

#VectorizedimplementationofHaversineappliedonNumPyarrays

df['distance']=haversine(40.671,-73.985,df['latitude'].values,df['longitude'].values)

1370μs±18μsperloop(mean±std.dev.of7runs,1000loopseach)

NumPy数组操作运行取得了又一个四倍的改善。总之，通过looping改进了运行时间超过半秒，通过NumPy矢量化，运行时间改进到了叁分之一毫秒级!

以上就是关于扣丁学堂Python视频教程之Pandas初学者代码优化指南的详细介绍，最后想要了解更多关于Python发展前景趋势，请关注扣丁学堂官网、微信等平台，扣丁学堂IT职业在线学习教育平台为您提供最新的Python培训视频教程系统，通过千锋扣丁学堂金牌讲师在线录制的Python视频教程课程，让你快速掌握Python从入门到精通开发实战技能。扣丁学堂Python开发工程师技术交流群：279521237。

【关注微信公众号获取更多学习资料】

标签:

Python视频教程

Python基础教程

Python爬虫

Python培训

Python开发工程师

本文链接：https://blog.csdn.net/weixin_39646021/article/details/110398871

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

oracle 12c 集群安装后的检查_12c查看crs状态-程序员宅基地

文章浏览阅读1.6k次。安装配置gi、安装数据库软件、dbca建库见下：http://blog.csdn.net/kadwf123/article/details/784299611、检查集群节点及状态：[root@rac2 ~]# olsnodes -srac1 Activerac2 Activerac3 Activerac4 Active[root@rac2 ~]_12c查看crs状态

解决jupyter notebook无法找到虚拟环境的问题_jupyter没有pytorch环境-程序员宅基地

文章浏览阅读1.3w次，点赞45次，收藏99次。我个人用的是anaconda3的一个python集成环境，自带jupyter notebook，但在我打开jupyter notebook界面后，却找不到对应的虚拟环境，原来是jupyter notebook只是通用于下载anaconda时自带的环境，其他环境要想使用必须手动下载一些库：1.首先进入到自己创建的虚拟环境(pytorch是虚拟环境的名字)activate pytorch2.在该环境下下载这个库conda install ipykernelconda install nb__jupyter没有pytorch环境

国内安装scoop的保姆教程_scoop-cn-程序员宅基地

文章浏览阅读5.2k次，点赞19次，收藏28次。选择scoop纯属意外，也是无奈，因为电脑用户被锁了管理员权限，所有exe安装程序都无法安装，只可以用绿色软件，最后被我发现scoop，省去了到处下载XXX绿色版的烦恼，当然scoop里需要管理员权限的软件也跟我无缘了（譬如everything）。推荐添加dorado这个bucket镜像，里面很多中文软件，但是部分国外的软件下载地址在github，可能无法下载。以上两个是官方bucket的国内镜像，所有软件建议优先从这里下载。上面可以看到很多bucket以及软件数。如果官网登陆不了可以试一下以下方式。_scoop-cn

Element ui colorpicker在Vue中的使用_vue el-color-picker-程序员宅基地

文章浏览阅读4.5k次，点赞2次，收藏3次。首先要有一个color-picker组件 <el-color-picker v-model="headcolor"></el-color-picker>在data里面data() { return {headcolor: ’ #278add ’ //这里可以选择一个默认的颜色} }然后在你想要改变颜色的地方用v-bind绑定就好了，例如：这里的:sty..._vue el-color-picker

迅为iTOP-4412精英版之烧写内核移植后的镜像_exynos 4412 刷机-程序员宅基地

文章浏览阅读640次。基于芯片日益增长的问题，所以内核开发者们引入了新的方法，就是在内核中只保留函数，而数据则不包含，由用户（应用程序员）自己把数据按照规定的格式编写，并放在约定的地方，为了不占用过多的内存，还要求数据以根精简的方式编写。boot启动时，传参给内核，告诉内核设备树文件和kernel的位置，内核启动时根据地址去找到设备树文件，再利用专用的编译器去反编译dtb文件，将dtb还原成数据结构，以供驱动的函数去调用。firmware是三星的一个固件的设备信息，因为找不到固件，所以内核启动不成功。_exynos 4412 刷机

Linux系统配置jdk_linux配置jdk-程序员宅基地

文章浏览阅读2w次，点赞24次，收藏42次。Linux系统配置jdkLinux学习教程，Linux入门教程（超详细）_linux配置jdk

随便推点

matlab(4)：特殊符号的输入_matlab微米怎么输入-程序员宅基地

文章浏览阅读3.3k次，点赞5次，收藏19次。xlabel('\delta');ylabel('AUC');具体符号的对照表参照下图：_matlab微米怎么输入

C语言程序设计-文件(打开与关闭、顺序、二进制读写)-程序员宅基地

文章浏览阅读119次。顺序读写指的是按照文件中数据的顺序进行读取或写入。对于文本文件，可以使用fgets、fputs、fscanf、fprintf等函数进行顺序读写。在C语言中，对文件的操作通常涉及文件的打开、读写以及关闭。文件的打开使用fopen函数，而关闭则使用fclose函数。在C语言中，可以使用fread和fwrite函数进行二进制读写。‍ Biaoge 于2024-03-09 23:51发布阅读量：7 ️文章类型：【 C语言程序设计】在C语言中，用于打开文件的函数是____，用于关闭文件的函数是____。

Touchdesigner自学笔记之三_touchdesigner怎么让一个模型跟着鼠标移动-程序员宅基地

文章浏览阅读3.4k次，点赞2次，收藏13次。跟随鼠标移动的粒子以grid（SOP）为partical（SOP）的资源模板，调整后连接【Geo组合+point spirit（MAT)】，在连接【feedback组合】适当调整。影响粒子动态的节点【metaball(SOP)+force(SOP)】添加mouse in（CHOP)鼠标位置到metaball的坐标，实现鼠标影响。..._touchdesigner怎么让一个模型跟着鼠标移动

【附源码】基于java的校园停车场管理系统的设计与实现61m0e9计算机毕设SSM_基于java技术的停车场管理系统实现与设计-程序员宅基地

文章浏览阅读178次。项目运行环境配置：Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX（Webstorm也行）+ Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：Springboot + mybatis + Maven +mysql5.7或8.0+html+css+js等等组成，B/S模式 + Maven管理等等。环境需要1.运行环境：最好是java jdk 1.8，我们在这个平台上运行的。其他版本理论上也可以。_基于java技术的停车场管理系统实现与设计

Android系统播放器MediaPlayer源码分析_android多媒体播放源码分析时序图-程序员宅基地

文章浏览阅读3.5k次。前言对于MediaPlayer播放器的源码分析内容相对来说比较多，会从Java-&amp;gt;Jni-&amp;gt;C/C++慢慢分析，后面会慢慢更新。另外，博客只作为自己学习记录的一种方式，对于其他的不过多的评论。MediaPlayerDemopublic class MainActivity extends AppCompatActivity implements SurfaceHolder.Cal..._android多媒体播放源码分析时序图

java 数据结构与算法 ——快速排序法-程序员宅基地

文章浏览阅读2.4k次，点赞41次，收藏13次。java 数据结构与算法 ——快速排序法_快速排序法