hi,你好!欢迎访问本站!登录
本站由网站地图腾讯云宝塔系统阿里云强势驱动
当前位置:首页 - 教程 - 后端开发 - 正文 君子好学,自强不息!

运用pandas举行数据处理之 Series篇_后端开发

2020-09-16后端开发搜奇网5°c
A+ A-

相干进修引荐:python教程

在python中,本日我们入手下手引见一个新的常常运用的盘算东西库,它就是赫赫有名的Pandas

Pandas的全称是Python Data Analysis Library,是一种基于Numpy的科学盘算东西。它最大的特性就是能够像是操纵数据库当中的表一样操纵构造化的数据,所以它支撑很多庞杂和高等的操纵,能够认为是Numpy的加强版。它能够很方便地从一个csv或者是excel表格当中构建出完全的数据,并支撑很多表级别的批量数据盘算接口。

装置运用

和险些一切的Python包一样,pandas也能够经由过程pip举行装置。假如你装过Anaconda套件的话,那末像是numpy、pandas等库已自动装置好了,假如没有装置过也没有关联,我们运用一行敕令即可完成装置。

pip install pandas复制代码

和Numpy一样,我们在运用pandas的时刻平常也会给它起一个别号,pandas的别号是pd。所以运用pandas的通例都是:

import pandas as pd复制代码

假如你运转这一行没有报错的话,那末申明你的pandas已装置好了。平常和pandas常常一同运用的另有别的两个包,个中一个也是科学盘算包叫做Scipy,别的一个是对数据举行可视化作图的东西包,叫做Matplotlib。我们也能够运用pip将这两个包一同装置了,在以后的文章当中,用到这两个包的时刻,也会简朴引见一下它们的用法。

pip install scipy matplotlib复制代码

Series 索引

在pandas当中我们最常常运用的数据构造有两个,一个是Series别的一个是DataFrame。个中series是一维数据构造,能够简朴邃晓成一维数组或者是一维向量。而DataFrame天然就是二维数据构造了,能够邃晓成表或者是二维数组。

我们先来看看Series,Series当中存储的数据主要有两个,一个是一组数据组成的数组,别的一个是这组数据的索引或者是标签。我们简朴建立一个Series打印出来看一下就邃晓了。

这里我们随便建立了一个包括四个元素的Series,然后将它打印了出来。能够看到打印的数据一共有两列,第二列是我们适才建立的时刻输入的数据,第一列就是它的索引。由于我们建立的时刻没有特地指定索引,所以pandas会自动为我们建立行号索引,我们能够经由过程Series范例当中的values和index属性查看到Series当中存储的数据和索引:

这里输出的values是一个Numpy的数组,这并不新鲜,由于我们前面说了,pandas是一个基于Numpy开发的科学盘算库,Numpy是它的底层。从打印出来的index的信息当中,我们能够看到这是一个Range范例的索引,它的局限以及步长。

索引是Series构建函数当中的一个默许参数,假如我们不填,它默许会为我们生成一个Range索引,实在也就是数据的行号。我们也能够本身指定数据的索引,比方我们在适才的代码当中到场index这个参数,我们就能够本身指定索引了。

当我们指定了字符范例的索引以后,index返回的结果就不再是RangeIndex而是Index了。申明pandas内部对数值型索引和字符型索引是做了辨别的。

有了索引,天然是用来查找元素用的。我们能够直接将索引当作是数组的下标运用,二者的结果是一样的。不仅如此,索引数组也是能够接收的,我们能够直接查询若干个索引的值。

别的在建立Series的时刻,反复的索引也是许可的。一样当我们运用索引查询的时刻也会获很多个结果。

不仅如此,像是Numpy那样的bool型索引也依然是支撑的:

Series盘算


Series支撑很多范例的盘算,我们能够直接运用加减乘除操纵对全部Series举行运算

也能够运用Numpy当中的运算函数来举行一些庞杂的数学运算,然则如许盘算获得的结果会是一个Numpy的array。

由于Series当中有索引,所以我们也能够运用dict的体式格局推断索引是不是在Series当中

Series有索引也有值,实在和dict的存储构造是一样的,所以Seires也支撑经由过程一个dict来初始化:

经由过程这类体式格局建立出来的次序就是dict当中key存储的次序,我们能够在建立的时刻指定index,如许就能够掌握它的次序了。

我们在指定index的时刻分外传入了一个没有在dict当中涌现过的key,由于在dict当中找不到对应的值,Series会将它记成NAN(Not a number)。能够邃晓成是不法值或者是空值,在我们处置惩罚特性或者是练习数据的时刻,常常会碰到存在一些条目的数据的某个特性空白的状况,我们能够经由过程pandas当中isnull和notnull函数搜检空白的状况。

固然Series当中也有isnull的函数,我们也能够挪用。

末了,Series当中的index也是能够修正的, 我们能够直接给它赋上新值:

总结

从中心本质上来讲,pandas当中的Series就是在Numpy一维数组上做的一层封装,加上了索引等一些相干的功用。所以我们能够想见DataFrame实在就是一个Series的数组的封装,加上了更多数据处置惩罚相干的功用。我们把中心构造把握住了,再来邃晓全部pandas的功用要比我们一个一个死记这些api有效很多。

pandas是Python数据处置惩罚的一大利器,作为一个及格的算法工程师险些是必会的内容,也是我们运用Python举行机械进修以及深度进修的基本。依据观察材料显现,算法工程师一样平常的事情有70%的份额投入在了数据处置惩罚当中,真正用来完成模子、练习模子的只要30%不到。因而可见数据处置惩罚的重要性,想要在行业当中有所发展,毫不仅仅是学会模子就充足的。

本文运用 mdnice 排版

想相识更多编程进修,敬请关注php培训栏目!

以上就是运用pandas举行数据处置惩罚之 Series篇的细致内容,更多请关注ki4网别的相干文章!

  选择打赏方式
微信赞助

打赏

QQ钱包

打赏

支付宝赞助

打赏

  移步手机端
运用pandas举行数据处理之 Series篇_后端开发

1、打开你手机的二维码扫描APP
2、扫描左则的二维码
3、点击扫描获得的网址
4、可以在手机端阅读此文章
标签:

本文来源:搜奇网

本文地址:https://www.sou7.cn/300746.html

关注我们:微信搜索“搜奇网”添加我为好友

版权声明: 本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。请记住本站网址https://www.sou7.cn/搜奇网。