操纵Python进行数据分析之初识Pandas
Pandas是构建在Python编程语言之上的一个快速、强大、灵活且易于使用的开源数据分析和操作工具。Pandas是基于Numpy的专业数据分析工具,可以灵活高效的处理各种数据集。
在Pandas中有这样两种数据结构:DataFrame、Series,DataFrame就类似Excel里面的Sheet表,而Series就相当于表中的某一列。
安装 在这里我们使用pip进行安装(如果没有可自行查询如何安装pip)安装panda最简单的方法是将其作为Anaconda的一部分安装,Anaconda主要用于数据分析和科学计算。还提供源代码、PyPI、ActivePython、各种Linux发行版或开发版本进行安装的说明。
当然,最为基础的Python环境还是少不了的,如果你是Linux或使用的Mac就不用安装Python了。
pip install pandas Pandas中的数据结构 我们都知道在Excel中是有sheet表,在sheet中每个单元格都是有坐标来表示的,例如:A1、F3等,想要哪些数据只需要定位都响应数据都坐标或某个范围。这里有一点需要强调,Pandas无论是和Exce相比还是和SQL相比,只是调用和处理数据的方式变了,核心都是对源数据进行一系列的处理。
DataFrame 在Pandas中同样数据表表示方式与Excel基本相同,只不过Excel中的"列",在Pandas中叫做"Series":
Series Pandas初体验 如果想要构建下面这个表格,在Excel中大家再熟悉不过了,在Pandas中该如何构造呢?
Excel表格 要想使用Pandas,首先我们需要导入模块(这里使用的ipython,可通过pip install ipython安装)。
导入pandas 我们需要手动将数据存储在表中,就要创建一个DataFrame。当使用Python列表和字典时,字典键将作为列头,而每个列表中的值将用作DataFrame的行。
df = pd.DataFrame({ "设备名称": ['服务器', '服务器', '磁盘阵列', '网络设备'], "设备品牌": ['华为', '浪潮', 'Sugon', 'H3C'], "用途": ['高性能计算', '高性能计算', '存储', '接入交换机'], "价格": [80000, 50800, 150000, 8000]})
创建DataFrame 命令行直接输入变量名称"df"输出DataFrame所有数据:
输出DataFrame 注:第一眼看上去,感觉好乱,有木有!有童鞋说:我想把"设备品牌"放到最前面(在做表的时候,一般都是第一列作为表头出现)。可不可以实现呢?当然可以!只需要在创建时指定"index"就可以了。
指定index后,输出DataFrame DataFrame是一种二维数据结构,可以在列中存储不同类型的数据(包括字符、整数、浮点数等)。它类似于Excel表格、SQL数据库表或R语言中的data.frame。
我只想要"设备名称"那一列,怎么拿到呢?
获取单个Series 注:当选择DataFrame的单个列时,结果就是一个Series。我们想要选择哪一列,就在方括号[]之间使用列标签。
当然,我们也可以创建一个Series:
创建Series 在上面设备信息表中,我想拿到表中价格最贵的,该如何操作?这里就要用到max()方法。
最大值 Pandas提供了很多功能,每个功能都有一个可以应用到DataFrame或Series的方法(很多方法,后面我们还会用到很多)。因为方法是函数,所以不要忘记使用括号()哟。
以上内容,简单了解一下Pandas,Pandas功能十分强大,后面我们会由浅至深逐步了解Pandas的强大之处,如果对你有用,记得点赞+关注哟~ (编辑:52站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |