本站消息

站长简介/公众号


站长简介:高级工程师,爱好交友,无偿辅导python和前端,技术交流,面试指导,找工作指导,瞎聊都可加我微信i88811i哈,欢迎欢迎!也欢迎加入程序员交流群,专属程序员的圈子,加我微信拉你进群.欢迎关注我的微信公众号:程序员总部,程序员的家,探索程序员的人生之路!分享IT最新技术,关注行业最新动向,让你永不落伍。了解同行们的工资,生活工作中的酸甜苦辣,谋求程序员的最终出路!

  价值13000svip视频教程,python大神匠心打造,零基础python开发工程师视频教程全套,基础+进阶+项目实战,包含课件和源码

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2021-05(3)

2021-06(7)

Python Pandas 中的数据结构(超详细,你确定不学习一下?)

发布于2022-05-08 05:12     阅读(957)     评论(0)     点赞(30)     收藏(5)



Pandas有三种数据结构:Series、DataFrame和Panel。Series类似于数组;DataFrame类似于表格;Panel可视为Excel的多表单Sheet

目录

1.Series

1.1通过列表创建Series

1.2通过字典创建Series

2.DataFrame

3.索引对象 

4.查看DataFrame的常用属性


1.Series

Series是一种一维数组对象,包含一个值序列,并且包含数据标签,称为索引(index),通过索引来访问数组中的数据。

1.1通过列表创建Series

   例1.通过列表创建

  1. import pandas as pd
  2. obj = pd.Series([1,-2,3,4]) #仅由一个数组构成
  3. print(obj)
  1. out:
  2. 0 1
  3. 1 -2
  4. 2 3
  5. 3 4
  6. dtype: int64

输出的第一列为index,第二列为数据value。如果创建Series时没有指定index,Pandas会采用整型数据作为该Series的index。也可以使用Python里的索引index和切片slice技术
 

  例2.创建Series时指定索引

  1. import pandas as pd
  2. i = ["a","c","d","a"]
  3. v = [2,4,5,7]
  4. t = pd.Series(v,index=i,name="col")
  5. print(t)
  1. out:
  2. a 2
  3. c 4
  4. d 5
  5. a 7
  6. Name: col, dtype: int64

尽管创建Series指定了index,实际上Pandas还是有隐藏的index位置信息。所以Series有两套描述某条数据手段:位置和标签 
 

  例3.Series位置和标签的使用

  1. import pandas as pd
  2. val = [2,4,5,6]
  3. idx1 = range(10,14)
  4. idx2 = "hello the cruel world".split()
  5. s0 = pd.Series(val)
  6. s1 = pd.Series(val,index=idx1)
  7. t = pd.Series(val,index=idx2)
  8. print(s0.index)
  9. print(s1.index)
  10. print(t.index)
  11. print(s0[0])
  12. print(s1[10])
  13. print('default:',t[0],'label:',t["hello"])

1.2通过字典创建Series

         如果数据被存放在一个Python字典中,也可以直接通过这个字典来创建Series

  例4.通过字典创建Series

  1. import pandas as pd
  2. sdata = {'Ohio':35000,'Texass':71000,'Oregon':16000,'Utah':5000}
  3. obj = pd.Series(sdata)
  4. print(obj)
  1. Ohio 35000
  2. Texass 71000
  3. Oregon 16000
  4. Utah 5000
  5. dtype: int64

如果只传入一个字典,则结果Series中的索引就是原字典的键(有序排列)
 

  例5.通过字典创建Series时的索引

  1. import pandas as pd
  2. sdata = {"a":100,"b":200,"e":300}
  3. obj = pd.Series(sdata)
  4. print(obj)
  1. a 100
  2. b 200
  3. e 300
  4. dtype: int64

如果字典中的键值和指定的索引不匹配,则对应的值时NaN

  例6.键值和指定索引不匹配

  1. import pandas as pd
  2. sdata = {"a":100,"b":200,"e":300}
  3. letter = ["a","b","c","e"]
  4. obj = pd.Series(sdata,index=letter)
  5. print(obj)
  1. a 100.0
  2. b 200.0
  3. c NaN
  4. e 300.0
  5. dtype: float64

对于许多应用而言,Series重要的一个功能是:它在算术运算中会自动对齐不同索引的数据


   例7.不同索引数据的自动对齐
 

  1. import pandas as pd
  2. sdata = {'Ohio':35000,'Texas':71000,'Oregon':16000,'Utah':5000}
  3. obj1 = pd.Series(sdata)
  4. states = ['California','Ohio','Oregon','Texas']
  5. obj2 = pd.Series(sdata,index=states)
  6. print(obj1+obj2)
  1. California NaN
  2. Ohio 70000.0
  3. Oregon 32000.0
  4. Texas 142000.0
  5. Utah NaN
  6. dtype: float64

Series的索引可以通过赋值的方式就地修改

  例8.Series索引的修改

  1. import pandas as pd
  2. obj = pd.Series([4,7,-3,2])
  3. obj.index = ['Bob','Steve','Jeff','Ryan']
  4. print(obj)
  1. Bob 4
  2. Steve 7
  3. Jeff -3
  4. Ryan 2
  5. dtype: int64

2.DataFrame

 DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同类型的值(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看作由Series组成的字典(共用同一个索引)。跟其他类型的数据结构相比,DataFrame中面向行和面向列的操作上基本上是平衡的

 构建DataFrame的方式有很多,最常用的是直接传入一个由等长列表或NumPy数组组成的字典来形成DataFrame

  例9.DataFrame的创建

  1. import pandas as pd
  2. data = {
  3. 'name':['张三','李四','王五','小明'],
  4. 'sex':['female','female','male','male'],
  5. 'year':[2001,2001,2003,2002],
  6. 'city':['北京','上海','广州','北京']
  7. }
  8. df = pd.DataFrame(data)
  9. print(df)
  1. name sex year city
  2. 0 张三 female 2001 北京
  3. 1 李四 female 2001 上海
  4. 2 王五 male 2003 广州
  5. 3 小明 male 2002 北京

DataFrame会自动加上索引(跟Series一样),且全部列会被有序排列。如果指定了列名序列,则DataFrame的列就会按照指定顺序进行排列


例10.DataFrame的索引

  1. import pandas as pd
  2. data = {
  3. 'name':['张三','李四','王五','小明'],
  4. 'sex':['female','female','male','male'],
  5. 'year':[2001,2001,2003,2002],
  6. 'city':['北京','上海','广州','北京']
  7. }
  8. df = pd.DataFrame(data,columns = ['name','year','sex','city'])
  9. print(df)
  1. name year sex city
  2. 0 张三 2001 female 北京
  3. 1 李四 2001 female 上海
  4. 2 王五 2003 male 广州
  5. 3 小明 2002 male 北京

跟Series一样,如果传入的列在数据中找不到,就会产生NaN值。


例11.DataFrame创建时的空缺值

  1. import pandas as pd
  2. data = {
  3. 'name':['张三','李四','王五','小明'],
  4. 'sex':['female','female','male','male'],
  5. 'year':[2001,2001,2003,2002],
  6. 'city':['北京','上海','广州','北京']
  7. }
  8. df = pd.DataFrame(data,columns = ['name','year','sex','city','address'])
  9. print(df)
  1. name year sex city address
  2. 0 张三 2001 female 北京 NaN
  3. 1 李四 2001 female 上海 NaN
  4. 2 王五 2003 male 广州 NaN
  5. 3 小明 2002 male 北京 NaN

DataFrame构造函数的columns函数给出列的名字,index给出label标签


例12.DataFrame构建时指定列名

  1. import pandas as pd
  2. data = {
  3. 'name':['张三','李四','王五','小明'],
  4. 'sex':['female','female','male','male'],
  5. 'year':[2001,2001,2003,2002],
  6. 'city':['北京','上海','广州','北京']
  7. }
  8. df = pd.DataFrame(data,columns = ['name','year','sex','city','address'],index = ['a','b','c','d'])
  9. print(df)
  1. name year sex city address
  2. a 张三 2001 female 北京 NaN
  3. b 李四 2001 female 上海 NaN
  4. c 王五 2003 male 广州 NaN
  5. d 小明 2002 male 北京 NaN

3.索引对象 

 Pandas的索引对象负责管理轴标签和其他元数据(例如轴名称等).构建Series或DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一个Index

  例13.显示DataFrame的索引和列

  1. import pandas as pd
  2. data = {
  3. 'name':['张三','李四','王五','小明'],
  4. 'sex':['female','female','male','male'],
  5. 'year':[2001,2001,2003,2002],
  6. 'city':['北京','上海','广州','北京']
  7. }
  8. df = pd.DataFrame(data,columns = ['name','year','sex','city','address'],index = ['a','b','c','d'])
  9. print(df)
  10. print(df.index)
  11. print(df.columns)
  1. name year sex city address
  2. a 张三 2001 female 北京 NaN
  3. b 李四 2001 female 上海 NaN
  4. c 王五 2003 male 广州 NaN
  5. d 小明 2002 male 北京 NaN
  6. Index(['a', 'b', 'c', 'd'], dtype='object')
  7. Index(['name', 'year', 'sex', 'city', 'address'], dtype='object')

索引对象不能进行修改,否则会报错。不可修改性非常重要,因为这样才能使Index对象在多个数据结构之间安全共享
除了长的像数组,Index的功能也类似于一个固定大小的集合

例14.DataFrame的Index

  1. import pandas as pd
  2. data = {
  3. 'name':['张三','李四','王五','小明'],
  4. 'sex':['female','female','male','male'],
  5. 'year':[2001,2001,2003,2002],
  6. 'city':['北京','上海','广州','北京']
  7. }
  8. df = pd.DataFrame(data,columns = ['name','year','sex','city','address'],index = ['a','b','c','d'])
  9. print('name'in df.columns)
  10. print('a'in df.index)
  1. True
  2. True

每个索引都有一些方法和属性,他们可用于设置逻辑并回答有关该索引所包含的数据的常见的问题。

方法                       属性
append连接另一个Index对象,产生一个新的index
diff计算差集,并得到一个Index
intersection计算交集
union计算并集
isin计算一个指示各值是否都包含在参数集合中的布尔型数组
delete删除索引i处的元素,并得到新的Index
drop删除传入的值,并得到新的Index
insect将元素插入索引i处,并得到新的Index
is_monotonic将元素均大于或等于前一个元素时,返回True
is.unique当Index没有重复值时,返回True
unique计算Index中唯一值的数组



 

  例15.插入索引值

 

  1. import pandas as pd
  2. data = {
  3. 'name':['张三','李四','王五','小明'],
  4. 'sex':['female','female','male','male'],
  5. 'year':[2001,2001,2003,2002],
  6. 'city':['北京','上海','广州','北京']
  7. }
  8. df = pd.DataFrame(data,columns = ['name','year','sex','city','address'],index = ['a','b','c','d'])
  9. df.index.insert(1,'w')
Index(['a', 'w', 'b', 'c', 'd'], dtype='object')

 4.查看DataFrame的常用属性

DataFrame的基础属性有value、index、columns、dtypes、ndim和shape,分别可以获取DataFrame的元素、索引、列名、类型、维度和形状。

  例16.显示DataFrame的属性

 

  1. import pandas as pd
  2. data = {
  3. 'name':['张三','李四','王五','小明'],
  4. 'sex':['female','female','male','male'],
  5. 'year':[2001,2001,2003,2002],
  6. 'city':['北京','上海','广州','北京']
  7. }
  8. df = pd.DataFrame(data,columns = ['name','year','sex','city','address'],index = ['a','b','c','d'])
  9. print(df)
  10. print('信息表的所有值为:\n',df.values)
  11. print('信息表的所有列为:\n',df.columns)
  12. print('信息表的元素个数:\n',df.size)
  13. print('信息表的维度:\n',df.ndim)
  14. print('信息表的形状:\n',df.shape)
  1. name year sex city address
  2. a 张三 2001 female 北京 NaN
  3. b 李四 2001 female 上海 NaN
  4. c 王五 2003 male 广州 NaN
  5. d 小明 2002 male 北京 NaN
  6. 信息表的所有值为:
  7. [['张三' 2001 'female' '北京' nan]
  8. ['李四' 2001 'female' '上海' nan]
  9. ['王五' 2003 'male' '广州' nan]
  10. ['小明' 2002 'male' '北京' nan]]
  11. 信息表的所有列为:
  12. Index(['name', 'year', 'sex', 'city', 'address'], dtype='object')
  13. 信息表的元素个数:
  14. 20
  15. 信息表的维度:
  16. 2
  17. 信息表的形状:
  18. (4, 5)

原文链接:https://blog.csdn.net/weixin_52797843/article/details/124465939

站长简介:高级工程师,爱好交友,无偿辅导python和前端,技术交流,面试指导,找工作指导,瞎聊都可加我微信i88811i哈,欢迎欢迎!也欢迎加入程序员交流群,专属程序员的圈子,加我微信拉你进群
欢迎关注我的公众号:程序员总部,关注公众号回复python,免费领取 全套python视频教程,关注公众号回复充值+你的账号,免费为您充值1000积分







所属网站分类: 技术文章 > 博客

作者:滴水

链接:https://www.pythonheidong.com/blog/article/1490784/63619da2d47fc170d3ea/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

30 0
收藏该文
已收藏

评论内容:(最多支持255个字符)