数据框的合并排序、描述统计、分箱

阅读量：2240 次

发布时间：2019-05-09

本文共 5223 字，大约阅读时间需要 17 分钟。

数据框的合并排序、描述统计、分箱

一、表合并

二、数据框排序

三、描述性统计

四、变量与索引的相互转化

五、分箱

六、分类变量转虚拟变量

七、数据框对象的复制

八、字符串变量的常用方法

九、删除重复项

十、数据抽样

一、表合并

1、纵向合并

# 导入库import pandas as pdimport numpy as np#建立两个表data1=pd.DataFrame(np.random.rand(4,3),columns=['x1','x2','x3'])data2=pd.DataFrame(np.random.rand(4,3),columns=['x2','x3','x4'])# append 纵向合并data1.append(data2,ignore_index=True)# ignore_index=True  表示忽略本来的索引，合并后生成新的索引，默认False，按原有索引# 如果data1和data2的index值有重复的话就会提示出错。verify_integrity参数的默认值为False# pd.concat 纵向合并pd.concat([data1,data2],axis=0,ignore_index=True) #合并的两个表要放在一个列表中

2、横向合并

# 建两个表data1=pd.DataFrame(np.random.rand(4,3),columns=["x1","x2","x3"]) data2=pd.DataFrame(np.random.rand(4,3),columns=["x4","x5","x6"],index=(range(1,5))) pd.concat([data1,data2],axis=1,join='inner')  #加上join参数的设定，如果为’inner’表示两表的交集，如果是outer(默认)表示两表的并集

#横向合并：pd.merge方法 # 导入三表individual1=pd.read_excel("D:\\CDA数分学习资料\\python\\数据清洗\\pandas\\individual1.xlsx") individual2=pd.read_excel("D:\\CDA数分学习资料\\python\\数据清洗\\pandas\\individual2.xlsx") family=pd.read_excel("D:\\CDA数分学习资料\\python\\数据清洗\\pandas\\family.xlsx") # 补齐pid列# 方法1individual1['pid']=individual1['pid'].astype(str).map(lambda x:x.zfill(7)) # zfill 零填充#方法2def f1(x):    return '0'*(7-len(str(x)))+str(x)individual1['pid']=individual1['pid'].map(f1)individual2['pid']=individual2['pid'].map(f1)# 一表和一表合并data1=pd.merge(individual1,individual2,left_on='pid',right_on='pid',how='outer',suffixes=('_1','_2'))# 处理重复列data1['fid_1'].fillna(data1['fid_2'],inplace=True)     # 将fid_2的值赋值给fid_1data1.drop(columns=['fid_2'],errors='ignore',axis=1,inplace=True)  # 删除 fid_2data1.rename(columns={
   "fid_1":"fid"},inplace=True)   # fid_1重命名为fiddata1['年龄_2'].fillna(data1['年龄_1'],inplace=True)data1.drop(columns=['年龄_1'],errors='ignore',axis=1,inplace=True)data1.rename(columns={
   "年龄_2":"年龄"},inplace=True)#多表和一表合并，表的前后位置不影响结果data2=pd.merge(data1,family,left_on='fid',right_on='fid',how='outer') data2.to_excel("整理好后的数据.xlsx",index=False)  # 导出表格

参数how表示连接方式，有四个可能取值’left’, ‘right’, ‘outer’, ‘inner’, 默认的取值是 ‘inner’。 left_on是设定左表的连接变量，right_on是设定右表的连接变量。 suﬃxes是设定重复列的变量名后缀，以便知道重复列来自哪张表

二、数据框排序

data1=pd.DataFrame(np.random.rand(4,3),                  columns=['x1','x2','x3'],index=np.arange(4)[::-1])# 数据框实例的sort_values方法 data1.sort_values(by="x1",ascending=True)  # 按x1列升序排序data1.sort_values(by=['x1','x2'],ascending=[True,False]) #先按x1升序，再按x2降序，经常x2没用   #需要知道的是ascending=True是升序，ascending=False是降序。    #inplace 参数的默认取值是False,如果设定为True，则会直接作用于原数据框实例。   #数据框实例的sort_index方法 data1.sort_index(ascending=True,inplace=True)

三、描述性统计

data1.describe()  #如果括号内不设定任何参数，则会对所有数值类型的变量进行描述统计。 data1.describe(exclude=['object'],percentiles=[0.1,0.2])#通过include参数可以选择对哪些类型的变量进行描述统计。 #通过exclude参数可以选择不对哪些类型的变量进行描述统计。 #percentiles参数可以设定报告哪些分位数，默认是[.25, .5, .75] data1.describe(exclude=["object"],percentiles=[0.1,0.2]) #中位数是不用设定也会报的。

# 变量的值统计data1['地域编码'].value_counts()   # 默认计算频数并降序排序data1["年龄"].groupby(data1['性别']).max()  #按性别分组后求年龄最大值#除了max还有min,mean,median,sum，quantile,var,std,skew等 data1["年龄"].groupby(data1["性别"]).describe() #分组多个描述统计

# 聚合方法 agg() 指定描述统计data1[['年龄','受教育程度']].groupby(data1['性别']).agg(['mean','max','min'])data1["年龄"].groupby(data1["性别"]).agg([lambda x:np.quantile(x,0.1)])  #可放入自定义匿名函数# 分组对象的transform方法 data1['年龄'].groupby([data1['性别']]).transform(np.mean) data1["年龄"].groupby([data1["性别"]]).transform(lambda x:x.count()) # transform 也可以放入自定义匿名函数lambda#和agg方法的区别在于transform方法返回的对象的长度和原数据框的行数相等。而且索引和原数据框或者序列的索引保持一致。行数相同这样就可以做合并做缺失值处理。

# 数据透视表data1.pivot_table(values=["年龄","受教育程度"],index=["地域编码","性别"],                        aggfunc={
   "年龄":[np.mean,np.max],"受教育程度":np.mean})     # aggfunc 可以对某列做单独的统计

四、变量与索引的相互转化

# 列变成索引data1.set_index(['pid'],drop=False)  #将pid列设为索引，drop参数False表示保留pid原有列，反之删除#  inplace参数，默认值为False #索引变列temp.reset_index()  # 将temp中索引转换成列temp.reset_index().reset_index()    # 新增索引，原有索引变成列

五、分箱

# cut 分箱  缺点不能保证每个组分的均匀pd.cut(data1["年龄"],3)  #cut 自动生成了大概3个等距的离散区间data1["年龄段"]=pd.cut(data1.年龄, [0,45, 59, 74, 89,120],          # 指定划分区域并添加标签                    labels=["青年", "中年", "老年前期","老年","长寿老人"])                    # pd.qcut 用分位数分箱   均匀分布pd.qcut(data1['年龄'],4,labels=[1,2,3,4])    #均匀分成4个区间

六、分类变量转虚拟变量

pd.get_dummies(data1["性别"],prefix="性别")# 如果写上参数drop_first=True,删除第一个虚拟变量，也就是会删除‘性别_女’列pd.concat([data1,pd.get_dummies(data1['性别'],prefix='性别')],axis=1)     # 横向合并data1和新增的性别两列

在这里插入图片描述

七、数据框对象的复制

#浅复制,一个改变，另一个也会改变。 data2=data1 #深复制，单独改变一方，另一方不受影响 data3=data1.copy(deep=True)

八、字符串变量的常用方法

data1.fid.str.len()  #计算字符串的长度 data1.fid.str.replace("f","a") #对字符串变量进行查找替换 data1.fid.str.count("0")   #计算字符串出现次数 data1.pid.astype(str).str.zfill(5) #填补字符串 #想查看更多函数，请运行下面的命令 print(dir(data1.fid.str)) series1=pd.Series(["河北省衡水市","河北省石家庄市","河南省郑州市"]) #正则表达式匹配。 series1.str.extract(r"(.+省)")   # 将--省提出来

九、删除重复项

# duplicated()判断是否是重复的项 data1.duplicated()   # 第一次出现False,第二次出现就是True，返回布尔值data1.drop_duplicates(subset=['数学','英语'],keep='first')  # 判断‘数学’‘英语’两列有没有重复值# 参数keep 默认是first，表示保留第一次出现的，这个方法有inplace参数。

十、数据抽样

data2.sample(frac=0.1)   #设定抽取样本比例为10%。#参数replace=False表示无放回抽样。 #参数random_state是设定随机种子，保证每次运行代码抽取到的样本一样

判断‘数学’‘英语’两列有没有重复值

参数keep 默认是first，表示保留第一次出现的，这个方法有inplace参数。

#### 十、数据抽样```pythondata2.sample(frac=0.1)   #设定抽取样本比例为10%。#参数replace=False表示无放回抽样。 #参数random_state是设定随机种子，保证每次运行代码抽取到的样本一样

转载地址：http://jxqbb.baihongyu.com/

你可能感兴趣的文章