分享在数据分析过程中最常使用的Python函数和方法
我们知道Pandas是Python中最广泛使用的数据分析和操作库。它提供了许多功能和方法,可以快速解决数据分析中数据处理问题。
为了更好的掌握Python函数的使用方法,我以客户流失数据集为例,分享在数据分析过程中最常使用的函数和方法。
数据如下所示:
importnumpyasnp
importpandasaspd
df=pd.read_csv("Churn_Modelling.csv")
print(df.shape)
df.columns
结果输出:
(10000,14)
Index(['RowNumber','CustomerId','Surname','CreditScore','Geography','Gender','Age','Tenure','Balance','NumOfProducts','HasCrCard','IsActiveMember','EstimatedSalary','Exited'],dtype='object')
1.删除列
df.drop(['RowNumber','CustomerId','Surname','CreditScore'],axis=1,inplace=True)
print(df[:2])
print(df.shape)
结果输出:
说明:「axis」参数设置为1以放置列,0设置为行。「inplace=True」参数设置为True以保存更改。我们减了4列,因此列数从14个减少到10列。
GeographyGenderAgeTenureBalanceNumOfProductsHasCrCard\
0FranceFemale4220.011
IsActiveMemberEstimatedSalaryExited
01101348.881
(10000,10)
2.选择特定列
我们从csv文件中读取部分列数据。可以使用usecols参数。
df_spec=pd.read_csv("Churn_Modelling.csv",usecols=['Gender','Age','Tenure','Balance'])
df_spec.head()
3.nrows
可以使用nrows参数,创建了一个包含csv文件前5000行的数据帧。还可以使用skiprows参数从文件末尾选择行。Skiprows=5000表示我们将在读取csv文件时跳过前5000行。
df_partial=pd.read_csv("Churn_Modelling.csv",nrows=5000)
print(df_partial.shape)
4.样品
创建数据框后,我们可能需要一个小样本来测试数据。我们可以使用n或frac参数来确定样本大小。
df=pd.read_csv("Churn_Modelling.csv",usecols=['Gender','Age','Tenure','Balance'])
df_sample=df.sample(n=1000)
df_sample2=df.sample(frac=0.1)
5.检查缺失值
isna函数确定数据帧中缺失的值。通过将isna与sum函数一起使用,我们可以看到每列中缺失值的数量。
df.isna().sum()
6.使用loc和iloc添加缺失值
使用loc和iloc添加缺失值,两者区别如下:
·loc:选择带标签
·iloc:选择索引
我们首先创建20个随机索引进行选择:
missing_index=np.random.randint(10000,size=20)
我们将使用loc将某些值更改为np.nan(缺失值)。
df.loc[missing_index,['Balance','Geography']]=np.nan
"Balance"和"Geography"列中缺少20个值。让我们用iloc做另一个示例。
df.iloc[missing_index,-1]=np.nan
7.填充缺失值
fillna函数用于填充缺失的值。它提供了许多选项。我们可以使用特定值、聚合函数(例如均值)或上一个或下一个值。
avg=df['Balance'].mean()
df['Balance'].fillna(value=avg,inplace=True)
fillna函数的方法参数可用于根据列中的上一个或下一个值(例如方法="ffill")填充缺失值。它可以对顺序数据(例如时间序列)非常有用。
8.删除缺失值
处理缺失值的另一个方法是删除它们。以下代码将删除具有任何缺失值的行。
df.dropna(axis=0,how='any',inplace=True)
9.根据条件选择行
在某些情况下,我们需要适合某些条件的观测值(即行)。
france_churn=df[(df.Geography=='France')&(df.Exited==1)]
france_churn.Geography.value_counts()
10.用查询描述条件
查询函数提供了一种更灵活的传递条件的方法。我们可以用字符串来描述它们。
df2=df.query('80000 df2=df.query('80000 df2=df.query('80000 11.用isin描述条件 条件可能有多个值。在这种情况下,最好使用isin方法,而不是单独编写值。 df[df['Tenure'].isin([4,6,9,10])][:3] 12.Groupby函数 PandasGroupby函数是一个多功能且易于使用的功能,可帮助获取数据概述。它使浏览数据集和揭示变量之间的基本关系更加容易。 我们将做几个组比函数的示例。让我们从简单的开始。以下代码将基于Geography、Gender组合对行进行分组,然后给出每个组的平均流。 df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).mean() 13.Groupby与聚合函数结合 agg函数允许在组上应用多个聚合函数,函数的列表作为参数传递。 df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).agg(['mean','count']) 以上内容为大家介绍了数据分析过程中最常使用的Python函数和方法,希望对大家有所帮助,如果想要了解更多Python相关知识,请关注IT培训机构:千锋教育。http://www.mobiletrain.org/
相关推荐HOT
更多>>python如何显示中文字体
python显示中文字体的方法:在这里,你可以选择2种不同的解决方法方法一:定义声明好编码格式首先你要做的,是在打开写入文件时,声明encoding...详情>>
2023-11-12 23:32:23python3.6怎么打包
安装pyinstaller,python安装目录下shift+右键打开cmd或者Powershell窗口输入pipinstallpyinstallerpython安装目录下\Scripts文件夹下会出详情>>
2023-11-12 22:52:29python空格怎样设置
Python最具特色的是用缩进来标明成块的代码。我下面以if选择结构来举例。if后面跟随条件,如果条件成立,则执行归属于if的一个代码块。在Python...详情>>
2023-11-12 22:14:14Python中区分字符与字符串吗?
python中不区分字符与字符串,与C语言相比,Python没有字符类型,只有字符串类型。推荐学习《Python教程》。Python中的字符串是用双引号或单引...详情>>
2023-11-12 21:26:38