Pandas

Pandas

pandas是python中一种常用的数据分析库,对小型数据分析非常快捷方便

引入pandas库

使用import pandas as pd

简单的数组命令

创建数组

df=pd.Series([1,2,3,4,5,6])

命名index

df=pd.Series([1,2,3,4,5],index=[‘A’,‘B’,‘C’,‘D’,‘E’])
注意index中的元素数量应该和数组里的一样

数组的简单指令

mode ( )求众数
mean ( )求算术平均数
median ( )求中位数
min ( )求最小数
max ( )求最大数
std (ddof=0)求标准差
std (ddof=1)求样本标准差
ddof指的是自由度
sum ( )求和
var (ddof=0)求方差
var (ddof=1)求样本方差
mad ()求平均绝对离差 (描述数据离散程度)
count ()计算数据量

如果数组与数组间对应的数据类型相同,且大小相同,这两个数组可以直接相加

直接描述数组

df.describe()

数组内各数的频率

df.value_counts()

联立几个数组为表格

df_new=pd.concat([S1,S2,S3…],axis=1)
S1,S2…name参数不能为空

选取数据

df[‘目标数据列’]
df.loc[num,‘’]前者是行数,后者是目标数据列的name
df=df[df[‘’]条件] 选取数据列中符合要求的数据

创建新的数据列
如果新的数据列与原有数据列有代数关系
df[new]=df[old]operation
如果没有代数关系,就重新创一个Series再使用concat指令

csv文件相关命令

导入csv文件

df=pd.read_csv(“文件名”,header=,name=[ ],idx_col(“”))

保存csv

df.to_csv(‘文件名’)

读取txt文本

df=pd.read_table(“文件名”,sep=)

注意,读取的文件必须和python运行文件在同一文件包下,否则就要加上具体的地址

数据处理
补充空白数据

df.fillna(0)用0来填充空白数据

取代错误数据

df.replace(“”,0)

使用matplotlib库绘制图像

导入库

import matplotlib.pyplot as plt

选取目标数据列

df1=df[“”]

绘制柱状图

plt.hist(df1)
plt.show ()

绘制精确的柱状图

x=df1.value_counts().index
y=df1.value_counts().value
plt.bar(x,y)

绘制饼状图

plt.pie(y,labels=x,autopct=“1.1f%%”)
plt.show()

Data bin(不知道中文叫啥,就是把连续的变量x分成几个区间)

plt.hist(df1,bins=20)
plt.hist(df1,bins=[0,20,50,100])

绘制折线图

plt.plot(df1)
plt.plot(x,y)
plt.xticks(rotation=30)x轴标识旋转30度
plt.xlabel(“”)x轴名字 y轴同理
plt.legend([“”,“”])折线名
plt.title()

绘制散点图

plt.scatter(x,y)