Pandas
pandas是python中一种常用的数据分析库,对小型数据分析非常快捷方便
引入pandas库
使用import pandas as pd
简单的数组命令
创建数组
df=pd.Series([1,2,3,4,5,6])
命名index
df=pd.Series([1,2,3,4,5],index=[‘A’,‘B’,‘C’,‘D’,‘E’])
注意index中的元素数量应该和数组里的一样
数组的简单指令
mode ( )求众数
mean ( )求算术平均数
median ( )求中位数
min ( )求最小数
max ( )求最大数
std (ddof=0)求标准差
std (ddof=1)求样本标准差
ddof指的是自由度
sum ( )求和
var (ddof=0)求方差
var (ddof=1)求样本方差
mad ()求平均绝对离差 (描述数据离散程度)
count ()计算数据量
如果数组与数组间对应的数据类型相同,且大小相同,这两个数组可以直接相加
直接描述数组
df.describe()
数组内各数的频率
df.value_counts()
联立几个数组为表格
df_new=pd.concat([S1,S2,S3…],axis=1)
S1,S2…name参数不能为空
选取数据
df[‘目标数据列’]
df.loc[num,‘’]前者是行数,后者是目标数据列的name
df=df[df[‘’]条件] 选取数据列中符合要求的数据
创建新的数据列
如果新的数据列与原有数据列有代数关系
df[new]=df[old]operation
如果没有代数关系,就重新创一个Series再使用concat指令
csv文件相关命令
导入csv文件
df=pd.read_csv(“文件名”,header=,name=[ ],idx_col(“”))
保存csv
df.to_csv(‘文件名’)
读取txt文本
df=pd.read_table(“文件名”,sep=)
注意,读取的文件必须和python运行文件在同一文件包下,否则就要加上具体的地址
数据处理
补充空白数据
df.fillna(0)用0来填充空白数据
取代错误数据
df.replace(“”,0)
使用matplotlib库绘制图像
导入库
import matplotlib.pyplot as plt
选取目标数据列
df1=df[“”]
绘制柱状图
plt.hist(df1)
plt.show ()
绘制精确的柱状图
x=df1.value_counts().index
y=df1.value_counts().value
plt.bar(x,y)
绘制饼状图
plt.pie(y,labels=x,autopct=“1.1f%%”)
plt.show()
Data bin(不知道中文叫啥,就是把连续的变量x分成几个区间)
plt.hist(df1,bins=20)
plt.hist(df1,bins=[0,20,50,100])
绘制折线图
plt.plot(df1)
plt.plot(x,y)
plt.xticks(rotation=30)x轴标识旋转30度
plt.xlabel(“”)x轴名字 y轴同理
plt.legend([“”,“”])折线名
plt.title()
绘制散点图
plt.scatter(x,y)