Pandas

数据类型

series 序列
dataframe 表格

修改的参数多半有inplace: bool

文件操作

df = pd.read_csv(“name.csv”, sep=”,”)
df.to_csv(“name.csv”, index= False)

df = pd.read_excel(“name.xlsx”)
df.to_excel(“name.xlsx”)

索引

df["column_name"]
df[['Name',_'Age']] # 选择多列
df.loc["label"] # 按标签选择行
df.loc[["label",_"label2"]] # 选择多行
df.loc[row_label_slice, column_label_slice]
df.iloc[row_index_slice, column_index_slice]

条件索引
df[(df["age"] > 28) & (df["city"] == "New York")]  # 筛选年龄大于28且城市为New York的行

数据

统计

1
2
3
4
5
6
7
df.mean()       # 各列均值
df.median() # 中位数
df.mode() # 众数
df.std() # 标准差
df.min() # 最小值
df.max() # 最大值
df.count() # 非空值计数

处理

1
2
3
4
df.isnull()     # 检查缺失值
df.dropna() # 删除包含缺失值的行
df.fillna(0) # 用0填充缺失值
df.fillna(df.mean()) # 用均值填充

转换

1
2
df['Age'].apply(lambda x: x + 1)  # 对列应用函数
df['Age_Category'] = pd.cut(df['Age'], bins=[0, 30, 40, 50], labels=['Young', 'Middle', 'Senior'])

df.sort_values(‘Age’, ascending=False) # 按年龄降序排序

where


Pandas
http://kaelvio.com/Pandas/
作者
采薇
发布于
2025年10月11日
许可协议