Pandas

数据类型

series 序列
dataframe 表格

修改的参数多半有inplace: bool

文件操作

df = pd.read_csv(“name.csv”, sep=”,”)
df.to_csv(“name.csv”, index= False)

df = pd.read_excel(“name.xlsx”)
df.to_excel(“name.xlsx”)

索引

df["column_name"]
df[['Name',_'Age']] # 选择多列
df.loc["label"] # 按标签选择行
df.loc[["label",_"label2"]] # 选择多行
df.loc[row_label_slice, column_label_slice]
df.iloc[row_index_slice, column_index_slice]

条件索引
df[(df["age"] > 28) & (df["city"] == "New York")] # 筛选年龄大于28且城市为New York的行

数据

统计

df.mean()       # 各列均值
df.median()     # 中位数
df.mode()       # 众数
df.std()        # 标准差
df.min()        # 最小值
df.max()        # 最大值
df.count()      # 非空值计数

处理

df.isnull()     # 检查缺失值
df.dropna()     # 删除包含缺失值的行
df.fillna(0)    # 用0填充缺失值
df.fillna(df.mean())  # 用均值填充

转换

1 2	`df['Age'].apply(lambda x: x + 1) # 对列应用函数 df['Age_Category'] = pd.cut(df['Age'], bins=[0, 30, 40, 50], labels=['Young', 'Middle', 'Senior'])`

df.sort_values(‘Age’, ascending=False) # 按年龄降序排序

where

Pandas

http://kaelvio.com/Pandas/

作者

采薇

发布于

2025年10月11日

许可协议

《爱欲之死》上一篇

Curry-Howard-Lambek_Correspondence 下一篇