📊 Pandas 是什么?
Pandas是Python里最常用的数据处理库,专门用来处理表格数据。
就像 Excel 但更强大,可以用代码操作!
👨💻 安装
pip install pandas
📦 创建表格(DataFrame)
import pandas as pd
# 直接创建
df = pd.DataFrame({
"股票": ["茅台", "五粮液", "海螺水泥"],
"代码": ["600519", "000858", "600585"],
"价格": [1800, 200, 30],
"涨跌幅": [1.5, -0.8, 2.1]
})
print(df)
结果:
股票 代码 价格 涨跌幅 0 茅台 600519 1800 1.5 1 五粮液 000858 200 -0.8 2 海螺水泥 600585 30 2.1
🔍 查看数据
print(df.head()) # 前几行
print(df.tail()) # 后几行
print(df.shape) # 行数列数 (3, 4)
print(df.columns) # 列名
print(df.info()) # 信息
📊 选择列
print(df["股票"]) # 单列
print(df[["股票", "价格"]]) # 多列
🔎 筛选行
# 价格上涨的
print(df[df["涨跌幅"] > 0])
# 价格大于100的
print(df[df["价格"] > 100])
➕ 添加新列
# 计算市值(简单示例)
df["市值"] = df["价格"] * 1000000
print(df)
📈 统计计算
print(df["价格"].mean()) # 平均值
print(df["价格"].max()) # 最大值
print(df["价格"].min()) # 最小值
print(df["涨跌幅"].sum()) # 总和
💡 量化实战:处理股票数据
import akshare as ak
# 获取数据
df = ak.stock_zh_a_hist(symbol="600519")
print(df.columns)
# 选择需要的列
df = df[["日期", "开盘", "收盘", "最高", "最低", "成交量"]]
# 筛选日期
df = df[df["日期"] >= "2024-01-01"]
# 计算收益率
df["收益率"] = (df["收盘"] - df["收盘"].shift(1)) / df["收盘"].shift(1) * 100
print(df.head())
📚 下一课
学会了Pandas基础,我们来学数据筛选与过滤!