Pandas入门:处理数据的神器

📊 Pandas 是什么?

Pandas是Python里最常用的数据处理库,专门用来处理表格数据。

就像 Excel 但更强大,可以用代码操作!

👨‍💻 安装

pip install pandas

📦 创建表格(DataFrame)

import pandas as pd

# 直接创建
df = pd.DataFrame({
    "股票": ["茅台", "五粮液", "海螺水泥"],
    "代码": ["600519", "000858", "600585"],
    "价格": [1800, 200, 30],
    "涨跌幅": [1.5, -0.8, 2.1]
})

print(df)

结果:

     股票      代码    价格  涨跌幅
0   茅台  600519   1800    1.5
1  五粮液  000858    200   -0.8
2  海螺水泥  600585     30    2.1

🔍 查看数据

print(df.head())      # 前几行
print(df.tail())       # 后几行
print(df.shape)        # 行数列数 (3, 4)
print(df.columns)       # 列名
print(df.info())       # 信息

📊 选择列

print(df["股票"])           # 单列
print(df[["股票", "价格"]])  # 多列

🔎 筛选行

# 价格上涨的
print(df[df["涨跌幅"] > 0])

# 价格大于100的
print(df[df["价格"] > 100])

➕ 添加新列

# 计算市值(简单示例)
df["市值"] = df["价格"] * 1000000
print(df)

📈 统计计算

print(df["价格"].mean())   # 平均值
print(df["价格"].max())    # 最大值
print(df["价格"].min())    # 最小值
print(df["涨跌幅"].sum())  # 总和

💡 量化实战:处理股票数据

import akshare as ak

# 获取数据
df = ak.stock_zh_a_hist(symbol="600519")
print(df.columns)

# 选择需要的列
df = df[["日期", "开盘", "收盘", "最高", "最低", "成交量"]]

# 筛选日期
df = df[df["日期"] >= "2024-01-01"]

# 计算收益率
df["收益率"] = (df["收盘"] - df["收盘"].shift(1)) / df["收盘"].shift(1) * 100

print(df.head())

📚 下一课

学会了Pandas基础,我们来学数据筛选与过滤

发表评论