场景背景

开发过程中可能正处于如下场景中：

从数据库中查询了大量数据（百万行以上）
想让大模型帮你写分析代码
但无法把全部数据放进提示词（Token 受限）
我们只想告诉模型：“这个文件包含哪些字段？每列什么类型？长什么样？”

于是，我们需要一种方法来：

✨ 快速保存查询数据，并提取 schema 和部分示例，生成简洁的上下文描述供 LLM 使用。

为什么不用 CSV？

虽然 CSV 是最常见的数据导出格式，但它存在很多局限：

问题	说明
无数据类型信息	所有内容都是字符串，模型不知道哪些是数字、时间等
文件大	无压缩，占空间大，加载慢
不支持嵌套结构	如果有 JSON 列、数组列，几乎无法兼容
不利于筛选	无列式存储，不方便快速读取前几行

解决方案：使用 Parquet 格式

Parquet 是一种高性能、列式存储格式，广泛用于大数据与分析场景。

优势：

自动保存 schema（列名 + 数据类型）
支持压缩，文件更小
可快速读取前几行做数据预览
与 Pandas、DuckDB、Polars、PyArrow 等工具无缝配合
易于写脚本提取结构摘要

从数据库导出为 Parquet 文件

你可以使用 Pandas + SQLAlchemy 查询数据库，并分批写入 Parquet 文件，避免内存爆炸：

import pandas as pd
from sqlalchemy import create_engine

engine = create_engine("mysql+pymysql://user:pwd@host/dbname")
chunks = pd.read_sql("SELECT * FROM your_table", engine, chunksize=100_000)

for i, chunk in enumerate(chunks):
    chunk.to_parquet(f"your_table_part{i}.parquet", index=False)

如何提取结构信息供 LLM 使用

使用 pyarrow 和 pandas，你可以快速提取：

文件名
schema（字段名 + 数据类型）
前几行数据样例

示例代码如下：

import pyarrow.parquet as pq
import os

def summarize_parquet(filepath, n_preview=5):
    parquet_file = pq.ParquetFile(filepath)
    schema = parquet_file.schema.to_arrow_schema()
    preview_df = parquet_file.read_row_groups([0]).to_pandas().head(n_preview)

    return {
        "file": os.path.basename(filepath),
        "schema": str(schema),
        "preview_rows": preview_df.to_dict(orient="records")
    }

输出结构如下（可直接用于提示词）：

{
  "file": "user_events.parquet",
  "schema": "user_id: int64, event_time: timestamp[us], action: string, success: bool",
  "preview_rows": [
    {"user_id": 1, "event_time": "2023-01-01T00:00:00", "action": "login", "success": true},
    {"user_id": 2, "event_time": "2023-01-01T00:05:00", "action": "logout", "success": false}
  ]
}

批量处理多个 Parquet 文件

可以扩展上面的函数批量提取一个目录下所有 Parquet 文件的摘要：

import glob
summaries = []
for path in glob.glob("data/*.parquet"):
    summaries.append(summarize_parquet(path))

# 输出为 JSON / Markdown 供提示词使用
import json
print(json.dumps(summaries, indent=2))

如果使用 DuckDB 也可以这么做

DuckDB 支持 SQL 操作 Parquet，也可以将查询结果直接存入自己的 .duckdb 文件：

import duckdb
con = duckdb.connect("data.duckdb")
con.execute("CREATE TABLE my_table AS SELECT * FROM 'data.parquet'")

然后也可以从中提取 schema 和前几行：

schema = con.execute("DESCRIBE my_table").fetchall()
preview = con.execute("SELECT * FROM my_table LIMIT 5").fetchdf()

附加对比：CSV vs Parquet 性能简表（10 万行示例）

操作	CSV（10 万行）	Parquet（10 万行）
文件大小	25MB	3MB
读取耗时（Pandas）	1.5 秒	0.3 秒
获取 schema 是否方便	手动推断	自动获取
是否支持部分列读取	否	支持
是否支持压缩	无	内建