DSAI4205 动手教程:用 Pandas、Dask、Spark RDD 与 SparkSQL 完成大数据分析入门
上一篇 DSAI4205 笔记偏“全景导览”,解释了大数据分析的系统主线。这一篇换成动手教程:根据 Tutorial 1-4、solution PDF 和配套数据,把 Pandas、Dask、Spark RDD、SparkSQL 串成一条从单机数据分析到分布式数据处理的实践路线。
读完这篇,目标不是记住所有 API,而是建立一个非常重要的迁移关系:
Data Science / NLP / LLM Applications
大四学生,正在系统训练 Python、PyTorch、算法、NLP/LLM 应用和 RAG 项目能力。 这里记录我的学习路线、项目复盘和技术笔记。
NLP/LLM 应用算法、RAG/Agent、数据挖掘、搜索/推荐基础。
DSAI4205 动手教程:用 Pandas、Dask、Spark RDD 与 SparkSQL 完成大数据分析入门
上一篇 DSAI4205 笔记偏“全景导览”,解释了大数据分析的系统主线。这一篇换成动手教程:根据 Tutorial 1-4、solution PDF 和配套数据,把 Pandas、Dask、Spark RDD、SparkSQL 串成一条从单机数据分析到分布式数据处理的实践路线。
读完这篇,目标不是记住所有 API,而是建立一个非常重要的迁移关系: