Data Science / NLP / LLM Applications

RichardF

大四学生,正在系统训练 Python、PyTorch、算法、NLP/LLM 应用和 RAG 项目能力。 这里记录我的学习路线、项目复盘和技术笔记。

Current Goal2026 Internship Prep

NLP/LLM 应用算法、RAG/Agent、数据挖掘、搜索/推荐基础。

01

Current Focus

Python / PyTorchNLP & LLM AppsRAG / AgentAlgorithmsC++ Basics
Recent Posts

DSAI4205 动手教程:用 Pandas、Dask、Spark RDD 与 SparkSQL 完成大数据分析入门

上一篇 DSAI4205 笔记偏“全景导览”,解释了大数据分析的系统主线。这一篇换成动手教程:根据 Tutorial 1-4、solution PDF 和配套数据,把 Pandas、Dask、Spark RDD、SparkSQL 串成一条从单机数据分析到分布式数据处理的实践路线。

读完这篇,目标不是记住所有 API,而是建立一个非常重要的迁移关系:

Pandas DataFrameDask DataFrameSpark RDDSpark DataFrame / SparkSQL\text{Pandas DataFrame} \rightarrow \text{Dask DataFrame} \rightarrow \text{Spark RDD} \rightarrow \text{Spark DataFrame / SparkSQL}

阅读更多

Pandas 入门到实用:数据读取、清洗、合并、聚合与项目流程

Pandas 是 Python 中最常用的数据分析库之一。它适合处理表格数据,例如 CSV、Excel、实验记录、Kaggle 数据集、推荐系统日志和机器学习训练数据。

如果说 NumPy 更像“高效数组计算工具”,那么 Pandas 更像“带行列标签的表格处理工具”。它最适合做数据分析项目的前半段:读取数据、检查质量、清洗字段、构造特征、合并多张表、聚合统计,最后把干净的数据交给模型或可视化工具。

阅读更多