Data Science / NLP / LLM Applications

RichardF

大四学生,正在系统训练 Python、PyTorch、算法、NLP/LLM 应用和 RAG 项目能力。 这里记录我的学习路线、项目复盘和技术笔记。

Current Goal2026 Internship Prep

NLP/LLM 应用算法、RAG/Agent、数据挖掘、搜索/推荐基础。

01

Current Focus

Python / PyTorchNLP & LLM AppsRAG / AgentAlgorithmsC++ Basics
Recent Posts

DSAI4205 Big Data Analytics 全景导览:从分布式系统到 NLP、图分析与推荐系统

这篇文章根据 DSAI4205 Big Data Analytics 的 Lecture 1-10 和复习材料整理。目标不是把课件逐页翻译一遍,而是把这门课真正要训练的思维串起来:当数据大到单机放不下、处理不过来、结构又越来越复杂时,我们应该如何存储、计算、分析和建模。

如果只背术语,很容易把这门课学成一堆零散概念:HDFS、Dask、Spark、Hive、NLP、PageRank、NoSQL、推荐系统。更好的理解方式是把它们看成同一个问题的不同层次:

Data ScaleDistributed StorageParallel ComputingStructured / Unstructured AnalyticsGraph and Recommendation\text{Data Scale} \rightarrow \text{Distributed Storage} \rightarrow \text{Parallel Computing} \rightarrow \text{Structured / Unstructured Analytics} \rightarrow \text{Graph and Recommendation}

阅读更多