Data Science / NLP / LLM Applications

RichardF 的技术作品集与学习实验室

大四学生，正在系统整理 Python 工程、数据科学、机器学习、NLP/LLM 应用、数学笔记和项目复盘。这里既是学习档案，也是逐步成型的技术作品集。

查看作品集学习路线 GitHub

NLP / LLM ApplicationsData Science / Big DataPython / C++ / PyTorch

Current TrackLearning in Public

把课程项目、技术笔记和实验记录整理成长期可回看的作品体系。

16 posts6 projects4 tracks

NLP Portfolio Project

Stock Market Sentiment Classification

从传统机器学习 baseline 到 DistilBERT + LoRA，再到 XGBoost hybrid 的完整情感分类项目。

DistilBERT / LoRA / XGBoost / Macro F1

Big DataPandas / Dask / SparkSQL 实战路线 Engineering面向真实项目的 Python 工程能力

01Programming Core

Python、C++、算法题、项目结构和可复现脚本。

线性代数、SVD、张量分解、优化和模型背后的数学。

Pandas、Dask、Spark、特征工程和大数据分析。

04Portfolio Output

把项目文章、GitHub、实验结果整理成可面试讲述的作品。

Recent Posts

2026-06-24发表2026-06-24更新Data science1 小时读完 (大约7094个字)

DSAI4205 Big Data Analytics 全景导览：从分布式系统到 NLP、图分析与推荐系统

这篇文章根据 DSAI4205 Big Data Analytics 的 Lecture 1-10 和复习材料整理。目标不是把课件逐页翻译一遍，而是把这门课真正要训练的思维串起来：当数据大到单机放不下、处理不过来、结构又越来越复杂时，我们应该如何存储、计算、分析和建模。

如果只背术语，很容易把这门课学成一堆零散概念：HDFS、Dask、Spark、Hive、NLP、PageRank、NoSQL、推荐系统。更好的理解方式是把它们看成同一个问题的不同层次：

\text{Data Scale} \rightarrow \text{Distributed Storage} \rightarrow \text{Parallel Computing} \rightarrow \text{Structured / Unstructured Analytics} \rightarrow \text{Graph and Recommendation}