Data Science / NLP / LLM Applications

RichardF 的技术作品集与学习实验室

大四学生，正在系统整理 Python 工程、数据科学、机器学习、NLP/LLM 应用、数学笔记和项目复盘。这里既是学习档案，也是逐步成型的技术作品集。

NLP / LLM ApplicationsData Science / Big DataPython / C++ / PyTorch

Current TrackLearning in Public

把课程项目、技术笔记和实验记录整理成长期可回看的作品体系。

16 posts6 projects4 tracks

Stock Market Sentiment Classification

从传统机器学习 baseline 到 DistilBERT + LoRA，再到 XGBoost hybrid 的完整情感分类项目。

Python、C++、算法题、项目结构和可复现脚本。

线性代数、SVD、张量分解、优化和模型背后的数学。

Pandas、Dask、Spark、特征工程和大数据分析。

把项目文章、GitHub、实验结果整理成可面试讲述的作品。

Recent Posts

2026-06-24发表2026-06-24更新Data science34 分钟读完 (大约5068个字)

上一篇 DSAI4205 笔记偏“全景导览”，解释了大数据分析的系统主线。这一篇换成动手教程：根据 Tutorial 1-4、solution PDF 和配套数据，把 Pandas、Dask、Spark RDD、SparkSQL 串成一条从单机数据分析到分布式数据处理的实践路线。

读完这篇，目标不是记住所有 API，而是建立一个非常重要的迁移关系：

\text{Pandas DataFrame} \rightarrow \text{Dask DataFrame} \rightarrow \text{Spark RDD} \rightarrow \text{Spark DataFrame / SparkSQL}

2024-02-02发表2026-06-24更新Data science23 分钟读完 (大约3491个字)

Pandas 是 Python 中最常用的数据分析库之一。它适合处理表格数据，例如 CSV、Excel、实验记录、Kaggle 数据集、推荐系统日志和机器学习训练数据。

如果说 NumPy 更像“高效数组计算工具”，那么 Pandas 更像“带行列标签的表格处理工具”。它最适合做数据分析项目的前半段：读取数据、检查质量、清洗字段、构造特征、合并多张表、聚合统计，最后把干净的数据交给模型或可视化工具。