Data Science / NLP / LLM Applications

RichardF 的技术作品集与学习实验室

大四学生,正在系统整理 Python 工程、数据科学、机器学习、NLP/LLM 应用、 数学笔记和项目复盘。这里既是学习档案,也是逐步成型的技术作品集。

NLP / LLM ApplicationsData Science / Big DataPython / C++ / PyTorch
Current TrackLearning in Public

把课程项目、技术笔记和实验记录整理成长期可回看的作品体系。

16 posts6 projects4 tracks
NLP Portfolio Project

Stock Market Sentiment Classification

从传统机器学习 baseline 到 DistilBERT + LoRA,再到 XGBoost hybrid 的完整情感分类项目。

DistilBERT / LoRA / XGBoost / Macro F1
01Programming Core

Python、C++、算法题、项目结构和可复现脚本。

02Math for ML

线性代数、SVD、张量分解、优化和模型背后的数学。

03Data Systems

Pandas、Dask、Spark、特征工程和大数据分析。

04Portfolio Output

把项目文章、GitHub、实验结果整理成可面试讲述的作品。

Recent Posts

AMA3602 应用线性模型教程:从简单回归、多元回归到模型诊断、变量选择与混合效应模型

这篇文章根据 AMA3602 Applied Linear Models 的讲义、tutorial、summary note 和 Boston Housing 项目资料整理。它不是考试提纲,而是一篇面向“真的会用回归建模”的教程:先把简单线性回归和多元线性回归讲清楚,再进入残差诊断、变量选择、多重共线性、ridge regression,最后接到随机效应模型和一个 Boston Housing 房价建模案例。

如果把机器学习理解成“用数据拟合一个可泛化的函数”,那么线性模型就是最值得先学扎实的一类模型。它简单,但不幼稚;它的假设透明,诊断方法成熟,而且很多复杂模型的思想都可以在这里找到原型。

阅读更多