Data Science / NLP / LLM Applications

RichardF 的技术作品集与学习实验室

大四学生,正在系统整理 Python 工程、数据科学、机器学习、NLP/LLM 应用、 数学笔记和项目复盘。这里既是学习档案,也是逐步成型的技术作品集。

NLP / LLM ApplicationsData Science / Big DataPython / C++ / PyTorch
Current TrackLearning in Public

把课程项目、技术笔记和实验记录整理成长期可回看的作品体系。

16 posts6 projects4 tracks
NLP Portfolio Project

Stock Market Sentiment Classification

从传统机器学习 baseline 到 DistilBERT + LoRA,再到 XGBoost hybrid 的完整情感分类项目。

DistilBERT / LoRA / XGBoost / Macro F1
01Programming Core

Python、C++、算法题、项目结构和可复现脚本。

02Math for ML

线性代数、SVD、张量分解、优化和模型背后的数学。

03Data Systems

Pandas、Dask、Spark、特征工程和大数据分析。

04Portfolio Output

把项目文章、GitHub、实验结果整理成可面试讲述的作品。

Recent Posts

AMA4680 统计机器学习教程:从正则化、核方法、分类器到聚类与 MDP

这篇文章根据 AMA4680 Statistical Machine Learning 的讲义和 tutorial 资料整理。它适合作为一篇经典机器学习入门到进阶的路线图:先从线性代数与回归复习开始,然后进入 ridge / lasso / kernel methods,再到分类问题中的 decision tree、Naive Bayes、SVM、logistic regression、ANN,最后补上无监督学习的 clustering 和强化学习基础 MDP。

如果 AMA3602 更像“怎样把一个线性模型建扎实”,那么 AMA4680 更像“怎样理解经典机器学习算法家族”。这门课的价值不只是会背算法公式,而是建立一个清晰框架:什么是监督学习,为什么需要正则化,核方法在做什么,分类器如何定义边界,无监督学习如何发现结构,MDP 如何把机器学习从预测推进到决策。

阅读更多