Data Science / NLP / LLM Applications

RichardF 的技术作品集与学习实验室

大四学生,正在系统整理 Python 工程、数据科学、机器学习、NLP/LLM 应用、 数学笔记和项目复盘。这里既是学习档案,也是逐步成型的技术作品集。

NLP / LLM ApplicationsData Science / Big DataPython / C++ / PyTorch
Current TrackLearning in Public

把课程项目、技术笔记和实验记录整理成长期可回看的作品体系。

16 posts6 projects4 tracks
NLP Portfolio Project

Stock Market Sentiment Classification

从传统机器学习 baseline 到 DistilBERT + LoRA,再到 XGBoost hybrid 的完整情感分类项目。

DistilBERT / LoRA / XGBoost / Macro F1
01Programming Core

Python、C++、算法题、项目结构和可复现脚本。

02Math for ML

线性代数、SVD、张量分解、优化和模型背后的数学。

03Data Systems

Pandas、Dask、Spark、特征工程和大数据分析。

04Portfolio Output

把项目文章、GitHub、实验结果整理成可面试讲述的作品。

Recent Posts

COMP4204 数据挖掘教程:从数据仓库、预处理、关联规则到分类与聚类

这篇文章根据 COMP 4204 / DSAI 4204 课程资料整理,主题是数据挖掘的完整工作流。它不是只讲模型,而是从数据仓库、数据预处理和特征工程开始,再进入关联规则挖掘、分类、集成学习、聚类、DBSCAN 和 Web Mining,形成一条从数据组织到模式发现的学习路线。

如果说统计机器学习更关心“模型为什么有效”,数据挖掘更关心的是:

面对真实、混乱、不完整的数据,如何把它整理成可以被分析、建模、解释和部署的知识。

阅读更多

DSAI4205 动手教程:用 Pandas、Dask、Spark RDD 与 SparkSQL 完成大数据分析入门

上一篇 DSAI4205 笔记偏“全景导览”,解释了大数据分析的系统主线。这一篇换成动手教程:根据 Tutorial 1-4、solution PDF 和配套数据,把 Pandas、Dask、Spark RDD、SparkSQL 串成一条从单机数据分析到分布式数据处理的实践路线。

读完这篇,目标不是记住所有 API,而是建立一个非常重要的迁移关系:

Pandas DataFrameDask DataFrameSpark RDDSpark DataFrame / SparkSQL\text{Pandas DataFrame} \rightarrow \text{Dask DataFrame} \rightarrow \text{Spark RDD} \rightarrow \text{Spark DataFrame / SparkSQL}

阅读更多

DSAI4205 Big Data Analytics 全景导览:从分布式系统到 NLP、图分析与推荐系统

这篇文章根据 DSAI4205 Big Data Analytics 的 Lecture 1-10 和复习材料整理。目标不是把课件逐页翻译一遍,而是把这门课真正要训练的思维串起来:当数据大到单机放不下、处理不过来、结构又越来越复杂时,我们应该如何存储、计算、分析和建模。

如果只背术语,很容易把这门课学成一堆零散概念:HDFS、Dask、Spark、Hive、NLP、PageRank、NoSQL、推荐系统。更好的理解方式是把它们看成同一个问题的不同层次:

Data ScaleDistributed StorageParallel ComputingStructured / Unstructured AnalyticsGraph and Recommendation\text{Data Scale} \rightarrow \text{Distributed Storage} \rightarrow \text{Parallel Computing} \rightarrow \text{Structured / Unstructured Analytics} \rightarrow \text{Graph and Recommendation}

阅读更多

Pandas 入门到实用:数据读取、清洗、合并、聚合与项目流程

Pandas 是 Python 中最常用的数据分析库之一。它适合处理表格数据,例如 CSV、Excel、实验记录、Kaggle 数据集、推荐系统日志和机器学习训练数据。

如果说 NumPy 更像“高效数组计算工具”,那么 Pandas 更像“带行列标签的表格处理工具”。它最适合做数据分析项目的前半段:读取数据、检查质量、清洗字段、构造特征、合并多张表、聚合统计,最后把干净的数据交给模型或可视化工具。

阅读更多

Kaggle Learning Log 1

Foreword

As a data science student, I started using Kaggle to practice machine learning and data analysis.

Kaggle is useful because it provides real datasets, public notebooks, competitions, and a community where beginners can learn from other people’s workflows.

阅读更多