股票市场情感分析项目复盘:从传统机器学习到 DistilBERT、LoRA 与 XGBoost Hybrid
这篇文章整理 DSAI4205 项目中的股票市场情感分析实验。项目目标是对 stock market crash 相关社交媒体文本做三分类情感识别,并比较传统机器学习、轻量 PLM 微调、LoRA 参数高效微调,以及 DistilBERT + XGBoost hybrid 模型的效果。
Data Science / NLP / LLM Applications
大四学生,正在系统训练 Python、PyTorch、算法、NLP/LLM 应用和 RAG 项目能力。 这里记录我的学习路线、项目复盘和技术笔记。
NLP/LLM 应用算法、RAG/Agent、数据挖掘、搜索/推荐基础。
股票市场情感分析项目复盘:从传统机器学习到 DistilBERT、LoRA 与 XGBoost Hybrid
这篇文章整理 DSAI4205 项目中的股票市场情感分析实验。项目目标是对 stock market crash 相关社交媒体文本做三分类情感识别,并比较传统机器学习、轻量 PLM 微调、LoRA 参数高效微调,以及 DistilBERT + XGBoost hybrid 模型的效果。
SVD 应用笔记:图像压缩、推荐系统、PCA 与 SVM Kernel
这篇笔记整理 SVD 在机器学习中的几个典型用法:低秩近似做图像压缩、矩阵分解做推荐系统、PCA 做降维,以及 SVM 中常见 kernel 的选择。主线是同一个:把高维数据表示成更少、更重要的方向。
Tensor 分解入门笔记:从基本记号到 CP、Tucker 与 PARAFAC2
这篇笔记主要根据 Kolda 与 Bader 的综述论文 Tensor Decompositions and Applications 整理,用来建立张量分解的基础概念。可以把它理解成从矩阵分解继续往高维数组推广:向量是一阶张量,矩阵是二阶张量,三维及以上数组就是高阶张量。