Projects
Portfolio Demo
项目作品集
这里把博客里的项目、课程实践和可继续扩展的作品集中展示。每张卡片都尽量回答三个问题: 这个项目解决什么问题,用了什么技术,下一步怎么变成更强的实习作品。
Stock Market Sentiment Classification
三分类金融情感分析项目,从 TF-IDF + Logistic Regression、Word2Vec + XGBoost 等传统 baseline, 扩展到 DistilBERT + LoRA,再用 XGBoost 做混合分类器。
- Tech
- DistilBERT, LoRA, XGBoost, Macro F1
- Value
- 能展示完整建模流程、实验对比和误差分析
DSAI4205 Big Data Hands-on
围绕 Pandas、Dask、Spark RDD、SparkSQL、PageRank、NoSQL 等主题整理的 Big Data 动手教程, 适合展示数据处理和分布式计算基础。
- Tech
- Pandas, Dask, PySpark, SparkSQL
- Next
- 补一个可运行 notebook 索引和实验截图
SVD and Tensor Notes
用 SVD、低秩近似、推荐系统、PCA、SVM kernel、Tensor/CP/Tucker 等内容连接线性代数和机器学习。 适合作为数学理解型作品。
- Tech
- SVD, PCA, Tensor Decomposition
- Next
- 加入 NumPy demo 和可视化实验
Python for Algorithm Internship
从 Python 基础语法一路接到 logging、argparse、项目结构、配置文件、实验输出和训练脚本骨架。 这是后续项目代码质量的基础设施。
- Tech
- Python, logging, argparse, pathlib, JSON
- Next
- 配一个小型词频统计 CLI demo
Mini RAG System
下一步可以做一个最小 RAG 系统:文档切分、embedding、向量检索、rerank、回答生成和评估。 这个项目会直接对齐 LLM 应用算法实习。
- Tech
- Embedding, Retrieval, Rerank, Evaluation
- Output
- README, demo script, evaluation report
Search and Recommendation Baseline
预留一个搜索/推荐 baseline:召回、排序、指标、误差分析。可以从 MovieLens 或公开电商数据集开始。
- Tech
- Recall, Ranking, MAP, NDCG
- Output
- Notebook + script + project article
项目补强原则
README 要写清楚数据、环境、命令和结果,不让读者猜。
尽量让项目能用一两条命令跑通 baseline。
有 baseline、有指标、有错误分析,才能体现算法思考。