目录
1. 选题与问题定义
先明确研究问题:是分类、回归还是聚类?一句话描述:我想用 哪些特征 预测 什么目标。
AI 可辅助头脑风暴。示例提示词(Prompt):
请列出5个使用公开数据集、适合本科毕业论文的机器学习建模选题,并说明研究意义。
2. 数据收集与预处理
import pandas as pd, numpy as np
df = pd.read_csv('data.csv')
df = df.dropna()
df = pd.get_dummies(df)
3. 选择AI模型
根据任务类型快速决策:
任务类型 | 推荐模型 | 一行代码 |
---|---|---|
回归 | 随机森林 | from sklearn.ensemble import RandomForestRegressor |
分类 | XGBoost | import xgboost as xgb; model=xgb.XGBClassifier() |
聚类 | KMeans | from sklearn.cluster import KMeans |
4. 训练与评估
from sklearn.model_selection import train_test_split, cross_val_score
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model.fit(X_train, y_train)
print("CV Score:", cross_val_score(model, X, y, cv=5).mean())
AI 提示词:将上述结果整理成论文中“实验设置”段落。
5. 结果解释与可视化
- 特征重要度:
model.feature_importances_
- 一键绘图:
import matplotlib.pyplot as plt
plt.barh(X.columns, model.feature_importances_)
plt.title("Feature Importance")
plt.show()
6. 论文写作与引用
- 用 AI 工具(例如 ChatGPT / Notion AI)把实验描述转成学术语言。
- 引用格式:使用 Zotero 自动生成 BibTeX。
- 检查重复率:Turnitin 或知网查重前,自行用 GPT 改写、增加原创性讨论。
附:常用免费工具
- 数据集:Kaggle、UCI、Google Dataset Search
- 编程环境:Google Colab(免安装GPU)
- 写作排版:Overleaf(在线LaTeX)
- AI助手:ChatGPT、Notion AI、文心一言