1. KNN算法K近邻算法N个最近相邻的样本;2. 线性回归均方误差MSE、均方根误差RMSE、平均绝对值误差MAE3. 逻辑回归准确率(预测正确的样本数量/样本总数)、精确率(Precision 预测为正样本中的真实正样本数/预测为正样本的样本数-“抓的所有人中真正坏人占抓住的所有人的比例”)、召回率(recall 预测为正样本中的真实正样本数/真实正样本数-“所有坏人中被抓住的坏人”)、F1-Score(2精确率召回率/(精确率召回率))面试题精确率原理是什么其来源于混淆矩阵FP、FN、TP、TNP-Positive正例、N-Negative反例、F-False假的、T-True真的FP伪正例、FN伪反例、TP真正例、TN真反例第一位是预测对错、第二位是预测结果如 FP是预测错了的 正例 -伪正例实际上是反例4. 决策树ID3树、CART树(一定是二叉树)、C4.5信息增益(ID3)、信息增益率值(C4.5)越大则说明优先选择该特征;基尼指数值越小(CART)则说明优先选择该特征。5. 集成学习Bagging随机森林算法RF (Random Forest) Boosting (1)AdaBoost算法 (2)GBDT①提升树 BDT(Boosting Decision Tree)、 ②梯度提升树 GBDT(Gradient Boosting Decision Tree)、 ③️XGBoost随机森林和XGBoot的区别:随机森林是 Bagging 并行树依靠随机采样降低方差模型稳定、不易过拟合XGBoost 是 Boosting 串行树不断拟合残差自带 L1/L2 正则支持缺失值自动处理预测精度更高但更容易过拟合需要仔细调参。6. 聚类Kmeans算法6.1 Kmeans算法原理(1)K值的含义:聚成几类 (2)K值选择方法肘部法则-SSE 变化过程中会出现一个拐点下降率突然变缓时即认为是最佳 n_clusters 值 (3)Kmeans实现流程①事先确定常数K常数K意味着最终的聚类类别数②随机选择 K 个样本点作为初始聚类中心③计算每个样本到 K 个中心的距离选择最近的聚类中心点作为标记类别④根据每个类别中的样本点重新计算出新的聚类中心点平均值如果计算得出的新中心点与原中心点一样则停止聚类否则重新进行第 3 步过程直到聚类中心不再变化或达到最大迭代次数 (4)APIklearn.cluster.KMeans(n_clusters8)6.2 聚类评估方法(1)SSE簇内误差的平方和SSE越小聚类效果越好 (2)SC轮廓系数综合考虑簇内的内聚程度与簇间的分离程度SC越大聚类效果越好 (3)CH轮廓系数综合考虑簇内的内聚程度、簇间的分离程度、质心的个数CH越大聚类效果越好
机器学习算法
发布时间:2026/6/29 19:35:57
1. KNN算法K近邻算法N个最近相邻的样本;2. 线性回归均方误差MSE、均方根误差RMSE、平均绝对值误差MAE3. 逻辑回归准确率(预测正确的样本数量/样本总数)、精确率(Precision 预测为正样本中的真实正样本数/预测为正样本的样本数-“抓的所有人中真正坏人占抓住的所有人的比例”)、召回率(recall 预测为正样本中的真实正样本数/真实正样本数-“所有坏人中被抓住的坏人”)、F1-Score(2精确率召回率/(精确率召回率))面试题精确率原理是什么其来源于混淆矩阵FP、FN、TP、TNP-Positive正例、N-Negative反例、F-False假的、T-True真的FP伪正例、FN伪反例、TP真正例、TN真反例第一位是预测对错、第二位是预测结果如 FP是预测错了的 正例 -伪正例实际上是反例4. 决策树ID3树、CART树(一定是二叉树)、C4.5信息增益(ID3)、信息增益率值(C4.5)越大则说明优先选择该特征;基尼指数值越小(CART)则说明优先选择该特征。5. 集成学习Bagging随机森林算法RF (Random Forest) Boosting (1)AdaBoost算法 (2)GBDT①提升树 BDT(Boosting Decision Tree)、 ②梯度提升树 GBDT(Gradient Boosting Decision Tree)、 ③️XGBoost随机森林和XGBoot的区别:随机森林是 Bagging 并行树依靠随机采样降低方差模型稳定、不易过拟合XGBoost 是 Boosting 串行树不断拟合残差自带 L1/L2 正则支持缺失值自动处理预测精度更高但更容易过拟合需要仔细调参。6. 聚类Kmeans算法6.1 Kmeans算法原理(1)K值的含义:聚成几类 (2)K值选择方法肘部法则-SSE 变化过程中会出现一个拐点下降率突然变缓时即认为是最佳 n_clusters 值 (3)Kmeans实现流程①事先确定常数K常数K意味着最终的聚类类别数②随机选择 K 个样本点作为初始聚类中心③计算每个样本到 K 个中心的距离选择最近的聚类中心点作为标记类别④根据每个类别中的样本点重新计算出新的聚类中心点平均值如果计算得出的新中心点与原中心点一样则停止聚类否则重新进行第 3 步过程直到聚类中心不再变化或达到最大迭代次数 (4)APIklearn.cluster.KMeans(n_clusters8)6.2 聚类评估方法(1)SSE簇内误差的平方和SSE越小聚类效果越好 (2)SC轮廓系数综合考虑簇内的内聚程度与簇间的分离程度SC越大聚类效果越好 (3)CH轮廓系数综合考虑簇内的内聚程度、簇间的分离程度、质心的个数CH越大聚类效果越好