雷锋网 (大众号:雷锋网) AI研习社按 :随着硬件算力的上升、数据量的加大以及各种新算法的显现,机器学习也变得一天比一天炽热。不夸大的说,这是机器学习的时代。但是,机器学习虽然可以给出冷艳的后果,但其无限的解释性也常被人戏称为“黑箱”。而理论者在运用机器学习的进程中往往也会面临各种各样的选择。本文的目的就是协助理论者在运用机器学习进程中做出正确的选择和判别。文章内容依据知乎人气答主阿萨姆在雷锋网AI研习社上直播分享整理而成。如您想直接看视频回放,可点击 这里 。
阿萨姆,普华永道初级数据迷信家,担任统计学习模型开发。有丰厚的工业及学术经历,擅长将实际知识使用于理论中。曾以第一作者宣布过多篇不同范畴的学术文章,如人机互动、智能零碎等。研讨兴味包括异常检测、集成学习、跨范畴机器学习。以笔名“阿萨姆”在知乎上创作了多篇机器学习相关的文章,曾数次被知乎及知乎日报收录。乐于技术分享,近期正在停止机器学习理论书籍创作。
以下是阿萨姆的直播分享内容:
机器学习无处不在的选择
数据如何清算?运用哪个模型?如何停止评价?如何发现过拟合与欠拟合?这些成绩都还没有精确的答案,往往依赖于运用者的经历与直觉。在明天的分享课中,我们将汇集中讨论在机器学习中所面临的选择,并给出一些适用的经历建议。
实践成绩笼统化
机器学习和深度学习听起来十分酷炫,但不要为了运用模型而发明成绩:机器学习的目的是处理成绩。不要为了运用机器学习而发明成绩。
机器学习可以预测很多东西,要学会确定“最小预测单元”,每当你把精度加深的时分,预测的难度就会加大。
切记自觉追求经过一个模型预测多个目的,尽量拆分成绩。
确定最优框架,在可以运用监视学习,半监视学习,无监视学习,强化学习的状况下,优先运用监视学习
监视学习和无监视学习是”精确“和”探究“之间的均衡。
在理解了怎样定义一个最小单元,也晓得选择什么样的框架后,上面需求思索的成绩是工夫与空间上的依赖性。假如不思索时空依赖性,成绩会失掉简化,但能够有严重偏向。假如需求思索工夫与空间上的依赖性,优先从复杂的角度动手。
由于在实践消费中需求的是一个能用的模型,而不是要一个完满的模型,这是一个迭代的进程。
在理解了时空依赖性关于机器学习成绩的意义,下一个成绩谈的是回归和分类。
什么状况下是合适停止回归到分类的转化。
另外一个成绩,数据质量往往不是连接的。假如状况没有那么好,可以舍弃一局部数据或对数据切分。
小结
确定要预测的目的,找到项目痛点,不追求同事预测多个目的。
确定处理成绩的框架,优先运用监视学习
结合已有的规则, 尝试交融机器学习模型和人为规则
假如能够,优先尝试分类义务,也可以尝试将回归转为分类
从易到难,确定尝试哪些机器学习模型
要处理的成绩能否关于”时空“存在依赖性,假如可以逃避依懒性,可以先试试复杂模型
假如发现运用全部数据效果不好,可以尝试丢弃局部数据或分段处置。
如何选择并处置数据
首先,大家要晓得,数据不是越多越好,要依据范畴经历挑选相关特征。有一个误区就是信息越多越好。其实不然,有关信息能够与预测值存在某种巧合,招致对检测后果形成负面影响。所以只选择与预测值能够有关联的信息。
如何判别特征与后果之间的相关性
相关性剖析的意义,可以发现数据中的成绩,发现数据中有意思的局部,评价模型的才能。假如多个特征高度相关,那能够模型预测才能效果无限。
假如发现很多特征高度相关,能否应该移除?
总结来看,假如不存在特别严重的相关性,去相关性不是必要步骤。从实际和实验角度来看,去掉或许兼并相关性特征不一定会进步模型的预测才能。
从理论角度来看,树模型关于相关性的鲁棒性强,假如能够,可以先运用未处置的特征在树模型停止尝试。
假如有必要移除相关性,上面是移除相关性的办法:
特征选择
设定阈值,去除高线性相关的特征组。
延续特征团圆化
数据与特征工程小结
在处置数据上,数据并非越多越好,多余的有关特征会由于伪相关、巧合而影响模型。
对数据做相关性剖析的时分,善用可视化可以了如指掌发现成绩。
关于高度相关的特征,移除或许兼并前要三思,能够并不会进步模型才能。
假如选用了线性模型,能够需求对特征停止团圆化
关于大局部模型来说,归一化或许规范化是必不可少的步骤,至多”有害“
假如成绩较为复杂,尽量选择非线性的鲁棒性强的模型
模型选择与评价的小结
以下是我引荐的模型选择及评价流程:
依据要处理的成绩和对数据的了解,大致决议出模型的搜索范围,如尝试SVM,逻辑回归,随机森林等。如资源允许,可扩展模型候选名单。
依据要处理的成绩和对数据的了解,决议模型的评价规范。虽然建议选择单一的评价规范停止比照,但引荐计算一切能够的评价规范。
依据详细成绩中的数据量大小,以及模型波动性,决议能否运用穿插验证。
结合参数搜索、穿插验证办法,经过选定的评价规范从候选模型中找到表现最好的模型。
对上一步中的所选模型停止微调。
迭代以上步骤直到找到最优的模型。
如何调试机器学习模型
我们经常看到的一种调试办法是剖析一个模型的泛化才能,次要看他的偏向与方差。
量化模型泛化才能-过拟合
量化模型泛化才能的诊断方式
模型成绩诊断-高偏向和模型成绩诊断-高方差
运用集成学习降低方差与偏向
机器学习模型调试小结
机器学习互动问答
更多精彩内容,请观看雷锋网AI慕课学院 视频回放 。
。