For investors
股价:
5.36 美元 %For investors
股价:
5.36 美元 %认真做教育 专心促就业
我们在前几期的文章中给大家简单介绍了人工智能技术的一些基础知识点等内容,而本文我们就继续来学习一下,人工智能机器学习入门需要掌握哪些技术。
机器学习的基本框架
1.一系列可能函数(模型)2.选出好的函数3.训练数据
有监督学习:标记数据需要大量人工,很多时候没有相关的知识(目前好的模型基本是有监督模型,中国的人口优势使得其可能成为人工智能强国)
无监督学习:模型自己总结出类别(一开始没有类别,类别本身也是一种知识)
半监督学习:模型需根据标注数据完善未标注数据
强化学习:间接“标记”,给很多步一个评价,比如棋局的输赢,训练猫狗(在一系列动作后给予反馈),强化学习是一个反复的过程,有监督学习一次就可以学完,给予少量数据形成模型,用模型输出然后得到反馈,然后不断对模型进行修改强化。
基于规则的模型:由人定义特征及其与输出之间的关系
基于统计的模型:人定义特征,由模型确定特征与输出之间的关系(特征非常重要:灌水论文,随便选特征看效果;工业领域蒙特征很重要,《特征工程》)
更智能一点?
深度学习模型:端到端模型,数据到数据;不用定义特征,其可以自动发现特征(我们自己的认知可能会有缺陷),模型确定原始数据与输出之间的关系
为什么深度学习这么厉害?
深度学习可以自己发现特征,其采用多层人工神经网络,深度深在层次上,广度和深度那个更好?越深越能发现复杂的特征(尽管其计算代价很大,有过拟合的风险)
人工智能的一些重要问题
深度学习这么厉害,我们可以一劳永逸吗?不行
人工标记(劳动密集型),人工选特征(很难),选模型(很难,一半靠蒙)
什么是好的模型?泛化能力&性能
好的模型就是再泛化能力与性能之间寻求一个平衡
太极阴阳,工程图纸
太极阴阳:描述性十分强,泛化能力强,但精确度与可计算性十分差欠拟合模型
工程图纸:泛化能力差,描述性差,具体可计算过拟合模型
再比如大学中的哲学类课程提供了欠拟合模型,过细的专业课则是过拟合模型,我们要想构建更好的认识世界的模型(世界观),还得自学大量的知识
模型的复杂度越高,越容易过拟合(ppt上图片十分重要),太简单或太复杂都不可以,机器学习的技巧性就体现在找佳VC维,使得模型在泛化能力与性能之间达到一个平衡
为了避免过拟合,就有了开发集这一概念
数据集:训练集,测试集(使用次数越少越好),开发集(使用次数不限)
模型训练中使用开发集做评估,其使用的次数不限,但在模型投入应用前,要用测试集进行一次评估,测试集的评估结果大概率能反映模型的真实水平,因为对测试集的使用次数做了限制,所以模型在测试集上出现过拟合的概率很小。
另外一种方法是大家共同维护一个数据集用于测试,即公共数据集
公共数据集的代表性,质量比较高;不同的模型比较也更加公平
(刷榜问题,依然会过拟合:刷榜指的是公共数据集上好的模型会被其他团队所借鉴,坏的模型逐渐被淘汰,后多个团队实际在进行一场接力赛,即好的模型被不断的加强,不断的贴近公共数据集,这样依然会发生过拟合问题)
过拟合问题看起来很简单,但实际很难解决
“成功是大的失败”(当这个时代变化时,成功者会更加固执的坚持自己的固有经验,更不愿意做出改变)
工程应用由于成本限制,往往先从简单的模型开始(比如基于规则的模型),如果简单的模型效果不好,再尝试更为复杂的模型(比如深度学习模型),以下三种模型按简单到复杂的顺序排列
基于规则的模型:问题简单,拥有大量已有知识
基于统计的模型:数据量不大,有一些明确特征
深度学习模型:没有先验知识,没有明确特征,数据量大,算力高
并不是所有问题都适合用深度学习模型,其必须满足应用的条件;尤其是数据噪音大的时候更不应该用深度学习,因为其对噪音很敏感,这种情况下简单的模型由于对噪声的敏感度低,效果反而更好。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加抖音太原达内IT培训学习了解。