For investors
股价:
5.36 美元 %For investors
股价:
5.36 美元 %认真做教育 专心促就业
早先人们常使用卷积神经网络、循环神经网络来处理自然语言任务,但Transformer模型的诞生改变了这个情况。
Transformer模型使用的是全新的注意力机制,达到了比卷积神经网络和循环神经网络更好的效果。而BERT模型则是在Transformer模型基础上的又一次优化,直接使NLP模型的性能达到前所未有的高度。
BERT模型已经成为自然语言处理的主流技术。
BERT模型是一种无监督的预训练语言模型。人们以BERT模型为基础,对其进行了结构调整、性能优化、再训练等,产生了许多在专业领域中表现更佳的模型。这些模型被统一称为BERTology系列模型。
BERTology系列模型在NLP的多种场景中都发挥了惊人的效果。从某种角度讲,BERTology系列模型所涉及的技术是当今NLP领域的主流技术。
基于超大规模的高精度模型
从BERT模型到RoBERTa模型、GPT模型,再到GPT-2模型、GPT-3模型,模型效果的提升已经证明了——用更多的数据可以“跑”出更强大、更通用的预训练模型。
近年来,英伟达、谷歌、Open-AI相继放出的“巨无霸”模型有MegatronLM(含83亿个参数)、T5(含110亿个参数)、GPT-3(含1500亿个参数)。
当然,“巨无霸”模型的能力并不仅仅停留在精度上,它们甚至可以通过语义交互的方式直接完成NLP任务。
基于超小规模的高精度模型
快速发展的深层神经网络,在过去的十年中彻底改变了NLP领域。
另外,诸如保护用户隐私、消除网络延迟、启用离线功能、降低运营成本等问题,要求模型能运行在设备终端,而不是数据中心。这种需求推动了小规模NLP模型的迅速发展。
BERT模型逐渐在往“大规模”和“小规模”两个极端发展。如何用尽可能少的参数取得和“大模型”接近的效果,同时让训练速度和预测速度翻倍,是一个很实际、很有价值的课题。
华为诺亚方舟实验室发布的TinyBERT模型、北京大学的FastBERT模型,在这方面都取得了瞩目的成绩。
基于小样本训练的模型
在实际业务场景中,中小AI企业往往容易出现数据量不足的问题。
例如,用户需要订制一个客服机器人,但只有100个标准问题,这么小的数据集不足以支撑模型的训练。
对于这类问题,除花费高成本找标注团队制造数据外,还可以通过迁移学习、小样本学习的方法来让模型通过少量样本进行学习,从而获得较强的泛化能力。这些学习已经成为近年的研究热点之一。
合肥达内IT培训免费试听课程火热报名中,带你轻松入行,26大课程全国45个城市,129家中心均可就近学习,学完后,达内老师会帮助进行面试辅导,在面试前,就带你跨过可能存在的坑,让你入职更加顺利。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请添加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。