学会活动

粤港澳科技人才学术交流沙龙——大模型前沿技术与发展趋势研讨会

2023年8月26日,深圳市计算机学会联合YOCSEF深圳在腾讯滨海大厦举办了”大模型前沿技术与发展趋势”研讨会。此次论坛将聚焦大模型前沿关键技术,展望大模型和大数据的发展趋势,让与会嘉宾以不同角度讨论思辨,尝试在大模型未来发展须域探导一些方向。

粤港澳科技人才学术交流沙龙——大模型前沿技术与发展趋势研讨会

本次大会由深圳市计算机学会数据科学与工程专委会副主任、深圳大学陈小军老师主持,深圳大学特聘教授黄哲学、深圳大学大数据系统计算技术国家工程实验室副主任沈琳淋、香港科技大学(广州)信息枢纽终生教授王炜、中山大学(深圳)副教授/国家级青年人才梁小丹、香港中文大学的孔秋强等受邀报告嘉宾;哈尔滨工业大学深圳)副教授户保田、香港大学助理教授黄超、微众银行范涛、深圳数据交易所王吴越受邀做议题引导嘉宾;北京交通大学教授金一、 清华大学深圳研究生院教授袁春、北京交通大学教授魏云超、深圳大学教授吴晓晓\特聘教授秦建斌、北京大学深圳研究生院助理教授袁粒、幂商科技余冰、香港生产力促进局成杰峰等受邀参加会议。

2023年初,OpenAl发布ChatGPT后火爆全网,各大公司及开源社区争先恐后推出了各种大模型,目前正在上演“千模大战”。尽管大模型取得了突破性的进展,但仍然重要清醒地认识到,大模型在理论及落地上还有许多问题要解决,陈小军表示,本次活动的目的是探讨大模型的前沿技术及未来的发展趋势,以及与大数据技术的深度结合,希望通过本次讨论能形成若干有意义的共识,使相关领域从业人员收益。

粤港澳科技人才学术交流沙龙——大模型前沿技术与发展趋势研讨会
袁春和金一致辞

袁春和金一首先致辞。两人表示,本次活动准备充分,所邀请的嘉宾与主题非常匹配, 相信活动能取得圆满成功。同时, 也期待论坛能够推动粤港澳大湾区更多更深入的交流。
本次活动分为两个专题,大模型专题及大数据专题


Part 1 大模型专题
首先,沈琳琳以《AIGC之伶荔中文大语言模型》为题,介绍了自研的TencentPretrain 框架,以及基于此框架对 LLaMA微调得到的伶荔大模型。目前伶荔大模型开源获得了2700+ GitHub Stars,有1000+的活跃用户,已经在包括金融、人脸检测、医疗及数字人等领域获得了应用。

粤港澳科技人才学术交流沙龙——大模型前沿技术与发展趋势研讨会
伶荔中文大语言模型发展路径


然后,梁小丹做了《多模态开放域检测大模型及应用》报告,介绍了团队在语言-视觉大模型方面的工作,并将其用于机器人导航上取得了不错的效果。她也表示由于多模态之间的语义鸿沟与导航的动态性,实现精准的多模态语义对齐存在巨大的挑战。

接下来,孔秋强以《大语言模型在音频信号处理中的应用与展望》为题介绍了音频信号处理的经典任务,探过了大模型时代音频信号处理的新数据集、新模型、新任务,以及音频领域的理解和生成任务的难点

粤港澳科技人才学术交流沙龙——大模型前沿技术与发展趋势研讨会

最后,陈小军及金一主持了大模型专题的思辨环节,就大模型演进及落地的技术路径进行了深入探讨。
首先探讨了大模型的技术架构问题。在讨论开始前,户保田引导介绍了提出的一种用于大型语言模型的交互式感知网络LMEye,通过允许大语言模型结合与人类指令一致的视觉信息来进行动态交互,并在多模态问答和推理任务上显著提高了大语言模型在多模态任务上的零样本性能。针对大模型的技术架构问题,讨论了两个子问
题。

1)尽管目前常用的Transformer架构具有计算高效、上下文感知等优点,但也存在如训练数据量要求高、可解释差、学习长距离依赖关系的能力有限及推理速度慢等缺点。

2)针对领域大模型,就目前而言,从头开始训练一个大模型对很多企业来说不大实际,所以大都利用已有的大语言模型进行微调。但目前利用大语言模型微调的多模态大模型性能有限,所以需要探索新的路径。


然后探讨了大模型落地的技术架构问题。在讨论开始前,范涛介绍了团队在联邦大模型方面的一些探索。联邦大模型的初衷是解决用户的算力不足,数据不足及数据隐私问题。在实际的应用中,可以将联邦大模型分为同构联邦大模型、异构联邦大模型、大模型指导小模型联邦及大模型和数据的联邦。针对大模型落地的技术架构问题,主要关注点是如何在实际应用场景中构建适配应用场景的大模型体系? 具体讨论了两个子问题。

1)在实际应用场景中,是应该选择大模型、小模型组合还是大小模型协同? 孔秋强表示,在工业界的很多应用如语音识别,更乐意采用小模型组合的方式。但余冰表示,语音任务最好的是训练一个通用的大模型,然后再此基础上去增加对其他语言的支持。户保田提出了一种新的思路,即利用多个各有所长的小模型辩论的方式去解决传统需要大模型才能解决的一些复杂问题。

2)大小模型如何协同进化?袁春表示,在很多实际应用场景如自动驾驶场景,感知和决策是两个系统,而其中决策是非常困难的,目前很难用端到端的方式来做,需要多个模型进行有效地协作。梁小丹建议可以将小模型作为agent,通过类似ToolTransformer的方法来训练大模型调用小模型以协同进化,同时也需要考虑大小模至之间的合作及竞争等关系。


大家全情投入,讨论非常激烈,初步达成了如下的共识:目前Transformer存在推理速度慢等问题,需要探索新的架构。同时,也需要关注训练数据的质量。针对领域大模型,通用大模型+行业知识图谱是一个很重要的方向,同时也需要结合连续学习的方式来对大模型的知识进行持续更新。

Part 2 大数据专题
首先,深圳大学大黄哲学以《非MapReduce大数据计算》为题,介绍了与传统的全量数据计算不一样的随机样本计算技术,即通过对数据进行打乱抽样,在少量随机样本而不是全量数据上进行近似计算,可以获得非常高的性能加速并极大地降低大数据的处理成本。

然后,香港科技大学(广州)王炜以(Towards Understanding the”intelligence”of Large language Models)为题探讨了大语言模型的智能涌现机制、局限性
介绍了大模型编辑及蒸馏方面的一些工作,并指出了一些大语言模型未来重要的研究问题,如大语言模型的机制及更务的能力、快速知识更新等。

陈小军及金一共同主持了大数据专题的思辨环节,就大模型和大数据技术如何深度结合进行了深入的讨论。

首先探讨了大模型对数据的需求问题。在讨论开始前,来自深圳数据交易所生态发展部业务主管王吴越介绍了当前大模型面临的训练数据痛点,以及利用数据交易来有效支撑企业大模型训练的方案及实际案例。
然后讨论了大模型时代,大数据技术的发展趋势。在讨论开始前,香港大学助理教授黄超介绍了在基于大模型的推荐技术方面的一些工作,包括用大语言模型来做数据增强,以及生成式推荐等。

经过一下午的讨论,大家初步达成了如下的共识:数据交易可以解决大模型的数据问题,同时数据压缩、数据合成及元学习也是有效的解决洲练数据不足的技术手段。同时,利用大模型来提升大数据清洗、管理、检索、推荐是大模型时代大数据技术的重要发展趋势。

本次会议也在热烈的讨论中圆满结束。

相关新闻