Author Image

李尉衔

李尉衔

人工智能应用研究所博士在读 于 爱丁堡大学

我是爱丁堡大学-信息学院-人工智能应用研究所的博士生,有幸得到Tiejun Ma教授的指导。硕士以Distinction(卓越)等级毕业于爱丁堡大学信息学院语言认知计算研究所,指导老师是Shay Cohen教授。此前,我还在爱丁堡大学获得了一等荣誉学士学位(First-class Honours)。 我博士期间的研究方向包括:

  • 基于深度学习的学习排序(learning-to-rank)模型。
  • 学习排序模型在金融领域的应用。
  • 检索增强生成(RAG)系统。
  • 大型语言模型(LLMs)的应用。

教育

2023至今
人工智能应用研究所博士在读(PhD Candidate)
语言认知计算研究所学术型硕士 (Master by Research)
学位等级: 卓越(Distinction) (毕业论文)
人工智能理学学士
学位等级: 一等学位(First-Class Honours)
数学与应用数学理学学士

论文

SynthRank: Synthetic Data Generation of Individual’s Financial Transactions Through Learning to Ranking. Weixian Waylon Li, Mengyu Wang, Carsten Maple, Tiejun Ma (2024). To appear in AI in Finance for Social Impact @ AAAI 2024

BERT is not The Count: Learning to Match Mathematical Statements with Proofs. Weixian Waylon Li, Yftah Ziser, Maximin Coavoux and Shay B. Cohen (2023). In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2023)

经验

1
实习研究员
华为英国研发中心-2012实验室

2024年五月 - 至今, 英国剑桥&爱丁堡

职责:
  • 主要进行关于大语言模型和RAG的洞察研究。

研究助理
阿兰·图灵研究所

2022年六月 - 至今, 英国

指导老师:Tiejun Ma教授

职责:
  • 主题为“金融合成数据生成(synthetic data generation)”
  • 与伦敦大学城市学院(UCL)合作进行时间序列金融数据生成
2

3
机器学习简介课程助教
爱丁堡大学

2020年七月 - 至今, 英国爱丁堡

职责:
  • 担任Introductory Applied Machine Learning 课程的助教
  • 负责Tutorials 和Labs 的授课,以及试卷批改
  • 为所有选择此课程的本科生和研究生答疑,同时听取关于课程的建议并把反馈传达给授课老师

Python暑期课程助教
爱丁堡大学

2022年七月 - 2022年八月, 英国爱丁堡

4

5
Foudation of Natural Language Processing实验课助教
爱丁堡大学

2022年一月 - 2022年五月, 英国爱丁堡


信息系统工程师
国际商业机器(中国)公司

2019年七月 - 2019年九月, 中国广东

职责:
  • 广发银行Z14 大型机升级:参与广发银行Z14 大型机光纤布线以及Hardware Management Console (HMC) 切换。从中学习到大型服务器的架构以及机房网络的连接结构。
  • 潮州三环有限公司IT 规划:参加IBM-GSS 部门与潮州三环关于IT 规划项目的初次会议。
  • 广东移动、广东税务局机房日常维护:参与广东移动、广东税务局机房日常维护,内容包括机器日常巡检、硬盘损坏排查以及FSP (Flex Service Processor) 卡电源更换。维护机型有Power 780、S814 Server、DS 8870 和DS 8880 存储。
6

7
大数据平台运维工程师
中国联通广东省分公司

2019年五月 - 2019年七月, 中国广东

职责:
  • 大数据平台安全升级:为合作企业分配服务器权限,从中熟悉了Linux 命令行操作。
  • 联通内部Spark 培训:参加中国联通广东省分公司内部培训,学习了HDFS 分布式文件系统、Hadoop分布式框架以及Spark 计算框架。

学术会议

Economics of Financial Technology Conference 2024报告人、分会主持2024年6月
Annual Meeting of the Association for Computational Linguistics (ACL) 2024审稿人2024年2月
TSDiP Workshop @ Warwick University报告人2024年1月
Conference on Empirical Methods in Natural Language Processing (EMNLP) 2023审稿人2023年7月
TSDiP Workshop @ Warwick University参会者2023年7月
Conference of the European Chapter of the ACL (EACL) 2023报告人2023年5月
Conference on Empirical Methods in Natural Language Processing (EMNLP) 2022审稿人2022年8月
Conference on Empirical Methods in Natural Language Processing (EMNLP) 2021参会者2021年11月
ACL-IJCNLP 2021参会者2021年7月
Annual Conference of the North American Chapter of the ACL (NAACL) 2021参会者2021年6月
World Artificial Intelligence Conference 2019参会者2019年8月
Huawei Developer Conference 2019参会者2019年8月

动态

  • July, 2024

    参加兰卡斯特大学NLPAICS' 2024

  • July, 2024

    参加谢菲尔德大学Multi-modal workshop

  • 2024年六月

    参加爱丁堡Economics of Financial Technology Conference 2024并主持Artificial Intelligence in Finance session

  • 2024年六月

    参加伦敦AI Summit 2024

  • 2024年五月

    加入华为英国研发中心-2012实验室作为研究实习生

  • 2024年一月

    将参加第二次在华威大学举办的TSDiP研讨会

  • 2023年十二月

    一篇论文被AI in Finance for Social Impact @ AAAI 2024接收

  • 2023年十一月

    一篇论文提交到AI in Finance for Social Impact @ AAAI 2024

  • 2023年七月

    参加在华威大学举办的TSDiP研讨会

  • 2023年七月

    于牛津大学参加OxML 2023

  • 2023年五月

    - 在克罗地亚参加EACL 2023会议并展示我们的论文

  • 2023年三月

    - 开始为期一个月的annual leave

    - 前往深圳证券交易所交流学习

  • 2023年二月

    - 开始在爱丁堡大学人工智能应用研究所的博士生涯

    - 一篇论文被EACL 2023录取

  • 2022年十月

    - 以卓越等级获得爱丁堡大学语言认知计算研究所学术型硕士学位

  • 2021年十月

    - 开始研究型硕士,指导教授是Shay Cohen

  • 2021年六月

    - 获得爱丁堡大学一等学士学位

最新博文

Card image cap
关于AI未来几年发展的粗浅看法

今天偶然间和几个朋友聊到未来几年AI的发展趋势问题。关于AI 未来几年的看法,核心观点是:大众对AI的发展可能有些“过度乐观”,当前对AI能力的估计过高。如果缺乏“杀手级”的应用场景,AI的热潮是否可能在两到三年后消退,最终刺破一个“巨大泡沫”? 我也认为现如今AI的真实表现其实远不如大众心里的预期,新兴媒体的推波助澜,让大模型显得无所不能,但在实际应用中却处处受限,距离理想效果还有很长的路要走。至于AI产业的未来发展,我相信工业界的评估更多是从管理、商业、技术等多个方面结合过往经验来全面考量的。我作为一名纯技术理论背景的学生,只能从个人背景的角度出发,分享对某个“点”的看法,舍弃我不懂的商业和管理角度,单从理论和技术出发,谈一些不成熟的见解。 当下学术界对于大语言模型的研究主要集中在如何降低算力需求,即提升模型效率,亦或是提高模型内部的知识密度,同时结合外挂的各种形式的知识库来提高大语言模型的表现,比如说大火的vLLM,和其他各种微信公众号广泛传播的开源项目。诚然,在如此飞速的发展下,在2-3年后也许真的会进入瓶颈期,即模型内部的知识密度已经非常大,外挂知识库的形式也有了被广泛认同的“best practice”解决方案。到那时,我们或许再也不像2022年-2023年那样,隔三差五就能看到大语言模型每一次都比上一次要“聪明”很多的情况。这通常意味着基础理论或模型架构需要新的突破。 现如今的大模型普遍采用Transformer架构,那么到时候面临的问题就会是:Transformer是最优解吗?其实这个问题在近两年已经被得到广泛讨论,关注度比较高的当然是Mamba和TTT。由于算力和数据的限制,我个人没有条件对这两个架构进行深入实验,但我猜想工业界已有所尝试。然而,到目前为止,还没有基于Mamba架构的成熟大模型出现,我猜测是因为效果不如预期。但即便如此,Transformer应当也不是最优解。 Transformer的拥护者们认为多头注意力机制,或自注意力机制是“大道至简”的解决方案。既然传统方法的缺陷是难以捕捉长距离依赖,那么干脆就舍弃时序建模,转而计算每对tokens的相关性,这样不就解决了距离的问题吗?转到空间模型还能实现并行计算,可谓是一举多得。然而,也有一部分人认为Transformer的解决方式是不够优雅的,甚至可以说是“丑陋”的。人类语言本身具有天然的时序性,阅读时也是按顺序进行的。Transformer这种抛弃语言本身时序性的方式,可以说是一种“暴力”解法,并不符合自然规律。我本人其实更倾向于后者,即Transformer是一种高效的暂时解法,或类似“曲线救国”的方案,但我个人并不认为这是最终解法。至于为什么“返璞归真”的Mamba并没有得到广泛应用,它到底还存在什么缺陷,这一点也许还需要更深入的研究。 回到最初的问题,当大语言模型陷入瓶颈,我认为总是会有下一个Transformer出现。之前David Barber教授也提到大语言模型中还存在许多“不优雅”的方法,例如被许多人诟病的teacher forcing。这也说明目前的许多解法都是折中方案,而当下一个足以颠覆游戏的基础架构应运而生的时候,第二波AI浪潮或许会再次掀起。我们可以回顾一下被广泛应用的神经网络架构及其出现的时间:RNN(1986年),LSTM(1997年)、CNN(1998年)、ResNet(2012年)、GAN(2014年)、Transformer(2016年)。新架构出现的时间间隔呈现缩短的趋势,以上每一个架构在其时都具有颠覆性意义,甚至至今仍被广泛使用。现在已是2024年,距离Transformer的提出已经过去了8年,谁能保证在未来两到三年内不会出现下一个更加优雅的game changer呢? 以上只是一些回家路上的随想,先挖个坑,等时间充裕些了再补一篇详细的分析吧。

Card image cap
大语言模型能否具备空间智能?

(这篇博文用英文攥写并翻译自ChatGPT) 最近,我们学校庆祝了计算机科学与人工智能专业成立60周年。为了纪念这一时刻,组织者邀请了Fernando Pereira发表关于语言形式与意义之间联系的演讲。多年来,这个主题一直吸引着语言学家、计算机科学家和认知研究人员的关注。 在演讲中,Pereira提出了一个发人深省的例子。他提问:“Bob坐在Alice的右边,Jack在Bob的左边。如果每个人都将自己的名牌传给右边的人,最后谁会拿到哪个名牌? 令人惊讶的是,当这个问题被测试在一个大语言模型(LLM)上时,它未能给出正确答案(我自己还没试过,但这并不重要)。这引发了我的好奇:大语言模型能否获得空间智能? 我想到的一个潜在解决方案是将文本到图像的组件与文本编码器结合起来。通过生成图像,我们或许能够保留语言编码器遗漏的空间信息。 为了获得更多见解,我联系了哥伦比亚大学一位专攻计算机视觉的朋友。然而,他表达了怀疑态度。他指出,当前的图像生成模型,如稳定扩散、DALLE和Imagen,在文本理解上严重依赖于CLIP。因此,如果大语言模型在理解空间关系上遇到困难,那么图像生成也可能会面临同样的挑战。 尽管我们都认识到将问题转换为代码或逻辑推理可能会解决这一问题,但这偏离了最初的目标:赋予大语言模型空间智能。而且,随着空间场景变得越来越复杂,创建逻辑表示变得愈发困难。 暂时先把这个想法留在这里。随着我深入研究这一课题并收集更多见解,我也许会更新这篇文章。