Author Image

李尉衔

李尉衔

人工智能应用研究所博士在读 于 爱丁堡大学

我是爱丁堡大学-信息学院-人工智能应用研究所的博士生,有幸得到Tiejun Ma教授的指导。硕士以Distinction(卓越)等级毕业于爱丁堡大学信息学院语言认知计算研究所,指导老师是Shay Cohen教授。此前,我还在爱丁堡大学获得了一等荣誉学士学位(First-class Honours)。 我博士期间的研究方向是应用深度学习算法和自然语言处理模型监测金融市场中的风险用户。更具体的有:

  • 金融风险监测机器学习模型
  • 深度学习排序算法和信息检索
  • 预训练语言模型的开发和应用
  • 自然语言模型的领域适应

教育

2022至今
人工智能应用研究所博士在读(PhD Candidate)
语言认知计算研究所学术型硕士 (Master by Research)
学位等级: 卓越(Distinction) (毕业论文)
人工智能理学学士
学位等级: 一等学位(First-Class Honours)
数学与应用数学理学学士

论文

SynthRank: Synthetic Data Generation of Individual’s Financial Transactions Through Learning to Ranking. Weixian Waylon Li, Mengyu Wang, Carsten Maple, Tiejun Ma (2024). To appear in AI in Finance for Social Impact @ AAAI 2024

BERT is not The Count: Learning to Match Mathematical Statements with Proofs. Weixian Waylon Li, Yftah Ziser, Maximin Coavoux and Shay B. Cohen (2023). In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2023)

经验

1
研究助理
阿兰·图灵研究所

2022年六月 - 至今, 英国

指导老师:Tiejun Ma教授

职责:
  • 主题为“金融合成数据生成(synthetic data generation)”
  • 与伦敦大学城市学院(UCL)合作进行时间序列金融数据生成

机器学习简介课程助教
爱丁堡大学

2020年七月 - 至今, 英国爱丁堡

职责:
  • 担任Introductory Applied Machine Learning 课程的助教
  • 负责Tutorials 和Labs 的授课,以及试卷批改
  • 为所有选择此课程的本科生和研究生答疑,同时听取关于课程的建议并把反馈传达给授课老师
2

3
Python暑期课程助教
爱丁堡大学

2022年七月 - 2022年八月, 英国爱丁堡


Foudation of Natural Language Processing实验课助教
爱丁堡大学

2022年一月 - 2022年五月, 英国爱丁堡

4

5
信息系统工程师
国际商业机器(中国)公司

2019年七月 - 2019年九月, 中国广东

职责:
  • 广发银行Z14 大型机升级:参与广发银行Z14 大型机光纤布线以及Hardware Management Console (HMC) 切换。从中学习到大型服务器的架构以及机房网络的连接结构。
  • 潮州三环有限公司IT 规划:参加IBM-GSS 部门与潮州三环关于IT 规划项目的初次会议。
  • 广东移动、广东税务局机房日常维护:参与广东移动、广东税务局机房日常维护,内容包括机器日常巡检、硬盘损坏排查以及FSP (Flex Service Processor) 卡电源更换。维护机型有Power 780、S814 Server、DS 8870 和DS 8880 存储。

大数据平台运维工程师
中国联通广东省分公司

2019年五月 - 2019年七月, 中国广东

职责:
  • 大数据平台安全升级:为合作企业分配服务器权限,从中熟悉了Linux 命令行操作。
  • 联通内部Spark 培训:参加中国联通广东省分公司内部培训,学习了HDFS 分布式文件系统、Hadoop分布式框架以及Spark 计算框架。
6

学术会议

Conference on Empirical Methods in Natural Language Processing (EMNLP) 2023审稿人2023年7月
TSDiP Workshop @ Warwick University参会者2023年7月
Conference of the European Chapter of the ACL (EACL) 2023报告人2023年5月
Conference on Empirical Methods in Natural Language Processing (EMNLP) 2022审稿人2022年8月
Conference on Empirical Methods in Natural Language Processing (EMNLP) 2021参会者2021年11月
ACL-IJCNLP 2021参会者2021年7月
Annual Conference of the North American Chapter of the ACL (NAACL) 2021参会者2021年6月
World Artificial Intelligence Conference 2019参会者2019年8月
Huawei Developer Conference 2019参会者2019年8月

动态

  • 2024年一月

    将参加第二次在华威大学举办的TSDiP研讨会

  • 2023年十二月

    一篇论文被AI in Finance for Social Impact Workshop @ AAAI 2024接收

  • 2023年十一月

    一篇论文提交到AI in Finance for Social Impact Workshop @ AAAI 2024

  • 2023年七月

    参加在华威大学举办的TSDiP研讨会

  • 2023年七月

    于牛津大学参加OxML 2023

  • 2023年五月

    - 在克罗地亚参加EACL 2023会议并展示我们的论文

  • 2023年三月

    - 开始为期一个月的annual leave

    - 前往深圳证券交易所交流学习

  • 2023年二月

    - 开始在爱丁堡大学人工智能应用研究所的博士生涯

    - 一篇论文被EACL 2023录取

  • 2022年十月

    - 以卓越等级获得爱丁堡大学语言认知计算研究所学术型硕士学位

  • 2021年十月

    - 开始研究型硕士,指导教授是Shay Cohen

  • 2021年六月

    - 获得爱丁堡大学一等学士学位

最新博文

Card image cap
对比学习简介

(这篇博文用英文攥写并翻译自ChatGPT) 有关阅读材料: The Beginner’s Guide to Contrastive Learning SimCSE: Simple Contrastive Learning of Sentence Embeddings A Simple Framework for Contrastive Learning of Visual Representations Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks 背景 对比学习旨在通过将语义上接近的邻居聚集在一起并将非邻居推开来学习有效的表示。最初,对比学习应用于计算机视觉任务。如下图所示,我们期望模型学习具有相同标签的两个图像之间的关联性,以及具有不同标签的图像对之间的差异。 这个想法与人类从经验中学习的方式非常相似。人类不仅可以从积极信号中学习,还可以从纠正负面行为中学习。 对比学习中的关键步骤是: 定义距离度量 正样本的生成/选择 负样本的生成/选择 通常情况下,样本被编码到向量空间中,欧几里得距离将被用来表示一对样本之间的距离。一旦我们找到生成/选择正负样本的策略,我们就可以定义一个三元组 $(x, x^+, x^-)$,其中包含一个锚定样本 $x$,一个正样本 $x^+$ 和一个负样本 $x^-$。三元组损失可以表示为: $$ L = max(0, ||x - x^{+}||^2 - ||x - x^{-}||^2 + m) $$ 三元组损失被广泛用作对比学习的目标函数。 SimCSE:面向NLP的对比学习框架 SimCSE包括两个版本:无监督和监督,如下图所示。 无监督SimCSE从批内负样本中预测输入句子本身,并应用不同的隐藏丢弃掩码。监督SimCSE利用NLI数据集,将蕴含(前提-假设)对作为正例,将矛盾对以及批内其他实例作为负例。 假设一组成对示例 $\mathcal{D} = {(x_i, x_i^+)}_{i=1}^m$,其中 $x_i$ 和 $x_i^+$ 语义相关。令 $\mathbf{h}_i$ 和 $\mathbf{h}_i^+$ 表示 $x_i$ 和 $x_i^+$ 的表示,$(x_i, x_i^+)$ 的训练目标与 $N$ 对小批量为:

Card image cap
对比学习简介

(这篇博文用英文攥写并翻译自ChatGPT) 有关阅读材料: The Beginner’s Guide to Contrastive Learning SimCSE: Simple Contrastive Learning of Sentence Embeddings A Simple Framework for Contrastive Learning of Visual Representations Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks 背景 对比学习旨在通过将语义上接近的邻居聚集在一起并将非邻居推开来学习有效的表示。最初,对比学习应用于计算机视觉任务。如下图所示,我们期望模型学习具有相同标签的两个图像之间的关联性,以及具有不同标签的图像对之间的差异。 这个想法与人类从经验中学习的方式非常相似。人类不仅可以从积极信号中学习,还可以从纠正负面行为中学习。 对比学习中的关键步骤是: 定义距离度量 正样本的生成/选择 负样本的生成/选择 通常情况下,样本被编码到向量空间中,欧几里得距离将被用来表示一对样本之间的距离。一旦我们找到生成/选择正负样本的策略,我们就可以定义一个三元组 $(x, x^+, x^-)$,其中包含一个锚定样本 $x$,一个正样本 $x^+$ 和一个负样本 $x^-$。三元组损失可以表示为: $$ L = max(0, ||x - x^{+}||^2 - ||x - x^{-}||^2 + m) $$ 三元组损失被广泛用作对比学习的目标函数。 SimCSE:面向NLP的对比学习框架 SimCSE包括两个版本:无监督和监督,如下图所示。 无监督SimCSE从批内负样本中预测输入句子本身,并应用不同的隐藏丢弃掩码。监督SimCSE利用NLI数据集,将蕴含(前提-假设)对作为正例,将矛盾对以及批内其他实例作为负例。 假设一组成对示例 $\mathcal{D} = {(x_i, x_i^+)}_{i=1}^m$,其中 $x_i$ 和 $x_i^+$ 语义相关。令 $\mathbf{h}_i$ 和 $\mathbf{h}_i^+$ 表示 $x_i$ 和 $x_i^+$ 的表示,$(x_i, x_i^+)$ 的训练目标与 $N$ 对小批量为: