易卜拉欣·贾巴尔-贝克
☝波斯艺术是美丽的。欢迎回来参加下一周的赛弗。昨天,我们对大坏 NLP 数据库和超级骗子 NLP 回购进行了另一次每周更新。我们增加了 10 个数据集和 6 个新笔记本。这次更新很好,因为我们为图形神经网络增加了 PyTorch 几何笔记本,以防你们都觉得有点冒险。🙈
顺便说一句,如果你喜欢这份简讯,请分享或给它一个👏👏!
绕道:我一直在 BERT 问答上做 onnx 运行时推理的实验。目前在“okish”云 CPU 上运行的 ONNX 显著改善了延迟,延迟范围在 170-240 毫秒之间。这是演示:
onnx.quantumstat.com](https://onnx.quantumstat.com/)
仅供参考,几篇 EMNLP 认可的论文本周在 11 月的会议上传阅。在我们开始之前,这里有一份开胃菜,来自论文“超关系知识图的消息传递”,它比较了传统知识三元组和超关系图。
大肆宣传
解密的
从 Petar veli kovi(deep mind)发现了这个突出顶级图形神经网络资源的线程,请欣赏:
线程应用程序](https://threader.app/thread/1306689702020382720)
[## /概述
wordplay-workshop.github.io](https://wordplay-workshop.github.io/)
对话分级预训练变压器
TensorFlow Lite 和 NLP
印度尼西亚 NLU 基准
药典
语音预处理的记录
对“X-Formers”的调查
本周数据集:资产
另一个在 EMNLP 接受的来自微软研究的问题是:使用变形金刚(GPT-2)来计算对评论的回复是否更有可能获得参与。很有趣吧!他们的对话排名模型是根据来自 Reddit 的 1.33 亿对人类反馈数据进行训练的。
那么它到底是做什么的呢?这是他们演示中的一个例子:对于陈述“我爱 NLP!”*,*如果你回答“这有一本免费的教科书(网址),以防有人需要。”这比回答“我也是”更有可能被投票支持。(意味着前者将具有更高的排名分数)
此外,他们的 colab 允许您同时运行多个模型,以区分:
updown
...哪个得票多?
width
...哪个得到的回复更直接?
depth
...哪个后续线程更长?
感谢作者高祥的转发,你也可以在✌…超级骗子回购上找到
colab.research.google.com](https://colab.research.google.com/drive/1jQXzTYsgdZIQjJKrX4g3CP0_PGCeVU3C?usp=sharing)
GitHub:
github.com](https://github.com/golsun/DialogRPT)
论文:https://arxiv.org/pdf/2009.06978.pdf
来自他们上周的博客文章:TF Lite 中现在有关于 NLP 模型的新功能:他们有新的预训练的 NLP 模型,并更好地支持将 TensorFlow NLP 模型转换为 TensorFlow Lite 格式。
www.tensorflow.org](https://www.tensorflow.org/lite/guide/model_maker)
仅供参考,他们的 TF Lite 任务库有 3 个 API 用于:
- NLClassifier :将输入文本分类到一组已知的类别中。
- BertNLClassifier :对针对 BERT 系列模型优化的文本进行分类。
- BERT question answer:用 BERT-family 模型回答基于给定段落内容的问题。
请记住,这些是在手机上运行的模型(也就是不需要互联网连接到云服务器)。
[## 面向 NLP 的 TensorFlow Lite 的新增功能
blog.tensorflow.org](https://blog.tensorflow.org/2020/09/whats-new-in-tensorflow-lite-for-nlp.html)
查看新的印度尼西亚 NLU 基准。它们包括基于 BERT 的模型 IndoBERT 和它的 ALBERT 替代品 IndoBERT-lite。此外,该基准还包括关于单句分类、单句序列标记、句对分类和句对序列标记的 12 个下游任务的数据集。
最后,用于语言建模的大型语料库包含 40 亿个单词(2.5 亿个句子)🔥🔥。
www.indobenchmark.com](https://www.indobenchmark.com/)
论文:
更多来自 EMNLP😎:
“CoDEx 提供了三个丰富的知识图数据集,其中包含肯定和否定三元组、实体类型、实体和关系描述以及实体的维基百科页面摘录。”
此外,它们还提供了在 LibKGE 库上使用的预训练模型,用于链接预测和三重分类任务。
总的数据转储大约有 1,156,222 个三元组。
GitHub :
github.com](https://github.com/tsafavi/codex)
RECOApy 是一个新的库,它为 devs 提供了一个 UI,除了字形到音素的转换之外,它还可以帮助记录和按语音转录语音应用程序的数据。目前,该库支持 8 种语言的转录:捷克语,英语,法语,德语,意大利语,波兰语,罗马尼亚语和西班牙语。
GitHub :
github.com](https://github.com/adrianastan/recoapy)
被谷歌作者称为“X-Formers”(例如,Longformer 和 Reformer)的新模型架构是 2020 年出现的新的非常高效的内存转换器。在本文中,作者描述了这种体系结构、技术和当前趋势的整体观点。
【https://arxiv.org/pdf/2009.06732.pdf】纸 : 纸
自动句子简化模型的调整和评估数据集。ASSET 由与 TurkCorpus 的 2359 个原始句子相关联的 23590 个人类简化组成。
github.com](https://github.com/facebookresearch/asset)
每周日,我们都会对来自世界各地研究人员的 NLP 新闻和代码进行一次每周综述。
如果您喜欢这篇文章,请帮助我们并与朋友分享!
如需完整报道,请关注我们的 Twitter:@ Quantum _ Stat