圣乌苏拉之梦|卡帕乔
欢迎回来,你成功了!现在,让我们从埃隆·马斯克即兴创作的《客户服务时刻》开始,踏上 2021 年的正确道路:
解密的
如果你还没有看过我们的迷你年回顾,我们上周在大家都在度假的时候发布了它😬。通常,如果你喜欢阅读,请给我们的文章一个👏👏并分享给你的朋友和敌人!
现在,我们来玩个游戏。假设我们有 2020 年全年的 7129 篇 NLP 论文摘要。现在我们经营 BERTopic👇在这些摘要之上进行一些主题建模,以找到讨论最频繁的主题。
github.com](https://github.com/MaartenGr/BERTopic)
- 与言语相关的
- 伯特相关的
- 与对话相关的
- 嵌入相关
- 图形相关
有关主题的更多详细信息👇
Pile dataset,一个 800GB 的用于语言建模的巨型英语文本。👀
该堆由 22 个大而多样的数据集组成:
数据集的多样性使其在保存跨领域知识方面独一无二且功能强大。
因此,为了在堆 BTB(每字节位数)基准测试中取得好成绩,模型应该
…“能够理解许多不同的领域,包括书籍、github 库、网页、聊天记录以及医学、物理、数学、计算机科学和哲学论文。”
数据集在 z 标准压缩中被格式化为 jsonlines。您还可以在眼睛上查看更多数据集👁这里:
[## 那堆东西
pile.eleuther.ai](https://pile.eleuther.ai/)
[## /public/AI/pile _ preliminary _ components/的索引
the-eye.eu](https://the-eye.eu/public/AI/pile_preliminary_components/)
企业正在适应监听文件和其他财务相关披露的 NLP 模型。根据一项新的研究,公司正在明智地选择他们的措辞,以愚弄机器,从而减少他们声明中的负面情绪。
纸张:
[## 当机器在听时如何说话:人工智能时代的公司信息披露
www.nber.org](https://www.nber.org/papers/w27950)
本周,机器学习领域的一些知名作者出版了几本 ML 书籍。第一个是 Jurafsky 和 Martin 的《语音和语言处理》一书的新章节/更新:
亮点:
-第 8 章的新版本(将 POS 和 NER 放在一章中),
-第 9 章的新版本(带变压器)
——第十一章(MT)
神经跨度分析和 CCG 分析移至第 13 章(选区分析),统计选区分析移至附录 C
第 23 章的新版本(质量保证现代化)
第 26 章(ASR + TTS)
web.stanford.edu](https://web.stanford.edu/~jurafsky/slp3/)
墨菲的概率机器学习草案也在本周流传开来。而且还附带了代码!享受吧。
https://probml.github.io/pml-book/book1.html
代号:
github.com](https://github.com/probml/pyprobml)
有一种新的方式来探索互联网档案中的精彩内容。
datahorde.org](https://datahorde.org/?p=1899)
有人建造了👇作为屏蔽广告的一种方式🤣。
“制造了一个人工智能来跟踪和分析每个网站,有点像网络爬虫,以发现和识别广告。这是一个包含超过 1,300,000 个被广告、追踪器、矿工和恶意软件使用的域名的列表。”
gitlab.com](https://gitlab.com/The_Quantum_Alpha/the-quantum-ad-list)
微软发布了他们的文档理解语言模型 LayoutLM 的第二版。如果你对 SOTA w/r/t 文档 AI 任务感兴趣。跟着这个回购!
github.com](https://github.com/microsoft/unilm/tree/master/layoutlm)
一个大规模数据集 WikiTableT,它将维基百科的各个部分与其对应的表格数据和各种元数据配对。
github.com](https://github.com/mingdachen/WikiTableT)
Shortformer 模型显示,通过缩短输入,性能得以提高,同时速度和内存效率也得以提高。它使用了两种新技术:分阶段训练和注入位置的注意力/缓存。
github.com](https://github.com/ofirpress/shortformer)
一种提取摘要技术,通过使用多任务学习方法观察长文档的层次结构。
github.com](https://github.com/Georgetown-IR-Lab/ExtendedSumm)
NeurST 旨在建立和训练端到端的语音翻译。
来自字节跳动的抖音人:
github.com](https://github.com/bytedance/neurst)
跨域表格语义解析(X-TSP)中使用的模型。这是在给定一个自然语言问题的情况下,预测可执行的结构化查询语言的任务。
[## sales force/tablarsemantipparsing
github.com](https://github.com/salesforce/TabularSemanticParsing)
AraBERT 现在有 4 个新版本来取代旧的 v1 版本。
github.com](https://github.com/aub-mind/araBERT)
给定一个自然语言问题及其答案,模型以文本片段的形式检索相关的事实证据。
[## rubencart/LIIR-TextGraphs-14
github.com](https://github.com/rubencart/LIIR-TextGraphs-14)
包含矛盾对话的会话数据集,用于研究 NLU 模型如何捕捉对话中的一致性。它包含来自脸书 ParlAI 框架的 4 个子集的 27,184 个实例。
[## 矛盾
parl.ai](https://parl.ai/projects/contradiction/)
每周日,我们都会对来自世界各地研究人员的 NLP 新闻和代码进行一次每周综述。
如需完整报道,请关注我们的 Twitter: @Quantum_Stat