W 帽子一周。让我们回顾一下。如果你还没听说,我们发布了 NLP 模型伪造🙈,再加上 AI 现在可以在混战中打败你,狂怒行动正在进行中。如果你喜欢这份时事通讯,请在 Medium 上关注我们,也别忘了为它鼓掌👏。
为了进一步评论 Fury,对于那些希望在短期内实习的人,我们有一个职位可以在医疗保健领域的 NLP 深度学习项目中工作。如果您对此感兴趣,并且您有深度学习建模的经验(以及强大的软件工程能力),请通过 info [at] quantumstat[dot] com 联系我们。
所以……NLP 模型伪造了 1,400 个 NLP 代码片段的集合,您可以无缝地选择它们来在 Colab 中运行推理!为什么使用模型锻造?!你可以在我们的博客中找到答案👇:
medium.com](https://medium.com/towards-artificial-intelligence/the-nlp-model-forge-a46faac7b5b0)
另外,这里有一个叫 chains 的 Colab。我们使用 Forge 的快速多功能性创建了一个笔记本,展示了如何在一个单一的管道中将模型链接在一起进行推理。
colab.research.google.com](https://colab.research.google.com/drive/1Py7nyJO_sgOYf8Fh-2Dcn1JmxEJyUUor?usp=sharing)
DARPA 的空战进化计划:
人工智能需要速度…
[## 在 DARPA 试验空军杂志中,人工智能轻松击败人类战斗机飞行员
本周照片:泰坦尼克号的秘密
100 多岁。泰坦尼克号上发现的旧美人鱼钱币🚢
句子变形金刚
txtai:人工智能驱动的搜索引擎
微调自定义数据集
使用 SQL 的数据 API 端点
它亮了🔥
广播公司流 API
Fast.ai 新发布
本周数据集:对话
如果你希望以一种无人监督的方式使用来自 SOTA 自然语言处理模型的句子嵌入,你可以查看句子变形库。他们微调了 BERT,RoBERTa,DistilBERT,ALBERT,XLNet 模型的暹罗/三元网络结构,以用于几个任务:语义文本相似性,聚类和语义搜索。
(他们也提供代码来训练你自己的模型😎和多语言模型)
GitHub :
github.com](https://github.com/UKPLab/sentence-transformers)
谈句子嵌入…想用句子转换器 AI 搜索并缩放到百万条记录?答案是用近似最近邻(ANN) 搜索,即在新的 txtai 库中找到的(建立在变形金刚之上,句子变形金刚)。该库目前支持三个 ANN 搜索库:faiss、airy 和 hnswlib。🔥🔥
除了进行相似性搜索之外,txtai 还可以用于搜索结果中的提取问题回答。例子摘自大卫·梅泽蒂的博客文章:
**sections = ["Giants hit 3 HRs to down Dodgers",
"Giants 5 Dodgers 4 final",
"Dodgers drop Game 2 against the Giants, 5-4",
"Blue Jays 2 Red Sox 1 final",
"Red Sox lost to the Blue Jays, 2-1",
"Blue Jays at Red Sox is over. Score: 2-1",
"Phillies win over the Braves, 5-0",
"Phillies 5 Braves 0 final",
"Final: Braves lose to the Phillies in the series opener, 5-0",
"Final score: Flyers 4 Lightning 1",
"Flyers 4 Lightning 1 final",
"Flyers win 4-1"]**
# Add unique id to each section to assist with qa extraction
sections = [(uid, section) for uid, section in enumerate(sections)]
questions = ["What team won the game?", "What was score?"]
execute = lambda query: extractor(sections, [(question, query, question, False) for question in questions])
for query in ["Red Sox - Blue Jays", "Phillies - Braves", "Dodgers - Giants", "Flyers - Lightning"]:
print("----", query, "----")
for answer in execute(query):
print(answer)
print()
# Ad-hoc questions
**question = "What hockey team won?"**
print("----", question, "----")
print(extractor(sections, [(question, question, question, False)]))
GitHub :
github.com](https://github.com/neuml/txtai)
博客:
[## 介绍 txtai,一个基于变形金刚的人工智能搜索引擎
towardsdatascience.com](https://towardsdatascience.com/introducing-txtai-an-ai-powered-search-engine-built-on-transformers-37674be252ec)
拥抱脸有一篇关于如何用 PyTorch 或 TF framework(原生)或他们的训练器类微调你自己的数据集的新文档。现在你可以看到预处理是多么有趣了😁!
这些例子探讨了:
[## 使用自定义数据集进行微调- transformers 3.0.2 文档
huggingface.co](https://huggingface.co/transformers/master/custom_datasets.html)
如果你喜欢 SQL 和数据,5432 端口是开放的… Splitgraph 允许用户通过 PostgreSQL 客户端连接到超过 40K 个数据集。👀
www.splitgraph.com](https://www.splitgraph.com/)
如果您是 Python/PostgreSQL 的狂热爱好者,下面的 pyscopg2 代码可以帮助您入门:
import psycopg2
*# Your Splitgraph DDN username/password*
API_KEY = "API_KEY"
API_SECRET = "API_SECRET"
QUERY = """SELECT candidate_normalized, SUM(votes)::integer AS total_votes
FROM "splitgraph/2016_election:latest".precinct_results
WHERE state_postal = 'CA'
GROUP BY candidate_normalized
ORDER BY total_votes DESC
LIMIT 5
"""
with psycopg2.connect(
dsn=f"postgresql://{API_KEY}:{API_SECRET}@data.splitgraph.com:5432/ddn?application_name=psycopg2"
) as conn:
with conn.cursor() as cur:
cur.execute(QUERY)
result = cur.fetchall()
print(result)
什么样的数据?
探索 27.2K 主题👀
www.splitgraph.com](https://www.splitgraph.com/explore)
解密的
谷歌用 LIT 偷袭了我们。除了数据集可视化之外,该工具包还允许开发人员深入研究语言模型。我倾向于把 LIT 看作是原型开发中类固醇的 ML 演示。自带一个现成的用户界面。
它能做什么?
LIT 支持本地解释(包括显著性地图、注意力和模型预测的丰富可视化)以及聚合分析(包括度量、嵌入空间和灵活切片),并允许用户在它们之间无缝跳转,以测试本地假设并在数据集上验证它们。
[## Google 开源 LIT,一个评估自然语言模型的工具集
venturebeat.com](https://venturebeat.com/2020/08/14/google-open-sources-lit-a-toolset-for-evaluating-natural-language-models/)
GitHub:
github.com](https://github.com/pair-code/lit)
【https://arxiv.org/pdf/2008.05122.pdf】纸 : 纸
随着流数据的 websockets 在工程师的堆栈中变得越来越流行,关注最新的库是必须的。Broadcaster 是一个简单的 websocket 库,可以与 Redis PUB/SUB、Apache Kafka 和 Postgres LISTEN/NOTIFY 等几个后端一起运行。如果您有使用 FastAPI 的经验,这应该对您很熟悉。
GitHub :
github.com](https://github.com/encode/broadcaster)
Fast.ai 的粉丝们,有一个新版本有很多好东西。在他们的博客上阅读所有相关内容。(包括一本方便的书)
[## fast.ai 发布了新的深度学习课程、四个库和 600 页的书
www.fast.ai](https://www.fast.ai/2020/08/21/fastai2-launch/)
本周可乐杯:
colab.research.google.com](https://colab.research.google.com/drive/1IWrhwcJoncCKHm6VXsNwOr9Yukhz3B49?usp=sharing)
什么事?
DialogRE 是第一个基于人类注释的对话的关系抽取数据集,包含 1,788 个来自美国著名电视情景喜剧《老友记》的完整脚本的对话。
样本
在哪里?
[## dialog:第一个基于人工标注对话的关系抽取数据集
dataset.org](https://dataset.org/dialogre/)
每周日,我们都会对来自世界各地研究人员的 NLP 新闻和代码进行一次每周综述。
如果你喜欢这篇文章,请帮助我们并与朋友分享!
如需完整报道,请关注我们的推特:@ Quantum _ Stat