Wikidata：一个开放的、免费的包含超过120亿个事实数据知识库维基百科发布了一个庞大的知识库数据Wikidata，拥有超过120亿个事实数据。利用Wikidata可以增强LLMs的事实性，确保它们提供的信息是基于真实和可验证的数据。Wikidata提供结构化的数据，使得信息检索和数据分析更加高效。支持多种语言…

发布时间: 2023-11-18 13:00:45

1分

数据加载中

Wikidata：一个开放的、免费的包含超过120亿个事实数据知识库
维基百科发布了一个庞大的知识库数据Wikidata，拥有超过120亿个事实数据。利用Wikidata可以增强LLMs的事实性，确保它们提供的信息是基于真实和可验证的数据。
Wikidata提供结构化的数据，使得信息检索和数据分析更加高效。支持多种语言…
IT技术
( twitter.com )

Wikidata：一个开放的、免费的包含超过120亿个事实数据知识库

维基百科发布了一个庞大的知识库数据Wikidata，拥有超过120亿个事实数据。利用Wikidata可以增强LLMs的事实性，确保它们提供的信息是基于真实和可验证的数据。

Wikidata提供结构化的数据，使得信息检索和数据分析更加高效。支持多种语言

# Wikidata的能力：

1. **庞大的知识库**：Wikidata是一个开放的、免费的知识库，包含超过120亿个事实，涵盖广泛的主题和领域。

2. **结构化数据**：与维基百科的自由文本不同，Wikidata 提供的是结构化数据，这使得自动化处理和查询更加方便。

3. **多语言支持**：支持多种语言，使得全球用户都能访问和贡献数据。

4. **实体和属性的丰富性**：包含数百万个实体（如人物、地点、事物）和属性，为各种查询和分析提供丰富的信息源。

5. **实时更新**：由全球社区维护，确保数据的时效性和准确性。

6. **链接其他数据库**：Wikidata 中的数据项通常与维基百科条目相链接，提供了更丰富的背景信息和详细内容。

Wikidata包含一个WikiWebQuestions的高质量问答基准数据集。这是一个基于Wikidata的、带有SPARQL注释的数据集。这个数据集是从Freebase的WebQuestions迁移过来的，更新了SPARQL查询和最新的答案，以适应更大的Wikidata。

# WikiWebQuestions 重点内容：

1. **数据集来源**：基于Freebase的WebQuestions数据集迁移而来，更新了SPARQL查询和答案，以适应Wikidata。

2. **数据集目的**：提供一个高质量的问答基准，用于测试和比较大型语言模型（LLMs）在处理基于Wikidata的问答任务的性能。

3. **数据集特点**：包含真实世界的数据和SPARQL注释，有助于提高问答系统的准确性和可靠性。

4. **适应性**：由于Freebase已关闭，迁移到Wikidata使得数据集更加现代化和实用。

# 应用场景：

1. **提高问答系统性能**：Wikidata可以作为一个强大的知识源，用于提高问答系统的准确性和可靠性。

2. **自然语言处理研究**：WikiWebQuestions数据集可以用于自然语言处理（NLP）的研究，特别是在语义解析和知识库问答（KBQA）领域。

3. **AI和机器学习模型训练**：Wikidata提供的丰富数据可以用于训练和改进各种AI和机器学习模型。

4. **数据分析和知识发现**：Wikidata的结构化数据可以用于各种数据分析和知识发现任务，如趋势分析、关联发现等。

5. **多语言内容生成**：Wikidata的多语言支持使其成为生成多语言内容的理想资源，如多语言维基百科条目。

6. **教育和研究**：学者和学生可以使用Wikidata和WikiWebQuestions进行教育和研究项目，探索各种主题和问题。

# WikiSP 语义解析器：

为了解决LLMs的局限性，他们还开发了一个名为WikiSP的少量样本训练的序列到序列（Seq2Seq）语义解析器。一种专门设计用于处理基于 Wikidata 的问答任务的工具。

主要功能目的：

1、提高问答系统的准确性：通过更好地理解和解析自然语言查询，WikiSP 旨在减少大型语言模型（如GPT-3）在回答问题时产生的错误或虚假信息（即“幻觉”）。

2、利用Wikidata的丰富数据：WikiSP 利用 Wikidata 这个庞大的知识库来提供基于事实的、准确的答案。

3、序列到序列的语义解析：WikiSP 将用户的自然语言查询转换为 SPARQL 查询。SPARQL 是一种用于查询数据库（特别是 RDF 数据库）的语言，这里用于查询 Wikidata。

4、处理大量实体和属性：由于 Wikidata 包含超过100M+的实体和数十万的属性，WikiSP 被设计为能够有效处理这些实体和属性，即使在实体链接中存在错误。

5、少量样本训练：WikiSP 通过少量样本训练来提高其性能，这意味着它可以在只有少量标注数据的情况下进行有效学习。

# 实验结果和贡献：

答案准确率：在WikiWebQuestions开发集和测试集上，WikiSP分别实现了76%和65%的答案准确率。

性能比较：与现有的QALD-7 Wikidata数据集相比，该方法的F1分数提高了3.6%。

GitHub：https://t.co/RHF4rG8x78
论文：https://t.co/5SrCIOCoRP