书库技术与未来Data Formulator: AI-powered Concept-driven Visualization Authoring
书籍封面

Data Formulator: AI-powered Concept-driven Visualization Authoring

作者 Chenglong Wang, John Thompson, and Bongshin Lee
15.0 分钟

摘要

Data Formulator: AI驱动的概念驱动可视化创作

  • 这是一个关于使用AI技术简化数据可视化创建过程的工具。Data Formulator通过分离可视化意图和数据转换步骤,让用户可以用自然语言或示例定义数据概念,然后由AI自动完成数据转换,生成所需的可视化效果。
  • 你能获得:了解如何利用AI简化复杂的数据可视化流程,掌握一种全新的数据处理方式,提升数据分析和表达的效率。

核心内容:

1. 概念绑定范式:

  • Data Formulator引入了一种新的可视化范式,称为概念绑定。
  • 它将高级的可视化意图("要可视化什么")与低级的数据转换步骤("如何格式化数据以进行可视化")分离开来。
  • 通过自动化数据转换步骤,减轻了用户在数据准备方面的负担。

2. 两种关键的数据转换类型:

  • 重塑(Reshaping):当要可视化的变量分散在多个列中,或者一个列包含多个变量时使用。
  • 派生(Derivation):当需要从一个或多个现有列中提取或派生变量时使用。
    • 例如,计算两城市之间的每日温度差或7日移动平均值。

3. Data Formulator的工作流程:

  • 用户首先加载数据表,现有数据列会作为已知数据概念显示在概念面板中。
  • 如果缺少所需的数据概念,用户可以使用自然语言提示(用于派生)或提供示例(用于重塑)来创建新概念。
  • Data Formulator会根据用户的输入推断必要的数据转换,并创建候选可视化效果。
  • 用户可以检查、消除歧义并优化建议的可视化效果。

4. Data Formulator的设计原则:

  • 将设计概念视为一等公民:数据概念是表列的泛化,可以更轻松地描述和理解概念级别的转换。
  • 利用多种交互方式的优势:Data Formulator同时采用自然语言交互(用于派生概念)和编程示例方法(用于构建自定义概念)。
  • 确保正确的数据转换并提高信任度:Data Formulator会显示多个候选方案供用户查看,并提供代码和示例输出来帮助理解转换。
  • 提高系统的表达能力:Data Formulator的表达能力由转换函数和可视化语言的组合定义,支持重塑选项和列式派生及分析计算。

5. 创建新数据概念的方法:

  • 派生概念:通过与AI代理交互,使用自然语言从一个或多个数据概念中派生新概念。
  • 构建自定义概念:通过提供名称和一组属于其域的示例值来构建自定义概念,用于支持数据重塑。

6. 指定和公式化可视化:

  • Chart Builder采用shelf-configuration界面:用户将数据概念拖放到所选可视化的视觉通道,以指定视觉编码。
  • Data Formulator会生成Vega-Lite规范以呈现可视化效果。
  • 如果所有字段都可用,Data Formulator会将Vega-Lite规范与输入数据结合以呈现可视化效果。
  • 否则,Data Formulator会与用户交互并调用程序合成引擎来创建转换后的表。

7. 用户研究结果:

  • 参与者在完成涉及高级数据转换的不同类型图表时,能够有效地使用Data Formulator。
  • 用户对Data Formulator在图表创作方面的体验普遍持积极态度。
  • 自然语言提示在生成数据转换方面表现良好,AI是完成研究任务的有用工具。

8. Data Formulator的优势:

  • 降低数据转换的负担:用户无需手动转换数据,而是指定要可视化的数据概念。
  • 简化可视化流程:Data Formulator的交互模型围绕数据概念展开,无需直接处理表级别的运算符。
  • 提高效率和准确性:AI代理可以自动推断必要的数据转换,并提供反馈以帮助用户检查和优化结果。

问答

Q: Data Formulator如何帮助用户简化数据可视化流程?

A: Data Formulator通过分离可视化意图和数据转换步骤,让用户可以用自然语言或示例定义数据概念,然后由AI自动完成数据转换,生成所需的可视化效果,从而简化了数据可视化流程。

Q: Data Formulator支持哪些类型的数据转换?

A: Data Formulator支持两种关键的数据转换类型:重塑(Reshaping)和派生(Derivation)。重塑用于处理要可视化的变量分散在多个列中或一个列包含多个变量的情况;派生用于从一个或多个现有列中提取或派生变量。

Q: Data Formulator的设计原则是什么?

A: Data Formulator的设计原则包括:将设计概念视为一等公民、利用多种交互方式的优势、确保正确的数据转换并提高信任度,以及提高系统的表达能力。

思维导图

目标读者

数据科学家、数据分析师、可视化工程师以及对数据可视化感兴趣的研究人员和学生。特别是那些希望通过更直观的方式进行数据转换和可视化创作的用户。

作者背景

Chenglong Wang, John Thompson, 和 Bongshin Lee 均就职于微软研究院。他们致力于通过人工智能驱动的可视化工具,降低数据处理的门槛,使更多用户能够轻松创建和理解数据可视化。

历史背景

在现代可视化工具中,用户通常需要将数据转换为整洁的格式才能创建所需的可视化效果。这需要编程经验或使用专门的数据处理工具,使得数据转换成为可视化创作的障碍。Data Formulator 的出现旨在解决这一挑战,通过人工智能技术简化数据转换过程,让用户更专注于可视化意图的表达。

章节摘要

音频

Comming Soon...