书库技术与未来清华大学第六弹:AIGC 发展研究3.0版
书籍封面

清华大学第六弹:AIGC 发展研究3.0版

作者 沈阳
18.0 分钟

摘要

《AIGC发展研究报告3.0》解读

  • 这份报告深入探讨了AIGC技术在2024年的最新发展,尤其聚焦于DeepSeek之外的世界,并展望了AI技术对社会、经济和文化的深远影响。
  • 你能获得:全面了解AIGC的最新进展、预见AI发展趋势,把握AIGC带来的创新机遇。

核心内容:

1. 经典哲学理论与AI引发的变化:

  • 详细解释:
    • 怀疑论: AI的推理能力挑战了笛卡尔“我思故我在”的观点,促使我们重新审视“思维”与“存在”的关系。
    • 主体间性: AI训练文本的多主体来源使其具备某种“主体间性”,但其真实性值得深思。
    • 他者经验: AI使得获取他者经验成为可能,挑战了胡塞尔认为他者经验无法完全获取的观点。
    • 儒家之信: AI虚假信息的出现使传统儒家“信”的思想重新获得重视。
    • 回归对话: AI对对话的依赖促使我们重新审视理性、知识本质和人际互动方式。
    • 历史唯物: AIGC提高了社会生产力,为实现更高级社会形态提供了技术支持。
    • 技术问询: 技术不仅是工具,更是一种形而上的力量,深刻改变了人类理解世界的方式。
    • 环形监狱: AI的应用使用户既是“监视者”,也是“被监视者”,强化了福柯对权力结构的批判。
  • 行动建议: 深入研究AI背后的哲学思想,从而更全面的理解AI。

2. 天人智一:融通物我,和谐共生

  • 详细解释:
    • 中国古典哲学中的“天人合一”理念强调人与自然的和谐。
    • 人工智能的介入帮助人类提升生产力,并更深入地理解世界与自身。
    • 人工智能同人类灵魂融合为一,进而极大的解放人类生产力,提升工作效率。
    • 最终实现人、机、自然和谐共处。
  • 行动建议: 积极探索AI技术在提升生产力和理解世界方面的应用,同时关注人与AI、自然的和谐共处。

3. 问行合一:主动深思,创新执行

  • 详细解释:
    • “问”代表对未知或复杂问题的深度挖掘与探索,体现了人类对知识与智慧的追求。
    • “行”则代表基于AI分析结果的迅速且精准的行动实施,彰显了人类对于机器智能输出的高效利用与转化。
    • 人类应持续深化提问的质量与深度,充分利用AI的数据挖掘与模式识别能力,探寻数据与知识背后的深层逻辑与规律。
  • 行动建议: 积极运用AI工具进行深度查询,快速将AI的输出转化为实际行动,实现人机协同的最大化效益。

4. 镜像进化论:逆序生成,模拟宇宙

  • 详细解释:
    • 通过AI模拟意识、生命和元宇宙,探讨人类世界与AI“主导”的世界之间的关系。
    • 模拟意识:创建一个能够进行自我反思、决策并具备学习能力的系统。
    • 模拟生命:模拟生命体的复杂性,包括自我复制、进化和适应环境的能力。
    • 模拟元宇宙:模拟宇宙的物理法则、结构和演化历史,宏观层面反映宇宙起源。

5. 内外认知论:认知外赋,决策自持

  • 详细解释:
    • 我们正处于一个重要的临界点,人类认知和AI生成认知相互影响。
    • 认知外包的同时,决策需要内源化。
    • 内化:把AI产生的认知融入到已有的知识体系中。
    • 内联:把已有的知识体系和AI产生的认知相连接,形成关联。
    • 外包:把重复性的工作交给AI去做。
    • 外挂:利用AI获取提示、灵感。
    • 外延:利用AI拓展已有的知识体系。

6. 提示范畴论:任意为根,潜在为机

  • 详细解释:
    • 提示的边界就是想象的边界。
    • AI的输入可以是语言、编程语言等。
    • AI可以问问题、作出改变、产生新创意。

7. AI三用:重构万象,感知超凡

  • 详细解释:
    • 创新与灵感源泉。
    • 心理与情感体验。
    • 教育与训练。

8. 快思慢想:效能兼顾,全局视野

  • 详细解释:
    • 概率预测(快速反应模型,如ChatGPT 4o):响应速度快,算力成本低,基于概率预测进行决策。
    • 链式推理 ( 慢速思考模型,如OpenAI o1):慢速思考,算力成本高,能够自主分析情况,实时做出决策。
    • CoT 链式思维 的出现将大模型分为 了 两类,要根据任务需求选择合适的模型,实现最佳效果。

9. AI自动化L1-L5:渐进提升,全能自理

  • 详细解释:
    • L1 :辅助自动化, AI 简化流程,提供工具支持。
    • L2-L3 : AI 部分自动化,能独立生成内容但需人类设定条件。
    • L4 :高级自动化, AI 独立创作,有一定创新能力。
    • L5 :完全自动化, AI 超越人类水平,具备自我反思与创新能力。
    • 要关注形成可落地的应用节点。

10. 生成边界与思维滞环:僵局显现,破题之道

  • 详细解释:
    • 生成边界指AI模型在理解、创造与创新方面的能力极限。
    • 思维滞环现象表现为 AI 在多轮对话中重复内容、缺乏新意或无法满足用户的新增需求。
    • 解决思路:调整提问方式,优化训练数据和算法,提供外部信息,调整模型参数。

11. 未来学科划分:共生拓展,智启新程

  • 详细解释:
    • 人工智能科学:研究AI的技术创新与发展,涵盖基础理论、应用技术以及未来可能的智能演进。
    • 人机共生科学:研究人类如何 驾驭 人工智能,实现更高效、更和谐的协作,提升人类的生活质量和社会效率,提高 生产效率。

12. 基座升级:快速演进,未来可期

  • 详细解释:
    • 文本生成领域:从判断识别文本向理解生成文字发展。
    • 视频生成领域:从静态图像生成向动态视频创作推进。
    • 逻辑推理领域:从“模仿智能”向“推理智能”演进。

13. 生成机制:语料预学,推理输出

  • 详细解释:
    • 模型通过学习词汇,语法,以及一些语义和上下文关系。
    • 通过预测任务,模型学习了一组参数,这些参数可以捕捉到输入文本的模式。
    • 模型会使用 " 注意力机制 " 技术来决定哪些输入词对生成答案最重要。

14. AI缺陷:臆造之辞,概率幻觉

  • 详细解释:
    • AI幻觉(AI Hallucinations)是指生成式人工智能模型在生成文本或回答问题时,其输出内容可能包含完全虚构、不准确或与事实不符的信息。
    • AI幻觉的产生通常是由于模型在缺乏相关信息的情况下,通过概率性选择生成内容,而非基于真实世界的知识库或逻辑推理。
    • 还有可解释性、计算成本、数据偏见、实时更新、数据安全、个人隐私、恶意输出等潜在的缺点。

15. AI幻觉:五类七特,虚实迷域

  • 详细解释:
    • 数据误用:误用已有数据,回答部分不符或细节错误。
    • 语境误解:对问题的意图理解错误,回答偏离主题。
    • 信息缺失:未能正确获取或整合外部信息。
    • 推理错误:逻辑推理中存在漏洞或错误假设。
    • 无中生有:在无数据支持下,生成完全虚构的信息。

16. OpenAI o1:跨代进化,推理优先

  • 详细解释:
    • 可以帮助分析复杂的市场数据,制定 投资 策略 , 优化 风 险 管理 , 提高 金融 决策 的 准 确 性 。
    • 在 编 程 领 域 表 现 出 色 , 能 够 生 成 高 质 量 代 码 , 优 化 算 法 , 帮 助 开 发 者 提 高 生 产 力 。
    • 在 教 育 领 域 帮 助 学 生 理 解 复 杂 的 数 学 和 科 学 概 念 , 提 供 个 性 化 的 学 习 辅 导 , 提 升 教 育 效 果 。
    • 在 医 学 领 域 的 应 用 提 高 诊 断 准 确 性 , 辅 助 医 生 制 定 个 性 化 治 疗 方 案 , 提 升 整 体 医 疗 服 务 质 量。

17. 语言大模型:群雄逐鹿,齐头并进

  • 详细解释:
    • OpenAI GPT-4o:对话生成、内容创作、代码编程,强大的理解能力和知识库。
    • Apple Apple Intelligence:语言处理、图像识别、隐私保护,本地计算快速,隐私保护好。
    • xAI Grok 2:复杂推理和多模态理解,软件平台集成度高,质量稳定。
    • Meta Llama 3.2:模型微调和快速适配能力,迁移学习能力强,适应性好。
    • Google Gemini 1.5-Pro:多模态数据处理,跨语言生成,跨模态理解能力强。
    • Anthropic Claude 3.5-Sonnet:文本理解、对话、写作、翻译,跨领域应用广,安全可靠。

18. 视频大模型:三足鼎立,潮头涌动

  • 详细解释:
    • Runway 、 可灵 和 Vidu 是在视频大模型中较有竞争力的三个大模型,综合表现较好。
    • OpenAI Sora 、抖音的 PixelDance 、 Meta 的 Movie Gen 也发出预告,但现在模型仍未对个人用户推出。

19. 音乐大模型:众星捧月,“一超多强”

  • 详细解释:
    • Suno 的表现最为优异,在音乐创作的全流程中表现出色。
    • Minimax 、昆仑万维、腾讯、抖音、网易也在开发新功能并完善原有功能。

20. 国产之路:特色效应,着眼“五合”

  • 详细解释:
    • 与领先新兴产业结合。
    • 与传统优势产业结合。
    • 与短视频结合。
    • 与直播带货结合。
    • 与文化创作结合。

21. 图灵测试:潜力尽显,智能超越

  • 详细解释:
    • OpenAI-o1 在文本领域, M idjourney 6 .1 在图像领域, Suno3 .5 在音乐领域, Vidu/ 可灵 /Runway 在视频领 域, FSD12.5 在自动驾驶领域相继事实通过图灵测试,推动了人类社会革新。

22. 心目言三统一:智绘千里,观机明理

  • 详细解释:
    • 在传统艺术中,苏东坡的 “ 心目手俱得之矣 ” 强调了创作过程中心灵(心)、观察(目)、和技 艺(手)的紧密结合。 这种观点体现了艺术创作 是一种全面的人类活动。
    • AI 艺术是 “ 心目言 ” 三统一 , 意味着艺术的自 我观察和理解,体现了 AI 在艺术创作中的主动 性和创造性;同时代表手的部分功能退化, 为 人类艺术创作提供了新的方法 。
    • 体现在 AI 如何将其内在的设计哲学(心)、对数据的理解和感知(目)以及 设计者的艺术理念和审美偏好 (言)融合为一体,创造出独特的艺术作品。

23. 创造力跃迁:零知启动,高识生产

  • 详细解释:
    • 从 “ 零知识启动 ” 到 “ 高知识生产 ” ,再到 “ 新知识创造 ” ,最终到 “ 元知识形成 ” 的完整过程。
    • 零知识启动的普遍性:借助 A I 提供的 信息检索、学习推 荐和初步创意生成 功能,任何人都可 以从 “ 零知识 ” 的 起点开始,轻松启 动创造过程。
    • 高知识生产的效率与规模: AI 高效的 知识生产方式不仅 提高了生产速度, 还确保了知识的准 确性和可靠性,为 新知识的创造 奠定 了坚实基础。
    • 新知识创造的激发与涌现:人类与 A I 的协同工作激发了 新的创意灵感和思 维火花,通过跨界 融合、技术革新和 模式创新等方式, 不断推动知识边界 的拓展和深化。
    • 元知识的提炼与引领:人类可以 借此 更有效地指导 A I 的 创造活动;元知识 也成为连接不同领 域和学科的桥梁, 促进了知识 的交叉 融合和协同创新。

24. 三重概率:多层互动,逐层精炼

  • 详细解释:
    • 通过 初始生成 、 交互筛选 和 主观优化 三个层次,构建了一个动态循环的创作流程,以提升内容生成的 效率和质量,满足市场的多样化需求。
    • 初始生成概率:AI 通过大模型的概率预测与推理生成初步 内容。
    • 交互筛选概率:用户与 AI 互动,通过对话和选择筛选出更 优作品。
    • 主观优化概率:用户基于自身能力和创意对生成内容进行 个性化优化。

25. 三型创作:复合智能,共创平衡

  • 详细解释:
    • 确定 型创作:强调逻辑和可控性,相同输入 得一致结果,确保作品符合预期。应用于设计、工程等 领域,具有稳定、精确和高效的优点。
    • 非确定 型创作:强 调 灵 感 和 不 可 预 测 性 , 相 同 输 入 得 不 同 结 果, 体 现 随 机 性 。 常 用 于 抽 象 艺 术 、 实 验 音 乐 等 , 激 发 灵 感 , 打 破 传 统 束 缚 。
    • 融合 型 创作:结合 确定 性 和 非 确 定 性 , 兼 具 规 则 与 随 机 。 利 用 确 定 性 框 架 , 引 入 非 确 定 性 元 素 , 作 品 核 心 一 致 且 多 样。

26. 三元分离:算法创作,情感隔 离

  • 详细解释:
    • 创作过程的分离:AI创作基于数据和算法计算,人类创作源于情感体验、文化背景和 创造性思维。
    • 情感表达的分离:AI 可模拟情感但非发自内心,人类的情感表达是真实的情感反映。
    • 受众感知的分离:受众关注作品传递的情感和信息,不一定在意创作者是否真正拥有 情感。

27. AIGC 海报:精准控制,元素构成

  • 详细解释:
    • 对大楼每一层展示内容的精准控制, 包括农业食品、医疗设备、技术装 备等,摆脱了 AIGC 内容不可控的问 题,实现了对内容需求的精准表达。

28. AIGC修复:英雄不朽,见证温暖

  • 详细解释:
    • 综合使用 AI 技术,协助新华社在关于中 国维和英雄杨树朋烈士的报道中,制作 了一幅感动人心的 “ 照片 ” :杨树朋烈 士与他的家人,共同出现在一张温馨的 全家福中。

29. AI 自动化工作流:模型驱动,高效执行

  • 详细解释:
    • 通 过 R P A 自 动 化 管 理 内 容 生 成 的 各 个 环 节 , 包 括 数 据 收 集 、 处 理 和 内 容 发 布 , A I G C 负 责 生 成 具 体 内 容 。 这 使 得 整 个 流 程 高 效 、 连 贯 , 并 减 少 了 人 为 干 预 的 需 求 , 确 保 内 容 及 时 更 新 和 发 布 。
    • 动态 调 整 RPA 实 时 收 集 用 户 互 动 数 据 , A I G C 根 据 这 些 数 据 动 态 调 整 生 成 内 容 , 提 高 内 容 的 相 关 性 和 用 户 满 意 度 。

30. AI 音乐四性:智能创作,情感共鸣

  • 详细解释:
    • 自由规则性。
    • 模仿创新性。
    • 情感计算性。
    • 知识创意性。

31. AIGC与文言文:惊艳文采,情感注能

  • 详细解释:
    • 天下有情者,心有高山,而至高者,乃父爱也。壁垒重重,众人可退;为父之人,焉能退? 明灯独守,四顾昏暗,父之灯火,燃千秋光,照子归路。 为子则柔,柔而不弱;为父必威,威而不苛。若无此威,则无问可答;若无此柔,则无爱可承。父虽平凡,护子若龙;父目如炬,虎视群狼。不使子女为羸弱之粮,父心无私,披荆斩棘。劳苦化福,恩若天地,庇护万难。 肩无论宽窄,必挡万里狂风;眼无论远近,必照一家光明。向天求变,需忍岁久,父如巍山,任风霜蚀,静候星归。一片丹心映晚霞,几度春秋度白发。飞舟越海,父心辽远;丹月映江,父爱深长。人间四月芳菲尽,父心忧愁未曾止。期子凌云,故推舟离岸;背影依依,但愿子早归。 父者,忍苦修行而无解脱,历万劫而不为仙。披星戴月无怨悔,罕见清闲而珍视。风摇楼阁,水泛舟船,父爱如山,永世不移。纵使功名满天下,不及父颜展笑颜。

问答

Q: AIGC主要有哪些应用场景?

A: AIGC的应用场景非常广泛,包括但不限于:内容创作、设计、医疗、教育、金融等。可以帮助人们在各个领域提高效率、降低成本、实现创新。

Q: 如何应对AIGC带来的伦理挑战?

A: 应对AIGC的伦理挑战需要从多个方面入手,包括:制定明确的法律法规、加强技术监管、提高用户的信息素养、促进伦理思考等。

Q: AIGC的未来发展趋势是什么?

A: AIGC的未来发展趋势包括:模型性能的持续提升、应用场景的不断拓展、与其他技术的深度融合、伦理和安全问题的日益重视等。

思维导图

目标读者

本报告的目标读者包括AIGC领域的研究人员、技术开发者、行业分析师、投资机构以及对AIGC技术感兴趣的社会公众。此外,本报告也适用于政府部门和相关机构,为其制定AIGC相关政策提供参考。

作者背景

沈阳是清华大学新闻学院/人工智能学院教授、博导,清华大学新闻学院元宇宙文化实验室主任,清华大学新闻学院新媒体研究中心主任。从事多个教学科研领域,包括新闻传播学、计算机科学、信息管理学、医学。领导学术研究团队近40人,指导AI元宇宙和机器人两个产业团队。团队已有众多大模型产业化和AIGC实施案例。

历史背景

AIGC(人工智能生成内容)技术正处于快速发展阶段,其应用范围不断扩大,对社会、经济和文化领域产生深远影响。本报告正是在这一背景下,对AIGC技术的发展现状、未来趋势以及潜在影响进行深入研究和分析,旨在为相关领域的研究者、从业者和政策制定者提供参考。

章节摘要

音频

Comming Soon...