《人工智能:模型与算法——浙江大学公开课》笔记

课程笔记来源：2020公开课【人工智能：模型与算法】-浙江大学

P11.1可计算思想起源与发展

智能：从感知、到理解、到认知、到决策与行动

计算的诞生：从可计算到不可计算->20世纪初，人们发现有许多问题无法找到解决的方法。于是开始怀疑，是否对这些问题来说，根本就不存在算法，即不可计算。

人工智能：以机器为载体的人类智能或生物智能

算术公理的相容性：

完备性：所有能够从该形式化系统推导出来的命题，都可以从这个形式化系统推导出来。
一致性：一个命题不可能同时为真或为假
可判定性：算法在有限步内判定命题的真伪

哥德尔不完全性定理：任何表达力足够强的（递归可枚举）形式系统都不可能同时具有一致性和完备性

图灵测试：指测试者与被测试者（一个人和一台机器）隔开的情况下，通过一些装置（如键盘）向被测试者随意提问。进行多次测试后，如果机器让平均每个参与者做出超过30%的误判，那么这台机器就通过了测试，并被认为具有人类智能。

摩尔定律：（计算机速度1年半增长1倍），亿级晶体管、千亿指令/秒

P21.2人工智能的发展简史

人工智能发展中的主流方法（1）：符号主义人工智能（SymbolicAl）为核心的逻辑推理

人工智能发展中的主流方法（2）：数据驱动（data-driven）为核心的机器学习

人工智能发展中的主流方法（3）：在“探索（未知空间）与利用（已有经验）（exploration vs.exploitation）”之间取得平衡为核心的强化学习

P31.3人工智能研究的基本内容

人工智能特点：至小有内、至大无外，多学科交叉内禀

人工智能课程

从模拟人类智能角度而言，人工智能应具备如下能力：

具备视觉感知和语言交流的能力。即能够识别和理解外界信息（计算机视觉研究范畴）、能够与人通过语言交流（自然语言理解研究范畴）。
具备推理与问题求解能力。即基于已有知识，对所见事物和现象进行演绎推理以解决问题。
具备协同控制能力。即将视觉（看）、语言（说）、推理（悟）等能力统一协调，加以控制，这是常见的机器人研究领域内容。
具备遵守伦理道德能力。即模拟人类智能的智能体在社会环境中要遵从一定的伦理道德。阿西莫夫在科幻小说中按照优先级定义了机器人需要遵从的三条伦理原则：不得伤人，或弃人于危难；需服从人；在不违反上述两条原则情况下，保护机器人自己。
具备从数据中进行归纳总结的能力。即需要从数据中进行知识、规律和模式学习的模型和方法，这是机器学习研究范畴。

授课基本内容：

人工智能概述

1.1可计算思想起源与发展
1-2人工智能的发展简史
1.3人工智能研究的基本内容

搜索求解

2.1启发式搜索
2.2对抗搜索（Minimax及Alpha-Beta剪枝搜索）
2.3蒙特卡洛树搜索

逻辑与推理

3.1命题逻辑
3.2谓词逻辑
3.3兴国格推理
3.4因果推理

统计机器学习|监督学习

4.1机器学习基本概念
4.2线性回归与分类
4.3Ada Boosting
4.4线性区别分析

统计机器学习|非监督学习

5.1K-means
5.2主成分分析
5.3特征人脸方法
5.4期望极大算法（EM）

深度学习(监督学习+端到端)

6.1前馈神经网络（误差后向传播）
6.2卷积神经网络
6.3自然语言理解与视觉分析

强化学习

7.1马尔科夫决策过程
7.2强化学习中策略优化与策略评估
7.3Q-Learning
7.4深度强化学习

人工智能博弈

8.1博弈相关概念（纳什均衡）
8.2遗憾最小化算法
8.3虚拟遗憾最小化算法

搜索求解

P52.2对抗搜索

在游戏里搜索一种解决方案，但在搜索过程中对手会阻止我们，这种情况下我们能获得最大收益的搜索方式。本文中主要讲解Minmax搜索+alpha-beta剪枝搜索

对抗搜索（Adversarial Search）也称为博弈搜索（Game Search），在一个竞争的环境中，智能体（agents）之间通过竞争实现相反的利益，一方最大化这个利益，另外一方最小化这个利益。

本课程目前主要讨论在确定的、全局可观察的、竞争对手轮流行动、零和游戏（zero-sum）下的对抗搜索

零和博弈是博弈论的一个概念，属非合作博弈。指参与博弈的各方，在严格竞争下，一方的收益必然意味着另一方的损失，博弈各方的收益和损失相加总和永远为“零”，双方不存在合作的可能。

与“零和”对应，“双赢博弈”的基本理论就是“利己”不“损人”，通过谈判、合作达到皆大欢喜的结果。

对抗搜索内容

最大最小搜索

给定一个游戏搜索树，minimax算法通过每个节点的minimax值来决定最优策略。当然，MAX节点希望最大化minimax值，而MIN节点则相反，希望最小化minimax值—>让自己的收益最大，让对方的收益or己方的损失最小

minmax

优点：

算法是一种简单有效的对抗搜索手段
在对手也“尽力而为”前提下，算法可返回最优结果

缺点：

如果搜索树极大，则无法在有效时间内返回结果

改善：

使用alpha-beta pruning算法来减少搜索节点
对节点进行采样、而非逐一搜索（ie.，MCTS）

alpha-beta剪枝搜索

一种对最小最大搜索进行改进的算法，即在搜索过程中可剪除无需搜索的分支节点，且不影响搜索结果。.

abpruncing

P62.3蒙特卡洛树搜索

alphaGo三大法宝：深度学习、强化学习、MCTS

通过采样而非穷举方法来实现搜索，从而跟上述两种搜索有本质上的区别。

多臂赌博机问题是一种序列决策问题，这种问题需要在利用（exploitation）和探索（exploration）之间保持平衡。

利用（exploitation）：保证在过去决策中得到最佳回报

探索（exploration）：寄希望在未来能够得到更大回报

exploitation component(利用)

第一部分是，也称作exploitation component。 Q(Vi)为子节点获胜次数，N(Vi)为子节点参与模拟的次数

可以看做是子节点Vi的胜率估计（总收益/总次数=平均每次的收益）。但是不能只选择胜率高的下一步，因为这种贪婪方式的搜索会很快导致游戏结束，这往往会导致搜索不充分，错过最优解。

举个简单的例子。现在假设MCTS的UCT函数只用了探索成分，从根节点开始，我们对所有子节点进行了一次模拟，然后在下一步中只访问至少赢了一次的子节点。那么在第一次模拟中那些不幸未被选中的节点（实际中rollout策略函数通常是随机的）将会被立刻抛弃

exploration component(探索)

c* \sqrt{\frac{\log(N(v))}{N(v_{i})} }$$，这个成分更倾向于那些想对较少被探索的节点N(Vi)小。 参数c是exploitation和exploration之间的折中系数。 ##### MCTS的终止 终止条件(or)： - 达到一定的迭代次数 - 达到规定的搜索时间 当MSCT程序结束时，最佳的移动通常是访问次数最多的那个节点，也是UCT最大的点。 将上限置信区间算法UCB应用于游戏树的搜索方法，由Kocsis和Szepesvari在2006年提出包括了四个步骤：**选举（selection）**，**扩展（expansion）**，**模拟（simulation）**，**反向传播（Back-Propagation）** **选择** <img src="./《人工智能-模型与算法——浙江大学公开课》笔记\MCTS1.jpg" alt="MCTS1" style="zoom:67%;" /> **拓展** <img src="./《人工智能-模型与算法——浙江大学公开课》笔记\MCTS2.jpg" alt="MCTS2" style="zoom:67%;" /> **模拟、反向传播** <img src="./《人工智能-模型与算法——浙江大学公开课》笔记\MCTS3.jpg" alt="MCTS3" style="zoom:67%;" /> ##### MCTS学习策略： <img src="./《人工智能-模型与算法——浙江大学公开课》笔记\MCTS学习策略.jpg" alt="MCTS学习策略" style="zoom:67%;" /> ##### MCTS算法执行 <img src="./《人工智能-模型与算法——浙江大学公开课》笔记\processure.png" alt="processure" style="zoom:67%;" /> <img src="./《人工智能-模型与算法——浙江大学公开课》笔记\MCTS算法执行.jpg" alt="MCTS算法执行" style="zoom:67%;" /> # [P125.1机器学习基本概念](https://www.bilibili.com/video/BV1c7411n7EY?p=12) <img src="./《人工智能-模型与算法——浙江大学公开课》笔记/监督学习.jpg" alt="监督学习" style="zoom:67%;" /> **机器学习的目的：** 1.原始数据中提取特征 2.学习映射函数f 3.通过映射函数f将<u>原始数据映射到语义空间</u>，即寻找<u>数据和任务目标</u>之间的关系 ## 监督学习 ### 监督学习的两种方法： - 判别模型 - 判别方法直接学习判别函数f（X）或者条件概率分布P（YIX）作为预测的模型，即判别模型。 - 判别模型关心在给定输入数据下，预测该数据的输出是什么。 - 典型判别模型包括回归模型、神经网络、支持向量机和Ada boosting等。 - 生成模型 - 生成模型从数据中学习联合概率分布P（X，Y）（通过似然概率P(X|Y)->从输入数据产生输出、类概率P(Y)的乘积来求取） $P(Y|X）= \frac{P(X,Y)}{P(x)}$或者$P(Y|X）= \frac{P(X|Y)*P(Y)}{P(x)}$ - 典型方法为贝叶斯方法、隐马尔可夫链授之于鱼、不如授之于“渔” - 联合分布概率P（X，Y）或似然概率P（YIX）求取很困难 ## [P135.2线性回归分析](https://www.bilibili.com/video/BV1c7411n7EY?p=13) 线性回归定义：分析不同变量之间存在关系的研究叫回归分析，刻画不同变量之间关系的模型被称为回归模型。如果这个模型是线性的，则称为线性回归模型。 例如y = k*x + b，就是一个回归模型，其中的参数k和b需要从标注的数据中学习得到（监督学习） **线性回归模型例子** 背景：给出了莫纳罗亚山（夏威夷岛的活火山）从1970年到2005年每5年的二氧化碳浓度，单位是百万分比浓度（Parts Per Million，ppm）。 <img src="./《人工智能-模型与算法——浙江大学公开课》笔记/线性回归.jpg" alt="线性回归" style="zoom:67%;" /> 问题Q：1）给出1984年二氧化碳浓度值；2）预测2010年二氧化碳浓度值 解答A 1. 目标：建立回归模型y = a*x + b， 通过最佳回归模型求解参数a和b， 最佳回归模型是最小化残差平方和的均值，即要求8组（x，y）数据得到的残差平均值$\frac{1}{N} \sum(y-\tilde{y})^{2}$最小。残差平均值最小只与参数a和b有关，最优解即是使得残差最小所对应的a和b的值。 2. 具体步骤： - 记在当前参数下第i个训练样本xi的预测值为$\hat{y_i}$； - xi的标注值（实际值）yi，与预测值$\hat{y_i}$，之差记为$\left(y_{i}-\hat{y}_{i}\right)^{2}$ - 训练集中n个样本所产生误差总和为$L(a, b)=\sum_{i=1}^{n}\left(y_{i}-a \times x_{i}-b\right)^{2}$--》**误差函数** - 目标：寻找一组a和b，使得误差总和L（a，b）值最小。在线性回归中，解决如此目标的方法叫**最小二乘法**。 一般而言，要使函数具有最小值，可<u>对L(a, b)参数a和b分别求导，令其导数值为零-->偏导</u>，再求取参数a和b的取值。 ▲线性回归，可以从已标注数据出发，找寻两组变量之间的线性关系，并且可拓展为多维变量 ## [P145.3提升算法（boosting）](https://www.bilibili.com/video/BV1c7411n7EY?p=14) 对于一个复杂的分类任务，可以将其分解为若干子任务，然后将若干子任务完成方法**综合**，最终完成该复杂任务。即将弱分类器（weak classifiers）**组合**起来，形成强分类器（strong classifier） ### 为什么这样是能work的呢？ > 计算学习理论（Computational Learning Theory） > - 可计算：什么任务是可以计算的？Ans: 图灵可停机 > - 可学习：什么任务是可以被学习的、从而被学习模型来完成？ > > 学习任务：统计某个电视节目在全国的收视率。 > 方法：不可能去统计整个国家中每个人是否观看电视节目、进而算出收视率。只能**抽样**一部分人口，然后将抽样人口中观看该电视节目的比例作为该电视节目的全国收视率。 > 霍夫丁不等式：全国人口中看该电视节目的人口比例（记作x）与抽样人口中观看该电视节目的人口比例（记作y）满足如下关系： > > <mark>当N足够大时，“全国人口中电视节目收视率”与“样本人口中电视节目收视率”差值超过误差范围e的概率非常小。</mark> > > 对于统计电视节目收视率这样的任务，可以通过<u>不同的采样方法（即不同模型）</u>来计算收视率。每个模型会产生不同的误差。 问题：如果得到完成该任务的若干“弱模型”，是否可以将这些弱模型组合起来，形成一个“强模型”。该“强模型”产生误差很小呢？ 这就是**概率近似正确（PAC）**要回答的问题。 <img src="./《人工智能-模型与算法——浙江大学公开课》笔记/PAC.jpg" alt="PAC" style="zoom:67%;" /> ### adaboosting > 将一系列弱分类器组合成强分类器 Ada Boosting算法中两个核心问题： - 在每个弱分类器学习过程中，如何改变训练数据的权重：提高在上一轮中分类错误样本的权重。 - 如何将一系列弱分类器组合成强分类器：通过加权多数表决方法来提高分类误差小的弱分类器的权重，让其在最终分类中起到更大作用。同时减少分类误差大的弱分类器的权重，让其在最终分类中仅起到较小作用。 算法步骤： 1. 数据样本权重初始化——初始化每个训练样本的权重 - $D_{1}=\left(w_{11}, \ldots, w_{1 i}, \ldots, w_{1 N}\right),$ 其中 $w_{1 i}=\frac{1}{N}(1 \leq i \leq N)$，初始情况下每个分类器的权重是一样的 2. -第m个弱分类器训练 $\quad$ 对 $m=1,2, \ldots, M$ a) 使用具有分布权重 $D_{m}$ 的训练数据来学习得到第m个基分类器（弱分类器） $G_{m}$ :

G_{m}(x): X \rightarrow{-1,1}

​ b) \quad 计算 G_{m}(x) 在训练数据集上的分类误差 \operatorname{err}_{m}=\sum_{i=1}^{N} w_{\operatorname{mi} } I\left(G_{m}\left(x_{i}\right) \neq y_{i}\right) 这里: I(\cdot)=1, 如果 G_{m}\left(x_{i}\right) \neq y_{i} ; 否则为 0 ​ c) \quad <u>计算弱分类器 G_{m}(x) 的权重</u> : \quad \alpha_{m}=\frac{1}{2} \ln \frac{1-e r r_{m} }{e r r_{m} } ，如果 e r r_{m}=\sum_{i=1}^{N} w_{m i} I\left(G_{m}\left(x_{i}\right) \neq y_{i}\right)=1 意味着每个样本都分类错，则 \alpha_m \to -\infty ，当 \alpha_m =1/2， 则性能相当于随机分类； \alpha_m 权重随分类误差errm减小而增大，也就是说分类越少，分类器的权重越大。 ​ d) \quad 更新训练样本数据的分布权重: \quad D_{m+1}=w_{m+1, i}=\frac{w_{m, i} }{z_{m} } e^{-\alpha_{m} y_{i} G_{m}\left(x_{i}\right)}, 其中 Z_{m} 是归一化因子以使得 D_{m+1} 为概率分布, \quad Z_{m}=\sum_{i=1}^{N} w_{m, i} e^{-\alpha_{m} y_{i} G_{m}\left(x_{i}\right)} - 对数据不断划重点： \boldsymbol{w}_{\boldsymbol{m}+\mathbf{1}, i}=\left\{\begin{array}{ll}\frac{\boldsymbol{w}_{\boldsymbol{m}, i} }{\boldsymbol{Z}_{\boldsymbol{m} }} \boldsymbol{e}^{-\alpha_{m} }, & \boldsymbol{G}_{\boldsymbol{m} }\left(\boldsymbol{x}_{\boldsymbol{i} }\right)=\boldsymbol{y}_{\boldsymbol{i} } \\ \frac{\boldsymbol{w}_{\boldsymbol{m}, i} }{\boldsymbol{Z}_{\boldsymbol{m} }} \boldsymbol{e}^{\alpha_{m} }, & \boldsymbol{G}_{\boldsymbol{m} }\left(\boldsymbol{x}_{i}\right) \neq \boldsymbol{y}_{\boldsymbol{i} }\end{array}\right. 可见，如果某个样本无法被第m个弱分类器Gm（x）分类成功，则需要增大该样本权重，否则减少该样本权重。这样，被错误分类样本会在训练第m+1个弱分类器Gm+1（x）时会被“重点关注”。 在每一轮学习过程中，Ada Boosting算法均在划重点（重视当前尚未被正确分类的样本） 3. 弱分类器组合成强分类器 以线性加权形式来组合弱分类器 f(x)

f(x)=\sum_{i=1}^{M} \alpha_{m} G_{m}(x)

得到强分类器 G(x)

G(x)=\operatorname{sign}(f(x))=\operatorname{sign}\left(\sum_{i=1}^{M} \alpha_{m} G_{m}(x)\right)

- f（x）是M个弱分类器的**加权线性**累加。分类能力越强的弱分类器具有更大权重。 - \alpha_{m} 累加之和并不等于1。 - f(x) 符号决定样本 x 分类为 1 或- 1 。如果 \sum_{i=1}^{M} \alpha_{m} G_{m}(x) 为正，则强分类器 G(x) 将样本 x 分类为1 ; 否则为-1。 **回看霍夫丁不等式** > 假设有M个弱分类器Gm（1sm≤M），则M个弱分类器线性组合所产生误差满足如下条件： P\left(\sum_{i=1}^{M} G_{m}(x) \neq \zeta(x)\right) \leq e^{-\frac{1}{2} M(1-2 \epsilon)^{2} } - \zeta(x) 是真实分类函数、∈（0，1）。上式表明，如果所“组合”弱分类器越多，则学习分类误差呈指数级下降，直至为零。 - 上述不等式成立有两个前提条件：1）每个弱分类器产生的误差相互独立；2）每个弱分类器的误差率小于50%。因为每个弱分类器均是在同一个训练集上产生，条件1）难以满足。也就说，“准确性（对分类结果而言）”和“差异性（对每个弱分类器而言）”难以同时满足。---->Ada Boosting采取了序列化学习机制。 #### 优化目标 Ada Boost实际在最小化如下指数损失函数（minimization of exponential loss）： \sum_{i} e^{-y_{i} f\left(x_{i}\right)}=\sum_{i} e^{-y_{i} \sum_{m=1}^{M} \alpha_{m} G_{m}\left(x_{i}\right)} Ada Boost的分类误差上界如下所示： \frac{1}{N} \sum_{i=1}^{N} I\left(G\left(x_{i}\right) \neq y_{i}\right) \leq \frac{1}{N} \sum_{i} e^{-y_{i} f\left(x_{i}\right)}=\prod_{m} Z_{m} 在第m次迭代中，Ada Boosting总是趋向于将具有最小误差的学习模型选做本轮生成的弱分类器Gm，使得累积误差快速下降。 ## 无监督学习 > 无监督学习中，由于数据本身没有语义标签，因此我们对聚类结果无法知道到底代表的是怎样的高层语义 ![无监督学习](./《人工智能-模型与算法——浙江大学公开课》笔记/无监督学习.jpg) <img src="./《人工智能-模型与算法——浙江大学公开课》笔记/无监督相似度.jpg" alt="无监督相似度" style="zoom:67%;" /> 数据特征和相似度函数都很重要 ### [P156.1K均值聚类](https://www.bilibili.com/video/BV1c7411n7EY?p=15)-kmeans 输入：n个数据（无任何标注信息） 输出：k个聚类结果 目的：将n个数据聚类到k个集合（也称为类簇） **算法描述** 若干定义: n个m 维数据 \left\{x_{1}, x_{2}, \ldots, x_{n}\right\}, x_{i} \in R^{m}(1 \leq i \leq n) - 两个 m 维数据之间的欧氏距离为

d\left(x_{i}, x_{j}\right)=\sqrt{\left(x_{i 1}-x_{j 1}\right)^{2}+\left(x_{i 2}-x_{j 2}\right)^{2}+\cdots+\left(x_{i m}-x_{j m}\right)^{2}}

f\left(w_{t}, w_{t-1}, \ldots, w_{t-n+2}, w_{t-n+1}\right)=p\left(w_{t} \mid \text { context }\right)

如下优化模型参数 \theta, 以最大化训练数据的对数似然函数 :

J=\max {\theta}\left(\log f\left(w{t}, w_{t-1}, \ldots, w_{t-n+2}, w_{t-n+1} ; \theta\right)+R(\theta)\right)

<img src="./《人工智能-模型与算法——浙江大学公开课》笔记/词向量.jpg" alt="词向量" style="zoom:67%;" /> 词向量模型：两种训练模式 - Continue Bag-of-Words（CBoW）：根据某个单词的上下文单词来预测该单词 - Skip-gram：利用某个单词来分别预测该单词的上下文单词 Word2 Vec的改进算法 - 对一个包含10000个单词的语料库，每个单词的词向量设为200维，则需要200*10000（2000000）和10000*200（2000000）异常庞大的权重矩阵 - 在如此大神经网络上进行梯度下降耗时为了解决这个不足，后续出现了如下改进手段： - Hierarchical Softmax（引入霍夫曼树） - Negative Sampling <img src="./《人工智能-模型与算法——浙江大学公开课》笔记/词向量-单词类比.jpg" alt="词向量-单词类比" style="zoom:67%;" /> #### CNN-图像分类和定位 <img src="./《人工智能-模型与算法——浙江大学公开课》笔记/CNN图像分类和定位.jpg" alt="CNN图像分类和定位" style="zoom:67%;" /> #### 学习算法的改造：从浅层模型到深层模型 <img src="./《人工智能-模型与算法——浙江大学公开课》笔记/学习算法的改造从浅层模型到深层模型.jpg" alt="学习算法的改造从浅层模型到深层模型" style="zoom:67%;" /> ## [P2610.1强化学习定义](https://www.bilibili.com/video/BV1c7411n7EY?p=26) > 人工智能领域中有三种学习的方法：1.以逻辑推理为核心的符号主义人工智能； 2.以数据建模为核心的机器学习； 3.以环境交互为核心的强化学习 建立在马尔科夫决策过程的基础之上，so what's MDP? <img src="./《人工智能-模型与算法——浙江大学公开课》笔记/RL.jpg" alt="RL" style="zoom:67%;" /> #### 强化学习特点： <img src="./《人工智能-模型与算法——浙江大学公开课》笔记/RL特点.jpg" alt="RL特点" style="zoom:67%;" /> #### 机器人移动：DMP->MRP->MDP ##### 离散马尔科夫过程DMP 一阶马尔科夫链： \operatorname{Pr}\left(X_{t+1}=x_{t+1} \mid X_{0}=x_{0}, X_{1}=x_{1}, \cdots, X_{t}=x_{t}\right)=\operatorname{Pr}\left(X_{t+1}=x_{t+1} \mid X_{t}=x_{t}\right) 、t+1时刻状态仅与t时刻状态相关 二阶马尔科夫链： \operatorname{Pr}\left(X_{t+1}=x_{t+1} \mid X_{t}=x_{t}, X_{t-1} = x_{t}\right) 、t+1时刻状态与t和t-1时刻状态相关 <img src="./《人工智能-模型与算法——浙江大学公开课》笔记/DMP1.jpg" alt="DMP" style="zoom:67%;" /> ##### 马尔可夫奖励过程（Markov Reward Process）： 引入奖励为了在序列决策中对目标进行优化，在马尔可夫随机过程框架中加入了奖励机制： - 奖励函数 R: S \times S \mapsto \mathbb{R}, 其中 R\left(S_{t}, S_{t+1}\right) 描述了从第 t 步状态转移到第 t+1 步状态所获 得奖励 - 在一个序列决策过程中，不同状态之间的转移产生了一系列的奖励 \left(R_{1}, R_{2}, \cdots\right), 其中 R_{t+1} 为 R\left(S_{t}, S_{t+1}\right) 的简便记法。 - 引入奖励机制，这样可以衡量任意序列的优劣，即对序列决策进行评价。 问题：给定两个因为状态转移而产生的奖励序列（1，1，0，0）和（0，0，1，1），哪个奖励序列更好？ A：为了比较不同的奖励序列，定义反馈（return），用来反映累加奖励：$$G_{t}=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\cdots

其中衰退系数（ decay factor） $\gamma \in[0,1]$ ，来表示当前的奖励越是重要，远的奖励虽然需要考虑，但是重要程度是衰减的。
假设 $\gamma=0.99$
(1,1,0,0) $: G_{0}=1+0.99 \times 1+0.99^{2} \times 0+0.99^{3} \times 0=1.99$
(0,0,1,1) $: G_{0}=0+0.99 \times 0+0.99^{2} \times 1+0.99^{3} \times 1=1.9504$

可见，前一种反馈的累加更大，虽然(1,1,0,0)更好。

马尔可夫决策过程（Markov Decision Process）

马尔可夫决策过程（Markov Decision Process）：引入动作

在强化学习问题中，智能主体与环境交互过程中可自主决定所采取的动作，不同动作会对环境产生不同影响，为此：

定义智能主体能够采取的动作集合为A
由于不同的动作对环境造成的影响不同，因此状态转移概率定义为 $Pr（S_{t+1}|S_t,a_t）$ ，其中atE A为第t步采取的动作
奖励可能受动作的影响，因此修改奖励函数为 $R（S_t，at，S_{t+1}）$

啥是策略

策略函数：

策略函数π：S×A→[0，1]，其中π（s，a）的值表示在状态s下采取动作a的概率。
策略函数的输出可以是确定的，即给定s情况下，只有一个动作a使得概率π（s，a）取值为1。
对于确定的策略，记为a=π（s）。

如何进行策略学习：一个好的策略是在当前状态下采取了一个行动后，该行动能够在未来收到最大化的反馈：

$\pi^{*} = argmax_\pi G_{t}=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\cdots$

为了对策略函数工进行评估，定义。

价值函数（Value Function） $V: S \mapsto \mathbb{R},$ 其中 $V_{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} \mid S_{t}=s\right]$ ，即在第t步状态为s时，按照策略π行动后在未来所获得反馈值的期望.(由马尔可夫性，未来的状态和奖励只与当前状态相关，与t无关。因此t取任意值该等式均成立，如“逢山开路，遇水搭桥”。)
动作-价值函数（Action-Value Function） $q: S \times A \mapsto \mathbb{R},$ 其中 $q_{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid S_{t}=s, A_{t}=a\right]$
表示在第t步状态为s时，按照策略π采取动作a后，在未来所获得反馈值的期望

==>这样，策略学习转换为如下优化问题：寻找一个最优策略 $π*$ ，对任意s∈S使得 $V_\pi^{*}（s）$ 值最大

价值函数与动作-价值函数的关系：对策略进行评估

$\begin{aligned} V_{\pi}(s) &=\mathbb{E}_{\pi}\left[R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\cdots \mid S_{t}=s\right] \\ &=\mathbb{E}_{a \sim \pi(s,)}\left[\mathbb{E}_{\pi}\left[R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\cdots \mid S_{t}=s, A_{t}=a\right]\right] \\ &=\sum_{a \in A} \pi(s, a) q_{\pi}(s, a) \\ q_{\pi}(s, a)=& \mathbb{E}_{\pi}\left[R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\cdots \mid S_{t}=s, A_{t}=a\right] \\=& \mathbb{E}_{s^{\prime} \sim \operatorname{Pr}(\mid s, a)}\left[R\left(s, a, s^{\prime}\right)+\gamma \mathbb{E}_{\pi}\left[R_{t+2}+\gamma R_{t+3}+\cdots \mid S_{t+1}=s^{\prime}\right]\right] \\=& \sum_{s^{\prime} \in S} \operatorname{Pr}\left(s^{\prime} \mid s, a\right)\left[R\left(s, a, s^{\prime}\right)+\gamma V_{\pi}\left(s^{\prime}\right)\right] \end{aligned}$

贝尔曼方程（Bellman Equation）：

刻画了价值函数和行动-价值函数自身以及两者相互之间的递推关系

V_{\pi}(s)=\sum_{a \in A} \pi(s, a) q_{\pi}(s, a) \quad , q_{\pi}(s, a)=\sum_{s^{\prime} \in S} \operatorname{Pr}\left(s^{\prime} \mid s, a\right)\left[R\left(s, a, s^{\prime}\right)+\gamma V_{\pi}\left(s^{\prime}\right)\right]

将右式带入左式，得到价值函数的贝尔曼方程

V_{\pi}(s)=\sum_{a \in A} \pi(s, a) \sum_{s^{\prime} \in S} \operatorname{Pr}\left(s^{\prime} \mid s, a\right)\left[R\left(s, a, s^{\prime}\right)+\gamma V_{\pi}\left(s^{\prime}\right)\right]

将左式带入右式，得到行动-价值函数的贝尔曼方程

q_{\pi}(s, a)=\sum_{s^{\prime} \in S} \operatorname{Pr}\left(s^{\prime} \mid s, a\right)\left[R\left(s, a, s^{\prime}\right)+\gamma \sum_{a^{\prime} \in A} \pi\left(s^{\prime}, a^{\prime}\right) q_{\pi}\left(s^{\prime}, a^{\prime}\right)\right]

将利用贝尔曼方程进行策略评估，进而进行策略优化

P2710.2策略优化与策略评估

基于价值的求解方法：

第一部分：策略优化；

第二部分：策略评估

通过迭代计算贝尔曼方程进行策略评估

动态规划
- 动态规划法的缺点：
  1）智能主体需要事先知道状态转移概率（model-base）；
  2）无法处理状态集合大小无限的情况
蒙特卡洛采样

蒙特卡洛采样法的优点
- 智能主体不必知道状态转移概率·
- 容易扩展到无限状态集合的问题中
蒙特卡洛采样法的缺点
- 状态集合比较大时，一个状态在轨迹可能非常稀疏，不利于估计期望
- 在实际问题中，最终反馈需要在终止状态才能知晓，导致反馈周期较长
时序差分（Temporal Difference）

P2810.3强化学习求解QLearning

基于时序差分的方法-Q学习（Q-Learning）[Q:quality]

无探索的Qlearning

使用e贪心策略的Q学习

P2910.4深度强化学习

用神经网络拟合（行动）价值函数

问题：

状态数量太多时，有些状态可能始终无法采样到，因此对这些状态的q函数进行估计是很困难的
状态数量无限时，不可能用一张表（数组）来记录q函数的值

解决思路：
将q函数参数化（parametrize），用一个非线性回归模型来拟合q函数，例如（深度）神经网络

能够用有限的参数刻画无限的状态
由于回归函数的连续性，没有探索过的状态也可通过周围的状态来估计

深度Q学习与梯度下降法

深度Q学习的两个不稳定因素->DQN

样本相关性太强
在损失函数中，q函数的值既用来估计目标值，又用来计算当前值。现在这两处的q函数通过e有所关联，可能导致优化时不稳定

DQN

经验重现

样本相关性太强=>经验重现

目标网络

在损失函数中，q函数的值既用来估计目标值，又用来计算当前值。现在这两处的q函数通过e有所关联，可能导致优化时不稳定->目标网络

P3011.1博弈相关概念——人工智能博弈

博弈行为：带有相互竞争性质的主体，为了达到各自目标和利益，采取的带有对抗性质的行为。

博弈论主要研究博弈行为中最优的对抗策略及其稳定局势，协助人们在一定规则范围内寻求最合理的行为方式。

博弈的要素

参与者或玩家（player）：参与博弈的决策主体
策略（strategy）：参与者可以采取的行动方案，是一整套在采取行动之前就已经准备好的完整方案。
- 某个参与者可采纳策略的全体组合形成了策略集（strategy set）
- 所有参与者各自采取行动后形成的状态被称为局势（outcome）
- 如果参与者可以通过一定概率分布来选择若干个不同的策略，这样的策略称为混合策略（mixed strategy）。若参与者每次行动都选择某个确定的策略，这样的策略称为纯策略（pure strategy）
收益（payoff）：各个参与者在不同局势下得到的利益
混合策略意义下的收益应为期望收益（expected payoff）规则（rule）：对参与者行动的先后顺序、参与者获得信息多少等内容的规定

囚徒困境（prisoner’s dilemma）

数学家阿尔伯特·塔克：警方逮捕了共同犯罪的甲、乙两人，由于警方没有掌握充分的证据，所以将两人分开审讯：

若一人认罪并指证对方，而另一方保持沉默，则此人会被当即释放，沉默者会被判监禁10年
若两人都保持沉默，则根据已有的犯罪事实（无充分证据）两人各判半年
若两人都认罪并相互指证，则两人各判5年

在囚徒困境中，最优解为两人同时沉默，但是两人实际倾向于选择同时认罪（均衡解）

囚徒困境产生的原因：

对甲而言，若乙沉默，自己认罪的收益为0，而自己也沉默则收益为-0.5；若乙认罪，自己认罪则收益为-5，自己沉默则收益为-10
对乙而言，若甲沉默，自己认罪的收益为0，而自己也沉默则收益为-0.5；若甲认罪，自己认罪的收益为-5，自己沉默则收益为-10
即对个人而言，认罪的收益在任何情况下都比沉默的收益高，所以两人同时认罪是一个稳定的局势，其他三种情况都不是稳定局势

▲.囚徒困境表明稳定局势并不一定是最优局势

博弈的分类

合作博弈与非合作博弈

合作博弈（cooperative game）：部分参与者可以组成联盟以获得更大的收益
非合作博弈（non-cooperative game）：参与者在决策中都彼此独立，不事先达成合作

意向静态博弈与动态博弈

静态博弈（static game）：所有参与者同时决策，或参与者互相不知道对方的决策
动态博弈（dynamic game）：参与者所采取行为的先后顺序由规则决定，且后行动者知道先行动者所采取的行为

完全信息博弈与不完全信息博弈

完全信息（complete information）：所有参与者均了解其他参与者的策略集、收益等信息
不完全信息（incomplete information）：并非所有参与者均掌握了所有信息

囚徒困境是一种非合作、不完全信息的静态博弈

纳什均衡

博弈的稳定局势即为纳什均衡（Nash equilibrium）：
指的是参与者所作出的这样一种策略组合，在该策略组合上，任何参与者单独改变策略都不会得到好处。换句话说，如果在一个策略组合上，当所有其他人都不改变策略时，没有人会改变自己的策略，则该策略组合就是一个纳什均衡。

Nash定理：若参与者有限，每位参与者的策略集有限，收益函数为实值函数，则博弈必存在混合策略意义下的纳什均衡。

囚徒困境中两人同时认罪就是这一问题的纳什均衡。

another Example:

P3111.2遗憾最小化算法

博弈论与计算机科学的交叉领域非常多

理论计算机科学：算法博弈论
人工智能：多智能体系统、AI游戏玩家、人机交互、机器学习、广告推荐
互联网：互联网经济、共享经济
分布式系统：区块链

人工智能与博弈论相互结合，形成了两个主要研究方向

博弈策略的求解
- 为什么引入博弈论的动机
  ·博弈论提供了许多问题的数学模型
  ·纳什定理确定了博弈过程问题存在解
  ·人工智能的方法可用来求解均衡局面或者最优策略
- 应用领域
  ·大规模搜索空间的问题求解：围棋
  ·非完全信息博弈问题求解：德州扑克
  ·网络对战游戏智能：Dota、星球大战
  ·动态博弈的均衡解：厂家竞争、信息安全
博弈规则的设计
- 问题描述
  ·假设博弈的参与者都是足够理性的
  ·如何设计一个博弈规则能确保公正性或者达到设计者的最大利益
- 挑战
  ·规则复杂
  ·计算量大
- 应用领域
  ·拍卖竞价：互联网广告投放、车牌竞价
  ·供需匹配：污染权、学校录取
  ·公正选举：选举制度、表决制度、议席分配

RM算法若干定义

假设一共有N个玩家。玩家 $i$ 所采用的策略表示为 $\sigma_{i}$ 。
对于每个信息集 $I_{i} \in \xi_{i}, \sigma_{i}\left(I_{i}\right): A\left(I_{i}\right) \rightarrow[0,1]$ 是在动作集 $A\left(I_{i}\right)$ 上的概率分布函数。玩家 $i$ 的策略空间用 $\Sigma_{i}$ 表示。
一个策略组包含所有玩家策略，用 $\sigma=\left(\sigma_{1}, \sigma_{2}, \ldots, \sigma_{|N|}\right)$
$\sigma_{-i}$ 表示 $\sigma$ 中除了 $\sigma_{i}$ 之外的策略（即除去玩家 $i$ 所采用的策略 $)$
在博亦对决中，不同玩家在不同时刻会采取相应策略以及行动。策略\sigma下对应的行动序列 $h$ 发生的概率表示为 $\pi^{\sigma}(h)$ 。于是, $\pi^{\sigma}(h)=\prod_{i \in N} \pi_{i}^{\sigma}(h),$ 这里 $\pi_{i}^{\sigma}(h)$ 表示玩家 $i$ 使用策略 $\sigma_{i}$ 促使行动序列 $h$ 发生的概率。除玩家 $i$ 以外，其他玩家通过各自策略促使行动序列h发生的概率可表示为 $: \pi_{-i}^{\sigma}(h)=\prod_{j \in N \backslash\{i\}} \pi_{j}^{\sigma}(h)$
对于每个玩家 $i \in N, u_{i}: Z \rightarrow R$ 表示玩家 $i$ 的收益函数，即在到达终止序列集合Z中某个终止序列时，玩家 $i$ 所得到的收益。
玩家 $i$ 在给定策略 $\sigma$ 下所能得到的期望收益可如下计算: $u_{i}(\sigma)=\sum_{h \in Z} u_{i}(h) \pi^{\sigma}(h)$

悔值：

遗憾最小化算法：策略选择介绍

遗憾最小化算法是一种根据过去博将中的遗憾程度来决定将来动作选择的方法
在博亦中，玩家i在第T轮次（每一轮表示一次博将完成）采取策略 $\sigma_{i}$ 的遗憾值定义如
下（累加遗憾）:

\text { Regret }_{i}^{T}\left(\sigma_{i}\right)=\sum_{t=1}^{T}\left(\mu_{i}\left(\sigma_{i}, \sigma_{-i}^{t}\right)-\mu_{i}\left(\sigma^{t}\right)\right)

通常遗憾值为负数的策略被认为不能提升下一时刻收益，所以这里考虑的遗憾值均为
正数或0
计算得到玩家 $i$ 在第T轮次采取策略 $\sigma_{i}$ 的遗憾值后，在第 $T+1$ 轮次玩家 $i$ 选择策略 $a$ 的概
率如下（悔值越大、越选择，即亡羊补牢）

P(a)=\frac{\operatorname{Regret}_{i}^{T}(a)}{\sum_{b \in\{\text { 所有可选择策略 }\}} \operatorname{Regret}_{i}^{T}(b)}

demo石头剪刀布

为了解决博弈状态空间大的问题->虚拟遗憾最小化算法

P3211.3虚拟遗憾最小化算法

如果不能遍历计算所有节点的遗憾值，那么可以采用虚拟遗憾最小化算法来进行模拟计算
假设:
- 集合 $A$ 是博亦中所有玩家所能采用的行为集（如在石头-剪刀-布游戏中出石头、出剪刀或出布三种行为 $）$
- I为信息集，包含了博亦的规则以及玩家采取的历史行动，在信息集I下所能采取的行为集合记为 $A(I$
玩家 $i$ 在第 $t$ 轮次采取的行动 $a_{i} \in A\left(I_{i}\right)$ 反映了其在该轮次所采取的策略 $\sigma_{i}^{t}$ 。包含玩家 $i$ 在内的所有玩家在第t轮次采取的行动 $a \in A(I)$ 构成了一组策略组合 $\sigma_{\circ}^{t}$
在信息集I下采取行动a所反映的策略记为 $\sigma_{I \rightarrow a}$ 。
在第t轮次所有玩家采取的行动是一条序列，记为 $h_{\circ}$ 采取某个策略 $\sigma$ 计算行动序列 $h$
出现的概率记为 $\pi^{\sigma}(h)$
每个信息集I发生的概率 $\pi^{\sigma}(I)=\sum_{h \in I} \pi^{\sigma}(h),$ 表示所有能够到达该信息集的行动序
列的概率累加。
给定博亦的终结局势z $\in Z,$ 玩家 $i$ 在游戏结束后的收益记作 $u_{i}(z)$
在策略组合 $\sigma$ 下，施加博亦行动序列 $h$ 后达到最终局势z的概率为 $\pi^{\sigma}(h, z)$
当采取策略\sigma时，其所对应的行动序列h的虚拟价值（Counterfactual Value）如下计算(注：行动序列 $h$ 未能使博亦进入终结局势):
$v_{i}(\sigma, h)=\sum_{z \in Z} \pi_{-i}^{\sigma}(h) \pi^{\sigma}(h, z) u_{i}(z)$
玩家i采取行动a所得到的虚拟遗憾值:
$r(h, a)=v_{i}\left(\sigma_{I \rightarrow a}, h\right)-v_{i}(\sigma, h)$
行动序列 $h$ 所对应的信息集I遗憾值为
$r(I, a)=\sum_{h \in I} r(h, a)$
玩家 $i$ 在第T轮次采取行动a的遗憾值为 :
$\operatorname{Regret}_{i}^{T}(I, a)=\sum_{t=1}^{T} r_{i}^{t}(I, a)$
同样，对于遗憾值为负数的情况，我们不予考虑，记:
$\text { Regret }_{i}^{T,+}(I, a)=\max \left(R_{i}^{T}(I, a), 0\right)$
在 $T+1$ 轮次，玩家 $i$ 选择行动 $a$ 的概率计算如下
$\sigma_{i}^{T+1}(I, a)=\left\{\begin{array}{ll} \frac{\operatorname{Regret}_{i}^{T,+}(I, a)}{\operatorname{Regret}_{i}^{T,+}(I, a)} \text { if } \sum_{a \in A(I)} \operatorname{Regret}_{i}^{T,+}(I, a)>0 \\ \frac{1}{|A(I)|} & \text { otherwise } \end{array}\right.$
玩家i根据遗憾值大小来选择下一时刻行为，如果遗憾值为负数，则随机挑选一种行为进行博亦（由于规定regret不为负数，因此随机取的概率不会出现）

demo库恩扑克（Kunh’s pocker）

库恩扑克是最简单的限注扑克游戏，由两名玩家进行游戏博弈，牌值只有1，2和3三种情况
每轮每位玩家各持一张手牌，根据各自判断来决定加定额赌注
游戏没有公共牌，摊牌阶段比较未弃牌玩家的底牌大小，底牌牌值最大的玩家即为胜者

游戏规则定义：

|玩家A|玩家B|玩家A|结果|
| ---- | ---- | ---- |
|过牌|过牌||牌值大的玩家+1|
|加注|加注||牌值大的玩家+2|
|过牌|加注|过牌|玩家B+1|
|过牌|加注|加注|牌值大的玩家+2|
|加注|过牌||玩家A+1|

算法步骤

该问题中进行策略选择的算法步骤如下：
1.初始化遗憾值和累加策略表为02.采用随机选择的方法来决定策略
3.利用当前策略与对手进行博弈4.计算每个玩家采取每次行为后的遗憾值5.根据博弈结果计算每个行动的累加遗憾值大小来更新策略
6.重复博弈若干次
7.根据重复博弈最终的策略，完成最终的动作选择

G-S算法（Gale-Shapley）

在生活中，人们常常会碰到与资源匹配相关的决策问题（如求职就业、报考录取等），这些需要双向选择的情况被称为是双边匹配问题。在双边匹配问题中，需要双方互相满足对方的需求才会达成匹配
匹配的稳定是指没有任何人能从偏离稳定状态中获益。如果将匹配问题看做是一种合作博弈的话，稳定状态解就是纳什均衡解
1962年，美国数学家大卫·盖尔和博弈论学家沙普利提出了针对双边稳定匹配问题的解决算法，并将其应用于稳定婚姻问题的求解
稳定婚姻问题（stable marriage problem）是指在给定成员偏好的条件下，为两组成员寻找稳定匹配。由于这种匹配并不是简单地价高者得，所以匹配解法应考虑双方意愿
稳定婚姻问题的稳定解是指不存在未达成匹配的两个人都更倾向于选择对方胜过自己当前的匹配对象

最大交易圈算法（Top-Trading Cycle algorithm）

在匹配问题中，还有一类交换不可分的标的物的匹配问题，被称为单边匹配问题，如远古时期以物易物、或者宿舍的床位分配
1974年，沙普利和斯卡夫提出了针对单边匹配问题的稳定匹配算法：最大交易圈算法（TTC），算法过程如下：
- 首先每个交易者连接一条指向他最喜欢的标的物的边，并从每一个标的物连接到其占有者或是具有高优先权的交易者。
- 此时形成一张有向图，且必存在交易圈，对于交易圈中的交易者，将每人指向节点所代表的标的物赋予其，同时交易者放弃原先占有的标的物，占有者和匹配成功的标的物离开匹配市场。
- 接着从剩余的交易者和标的物之间重复进行交易圈匹配，直到无法形成交易圈，算法停止。

P3311.4人工智能安全

基于人工智能的信息安全技术：加密技术

将明文信息处理为难以读取的密文内容，使之不可读。
在网络环境中保障通信安全，保证数据的完整性
目前常用的加密算法有安全哈希算法（Secure Hash Algorithm，SHA）和高级加密标准（Advanced Encryption Standard，AES）

使用神经网络的加密算法

2016年谷歌大脑的研究团队提出了使用对抗生成网络GAN生成的一个加密算法，其使用了三个神经网络分别完成加密、解密和攻击的工作，以保证通信双方信息的无损传输以及第三方无法破译通信内容

基于人工智能的信息安全技术：数字水印

将特定信息（版权信息等）嵌入在数字信号中，数字信号可能是音频、视频、图片等。
当拷贝信息时，水印内容会被同时拷贝，所以水印内容可作为版权信息的证明，这样能避免或阻止数字媒体未经授权的复制和拷贝

近年来通过神经网络来添加水印和提取水印信息的成为学术研究热点。

人工智能的安全：数据安全与模型安全

人工智能很大程度是依靠数据驱动学习
可用性（availability）

训练数据是否充足且可靠
训练数据是否有足够的标注

完整性（completeness）

数据是否具有代表性

隐私性（privacy）

数据是否涉及隐私安全问题
如何保障数据不被窃取

人工智能所使用的的模型是由有限的训练数据训练得到的
鲁棒性（robustness）

模型是否易于受到噪声干扰或攻击

正确性（correctness）

模型是否正确

通用性（generality）

模型是否能够应用于现实场景
模型对输入数据是否有过高的要求

人工智能的安全：对模型的攻击

对模型的攻击

使用特定技术对输入样本进行微小的修改就可骗过模型而得到错误的结果
这种经过修改，使得模型判断错误的样本被称为对抗样本

白盒攻击

攻击者熟知人工智能模型的算法和模型参数，生成对抗样本的过程可以与模型的每一部分进行交互

对人工智能模型的白盒攻击通常会对模型的每一部分进行逐层分解，然后对每一部分添加一定的扰动，使得模型的结果逐步向误判目标类别偏移
这是一种非常隐蔽的攻击手段，通过限制扰动的大小可以使得对抗样本看起来与原样本差别很小

白盒攻击的防御策略：生成对抗网络

黑盒攻击

攻击者只能给定输入去获得模型输出，但并不知道被攻击模型所使用的算法和参数
黑盒攻击可以针对任何一个人工智能模型

常用的黑盒攻击防御策略有：
·数据压缩：通过对输入数据进行压缩或者降维，在保证识别准确率的情况下提升模型对干扰攻击的鲁棒性
·数据随机化：对训练数据进行随机缩放、增强等操作，提升模型的鲁棒性
·训练额外的网络来判断训练数据是否为攻击样本

授课基本内容：

搜索求解

最大最小搜索

alpha-beta剪枝搜索

exploitation component(利用)

exploration component(探索)

马尔可夫决策过程（Markov Decision Process）

相关术语

啥是策略

贝尔曼方程（Bellman Equation）：

基于价值的求解方法：

无探索的Qlearning

使用e贪心策略的Q学习

深度Q学习与梯度下降法

深度Q学习的两个不稳定因素->DQN

DQN

经验重现

目标网络

P3011.1博弈相关概念——人工智能博弈

博弈的分类

纳什均衡

遗憾最小化算法：策略选择介绍

demo石头剪刀布

demo库恩扑克（Kunh’s pocker）

算法步骤

G-S算法（Gale-Shapley）

最大交易圈算法（Top-Trading Cycle algorithm）

基于人工智能的信息安全技术：加密技术

基于人工智能的信息安全技术：数字水印

人工智能的安全：数据安全与模型安全

人工智能的安全：对模型的攻击