
专业选修课程
KuFun元宇宙
计算机专业研究生
展开
-
人工智能笔记之专业选修课4.1.5 - 博弈论 11.贝叶斯博弈场景-拍卖,合作博弈论
贝叶斯博弈(Bayesian Games)当我们讲拍卖 auctions时,我们会想到1885年的木刻,它展示了澳大利亚墨尔本的茶叶拍卖。有一个戴着礼帽的人,站在房间的前面,他手里拿着一个木槌,他可能会用一种诙谐的声音说话。在某个时刻,他敲下木槌,某个人赢得了一些茶。不过拍卖是非常现实的东西。...原创 2020-03-21 17:35:02 · 787 阅读 · 0 评论 -
人工智能笔记之专业选修课4.1.5 - 博弈论 10.博弈学习,虚构博弈简介,无悔学习简介,后悔匹配简介
博弈学习(learning)我们会看学习在重复博弈中的两种学习类型虚构博弈 (fictitious play)无悔学习(no-regret learning) ,尤其是一个算法叫后悔匹配 (regret matching)目前这个话题量非常大首先我们应该认识到在博弈论中的学习,与其他一些学科中的学习是相当不同的。比如 在机器学习,人工智能,计算机科学或者统计学优化中。单个...原创 2020-03-20 22:32:11 · 1977 阅读 · 0 评论 -
人工智能笔记之专业选修课4.1.5 - 博弈论 9.重复博弈,效用,随机博弈
重复博弈(repeated games)当我们考虑世界上绝大部分互动时,其中很多不止会发生一次市场上的公司 它们与竞争对手活动政治同盟国决定如何与其他国家谈判,它们是否应该有冲突等等朋友,你会交换吗,你会在朋友需要帮助时帮助他们吗?你需要时他们会帮你吗?如果你有对你非常好的朋友,你更有可能回报。像这样的一些东西可能涉及到重复互动。比如工人在日复一日的团队生产中,你需...原创 2020-03-20 20:58:22 · 826 阅读 · 0 评论 -
人工智能笔记之专业选修课4.1.5 - 博弈论 8.完全信息扩展式博弈,子博弈
完全信息扩展式博弈perfect information extensive-form games是一种涉及时间的博弈。原创 2020-03-20 19:23:35 · 411 阅读 · 0 评论 -
人工智能笔记之专业选修课4.1.5 - 博弈论 7.极大极小策略,相关均衡
极大极小策略MAXMIN strategies在零和博弈的背景下特别有意义。实际上对所有博弈都会很有意义。简单地说,是参与者在假设其他参与者要给他难堪下,最大化他们的回报。更为一般地定义极大极小策略是:最大化我最坏情况下结果的一个策略。极大极小值或安全水平,就是极大极小策略保证的回报the maxmin strategy, is a strategy that maximizes m...原创 2020-03-19 21:31:50 · 3471 阅读 · 1 评论 -
人工智能笔记之专业选修课4.1.5 - 博弈论 6.严格劣势策略
严格劣势策略 strictly dominated strategies在稳定性和预测上analyzing games in terms of stability, in terms of predicting. ,人们可以想到各种不同的方式来分析博弈。而人们会做什么,遵循什么逻辑是分析博弈的另一个重要方式, 也能给我们一些洞见。核心思想是当我们考虑博弈论里的理性时,基本的前提为:人们总是希望...原创 2020-03-19 20:20:38 · 2628 阅读 · 0 评论 -
人工智能笔记之专业选修课4.1.5 - 博弈论 5.计算纳什均衡难点,复杂度层级,Lemke-Howson算法,PPAD
计算纳什均衡难点compute a Nash equilibrium纳什均衡早期历史:1928年约翰·冯·诺依曼 (John von Neumann),现代博弈论的奠基人之一:研究证明了零和博弈 (zero sum game) 中存在纳什均衡。在证明过程中 他使用了布劳威尔不动点定理需要用到在线性规划中计算不动点的算法一个是但泽 (Danzig) 的算法,相当于我们现...原创 2020-03-19 16:42:19 · 4268 阅读 · 0 评论 -
人工智能笔记之专业选修课4.1.5 - 博弈论 4.占优,帕累托最优理论,混合策略
占优帕累托最优理论帕累托最优的定义经典博弈中的帕累托最优混合策略:原创 2020-03-17 13:54:53 · 516 阅读 · 0 评论 -
人工智能笔记之专业选修课4.1.5 - 博弈论 3.纳什均衡
纳什均衡分析凯恩斯的选美比赛博弈每个玩家都选择1到100之间的一个整数然后你有一群参与者那个选择的整数最接近平均数的2/3的人赢得这个比赛其余人一无所得平局会按均匀分布随机确定胜者策略推理第一次游戏第二次游戏纳什均衡总结纳什均衡最优反应假设你是博弈中的一位参与者,并假设你知道其他参与者的策略,那我们可以选择对你来说最好的。这个行动就是最优回应...原创 2020-03-17 08:27:01 · 780 阅读 · 0 评论 -
人工智能笔记之专业选修课4.1.5 - 博弈论 2.经典囚徒困境等经典博弈场景
经典囚徒困境两个囚徒 选择合作或不合作?不合作被称为背叛(defect)如果他们合作 他们得到结果A如果都背叛 他们会得到另一个结果D 不过A比D更优然而如果他们合作失败 其中一方选择合作 一方背叛那么选择合作的人得到最差的结果而背叛的人得到可能的最优结果博弈竞争模型是一个概念非常清晰的纯粹竞争例子在这个情况中 只有两个参与者 两个参与者的收益是互补的因而 他们通常加起...原创 2020-03-16 21:46:59 · 542 阅读 · 0 评论 -
人工智能笔记之专业选修课4.1.5 - 博弈论 1.退避机制,博弈基本概念,重要元素,形式
博弈论博弈论研究的是两位自利者的策略性互动。博弈论在经济学,计算机科学 ,政治学,心理学以及其他学科都非常重要。同时考虑这些互动如何为一些人所结构化,是为是计算机体系获取更好的收益。Backoff GameTCP协议中的退避机制 (backoff mechanisn)...原创 2020-03-16 20:50:03 · 934 阅读 · 1 评论 -
人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 4.概念(分组和聚合,Jaccard,分布式文件系统,距离测度)
分组和聚合Group and Aggregation给定关系R,分组是指按照属性集合(分组属性)G中值对元祖进行分割。然后对每个组的值按照某些其他属性进行聚合。通常允许的聚合运算包括SUM,COUNT,AVG,MIN和MAX,每个运算的意义都非常明显。MIN和MAX运算要求聚合的属性类型必须具有可比性,如数字或者字符串类型,而SUM和AVG则要求属性的类型能够进行算数运算。关系R上的分组-聚...原创 2020-03-04 14:36:19 · 292 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 5.PageRank技术
PageRank技术使用PageRank技术可以用来对抗词项作弊(term spam)。问题:词项作弊。是一种欺骗搜索引擎让其相信一个本来不相关的页面,使其排名靠前的技术。解决方案:使用PageRank技术来模拟web冲浪者的行为,这些冲浪者从随机页面出发,每次从当前页面随机选择出链前行,该过程可以迭代多次。最终,这些冲浪者会在页面上汇合。较多冲浪者访问的网页重要性被认为高于那些高于那些较少...原创 2020-03-04 21:09:23 · 464 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 6.聚类,K-Means++
聚类 clustering点,空间和距离点(point) 集是一种适合于聚类的数据集,每个点都是某空间下的对象能够进行聚类的所有空间下都有一个距离测度(distance metices),即给出空间下任意两点的距离.聚类方法层次结构 Hierarchical::凝聚式 Agglomerative(自下而上 bottom up)):最初,每个点都是一个群集反复结合“最...原创 2020-03-04 22:14:14 · 249 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 7.在线算法,贪心算法,完美匹配
在线算法on-line在线on-line 算法通常会包含一个“贪心算法”(greedy)的方法算法的工作流程:一开始先进行离线 off-line 算法首先,将算法所需要的所有数据准备好然后,算法以任意次序访问数据最后,算法输出结果然而很多情况下并不能获取全部的的数据,举个极端的例子,我们必须在每个流元素到达之后就以输出方式对查询进行应答。于是我们必须在对将来...原创 2020-03-05 13:04:49 · 347 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 8.推荐系统,大数据注意事项
推荐系统分类基于内容的系统(Content-Based System) 目前的主流这类系统主要考察的是推荐项的性质。例如,如果一个用户观看了同一类型的电影的多部电影,那么系统就会将数据库中的同一类型的电影推荐给该用户。协同过滤系统(Collaborative Filtering System) 目前的主流这类系统通过计算用户或/和项之间的相似度来推荐项。与某用户相似的用户所...原创 2020-03-05 14:58:30 · 249 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 9.社交网络,社区
社交网络社区:社交网络中的一个重要问题是识别“社区”。社区是指具有非同寻常的强连通性的节点子集(节点可以是构成网络的人或其他实体)。把社交网络看成图,称为社会图 social graph网络和社区目标:聚类局部性 locality:指社会网络的节点和边趋向于聚为社区的这种性质。社会网络的基本特点:(1)一大堆试题参与了网络的构成。(2)网络实体之间至少存在一种关系。(3)对于...原创 2020-03-05 21:11:43 · 367 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 3.关联规则,频繁项集
关联规则探索目标:确定同时购买的几样物品方法:处理通过以下渠道收集的销售数据条形码扫描仪以查找依赖关系经典法则:如果有人购买尿布和牛奶,那么他/她就可能买啤酒如果在尿布旁边发现六包,不要感到惊讶!定义频繁项集 frequent itemsets关联规则 Association rules::信心,支持,兴趣用于查找频繁项集 frequent itemsets的算法...原创 2020-03-04 10:45:31 · 241 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 2.大规模计算介绍,MapReduce介绍,Spark介绍
数据挖掘的大规模计算商品硬件问题挑战:您如何分配计算?我们怎样才能使分布式的编写变得容易程式?机器故障:一台服务器可以使用3年(1,000天)如果您有1,000台服务器,则预计每天1台存在问题使用1M机器,每天有1000台机器发生故障!问题和解决方案问题:通过网络复制数据需要时间理念:将计算带入数据多次存储文件以提高可靠性Spark / Hadoop解决了...原创 2020-03-03 22:32:07 · 178 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 1.介绍
数据挖掘数据包含价值(value)和知识,而我们要做的事就是要提取知识数据需要三部分:1.存储(系统课程)2.管理(数据库课程)3.分析数据 ANALYZED (此数据挖掘课程的目标)数据挖掘 ≈ 大数据 ≈ 预测分析 ≈ 数据科学 ≈ 机器学习Data Mining ≈ Big Data ≈ Predictive Analytics ≈ Data Science ≈ Machi...原创 2020-03-03 13:30:02 · 487 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.5 - 强化学习 12.无模型预测,蒙特卡罗强化学习
无模型预测Model-Free Prediction蒙特卡罗强化学习Monte-Carlo Reinforcement Learning从经历完整的经验序列来估计状态值 MC methods learn directly from episodes of experience无模型,不清楚MDP的状态转移和奖励MC is model-free: no knowledge of MDP...原创 2020-03-02 21:58:45 · 228 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.5 - 强化学习 11.价值迭代,预测和控制问题解决方案汇总
最优化原则Principle of Optimality价值迭代的定义Value Iteration反复的迭代的过程。最短路径的例子此类情况是在不知道终点在哪儿的情况。 从初始状态0开始出发,逐步扩散迭代直到找到最短路径。预测和控制问题解决方案汇总...原创 2020-03-02 20:22:25 · 212 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.5 - 强化学习 10.策略评估,策略迭代
策略评估 Policy Evaluation问题:评估策略π\piπ Problem: evaluate a given policy π\piπ解决方案:贝尔曼期望的迭代应用 Solution: iterative application of Bellman expectation backupv1→v2→...→vπv_1 → v_2 → ... → v_\piv1→v2→......原创 2020-03-02 12:45:59 · 270 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.5 - 强化学习 9.动态编程概述,动态规划
动态规划Planning by Dynamic Programming定义动态: 时间或者顺序方面的特性。意味着可以一步步的进行Dynamic sequential or temporal component to the problemsuch as step by step编程:像数学家一样优化线性问题Programming optimising a “program”, i.e...原创 2020-03-02 11:05:27 · 284 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.5 - 强化学习 8.最优价值函数,最佳策略
最优价值函数最优状态价值函数v∗(s)v_*(s)v∗(s) optimal state-value function是所有状态价值函数中的最大值最优行动价值函数q∗(s,a)q_*(s,a)q∗(s,a) optimal action-value function是所有行动价值函数中的最大值最佳策略如何寻找到最佳策略:学生MDP例子中的最佳策略...原创 2020-03-01 23:56:22 · 972 阅读 · 1 评论 -
人工智能教程 - 专业选修课程4.3.5 - 强化学习 7.马尔科夫决策过程
马尔科夫决策过程Markov Decision ProcessMDP加入行动action 后,才可以用于实施决策。A Markov decision process (MDP) is a Markov reward process with decisions. It is an environment in which all states are Markov定义是一个<S,...原创 2020-03-01 23:28:10 · 232 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.5 - 强化学习 6.马尔科夫奖励过程
马尔科夫奖励过程Markov Reward Process可以视为带有value function 价值判断的过程由一个<S,P,R,γ><S,P, R, \gamma ><S,P,R,γ>元组tuple构成R:是奖励函数 Rs=E[Rt+1∣St=s]R_s = \mathbb{E} [R_{t+1} | S_t = s]Rs=E[Rt+1∣St...原创 2020-03-01 20:51:11 · 338 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.5 - 强化学习 5.马尔科夫过程
马尔科夫决策过程Markov Decision Processes(MDP)MDP被描述成一个针对于强化学习的环境 Markov decision processes formally describe an environment for reinforcement learning完全可观察环境,我们在一个已知状态下 Where the environment is fully ...原创 2020-03-01 14:22:07 · 405 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.5 - 强化学习 4.智能体分类,规划,预测和控制等简介
智能体分类Categorizing RL agents基于价值 Value BasedNo Policy (Implicit)Value Function基于行动决策 Policy BasedPolicyNo Value Function结合价值和行动决策 Actor CriticPolicyValue Function无模型 Model Fr...原创 2020-02-29 23:46:54 · 231 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.5 - 强化学习 3.行动决策,价值函数,模型,迷宫问题
行动决策 policy行动决策 A policy is the agent’s behaviour是状态到行动的映射 It is a map from state to action, e.g.选择的决策 Deterministic policy: a=π(s)a = \pi(s)a=π(s)随机的解决 Stochastic policy:π(a∣s)=P[At=a∣St=s]\pi (...原创 2020-02-29 23:05:54 · 225 阅读 · 0 评论 -
人工智能教程 - 专业选修课程4.3.5 - 强化学习 2.状态,智能体的组件
状态 state:State is the information used to determine what happens nextFormally, state is a function of the history:状态state则是关于历史记录history的函数St=f(Ht)S_t =f(H_t)St=f(Ht)状态有三种定义:1.environment ...原创 2020-02-29 21:10:50 · 444 阅读 · 1 评论 -
人工智能教程 - 专业选修课程4.3.5 - 强化学习 1.强化学习简介,三要素,历史记录
强化学习简介Reinforcement learning强化学习是多学科交叉的学科机器学习最优化控制奖励系统条件作用以及条件反射实验离散数学博弈论效用理论和有限理论强化学习和其他机器学习范式有什么区别?What makes reinforcement learning different from other machine learning paradigms?1.强...原创 2020-02-29 15:44:40 · 687 阅读 · 0 评论