如何防止AI干出不利于人类的事情?阿西莫夫在机器人系列中设定了三个法则,但正如 阿西莫夫自己所描述的,机器人是可以不违反特定法则的情况下违反法则意图的。如果人类程序员难以枚举所有的人类价值,那么是否可以让AI去学习人类价值?美国乔治亚理工学院的Mark O. Riedl和Brent Harrison发表了一篇论文(PDF),描述了让AI阅读和理解故事去学习人类的价值。Riedl教授说,他们在虚拟环境中模拟运行了数千次,每一次AI的行为如果与故事中描述的行为相似,那么它们将会奖励,否则将会得到惩罚。通过奖励和惩罚,AI将学会偏爱做一些事情,避免做另一些事情,AI学会像人类那样执行一个任务。Riedl教授称,AI还没有学会不要去偷东西,但它在阅读之后学会了不喜欢偷东西。