d*****u 发帖数: 17243 | 1 大致思路是用reinforcement learning
通过反推过程来确定每个状态下各个Move的reward
没有人为输入任何法则
训练后的系统可以解100%的魔方局,平均在30步 |
d*****u 发帖数: 17243 | 2 Intelligent Machines
A machine has figured out Rubik’s Cube all by itself
Unlike chess moves, changes to a Rubik’s Cube are hard to evaluate, which
is why deep-learning machines haven’t been able to solve the puzzle on
their own. Until now.
【在 d*****u 的大作中提到】 : 大致思路是用reinforcement learning : 通过反推过程来确定每个状态下各个Move的reward : 没有人为输入任何法则 : 训练后的系统可以解100%的魔方局,平均在30步
|
e****w 发帖数: 1565 | |
g******t 发帖数: 11249 | 4 人最快多少步
【在 d*****u 的大作中提到】 : 大致思路是用reinforcement learning : 通过反推过程来确定每个状态下各个Move的reward : 没有人为输入任何法则 : 训练后的系统可以解100%的魔方局,平均在30步
|
S******D 发帖数: 8437 | 5 我现在只能弄好一面。。。
【在 d*****u 的大作中提到】 : 大致思路是用reinforcement learning : 通过反推过程来确定每个状态下各个Move的reward : 没有人为输入任何法则 : 训练后的系统可以解100%的魔方局,平均在30步
|
d****o 发帖数: 32610 | 6 这个就不该用DL
【在 d*****u 的大作中提到】 : 大致思路是用reinforcement learning : 通过反推过程来确定每个状态下各个Move的reward : 没有人为输入任何法则 : 训练后的系统可以解100%的魔方局,平均在30步
|
z*****2 发帖数: 4 | 7 有10来步的通解,无论起始状态是什么。
【在 g******t 的大作中提到】 : 人最快多少步
|
d*****u 发帖数: 17243 | |
d*****u 发帖数: 17243 | 9 DL有一定噱头成分,其实就是典型的RL
不过可能特征空间比较大,层数比较多
【在 d****o 的大作中提到】 : 这个就不该用DL
|
F*********u 发帖数: 12190 | 10 跟machine learning自己学会玩breakout比难度大多少?
【在 d*****u 的大作中提到】 : 大致思路是用reinforcement learning : 通过反推过程来确定每个状态下各个Move的reward : 没有人为输入任何法则 : 训练后的系统可以解100%的魔方局,平均在30步
|
|
|
d**s 发帖数: 4741 | 11 本质还是线性代数?
【在 d*****u 的大作中提到】 : DL有一定噱头成分,其实就是典型的RL : 不过可能特征空间比较大,层数比较多
|
d*****u 发帖数: 17243 | 12 所谓神经网络都是矩阵乘法加上一个非线性变换,一层一层上去
【在 d**s 的大作中提到】 : 本质还是线性代数?
|
d**s 发帖数: 4741 | 13 那个非线性变换长什么样?
【在 d*****u 的大作中提到】 : 所谓神经网络都是矩阵乘法加上一个非线性变换,一层一层上去
|
d*****u 发帖数: 17243 | 14 最常用的是sigmoid, tanh, relu这几个
分类器的话,最顶端一般是softmax
【在 d**s 的大作中提到】 : 那个非线性变换长什么样?
|
F*********u 发帖数: 12190 | |
a******9 发帖数: 20431 | 16 艹 我还以为早就解完了 这种有边界的, discrete choice的决策问题 全都可以用MDP
来找解
:大致思路是用reinforcement learning
:通过反推过程来确定每个状态下各个Move的reward |
d*****u 发帖数: 17243 | 17 这个大概状态空间太大,intractable
数独和chess之类的是可以。
MDP
【在 a******9 的大作中提到】 : 艹 我还以为早就解完了 这种有边界的, discrete choice的决策问题 全都可以用MDP : 来找解 : : :大致思路是用reinforcement learning : :通过反推过程来确定每个状态下各个Move的reward
|
d***u 发帖数: 943 | 18
确实很巧妙,但只对已知确定解的问题有效,不具通用性。
【在 d*****u 的大作中提到】 : 大致思路是用reinforcement learning : 通过反推过程来确定每个状态下各个Move的reward : 没有人为输入任何法则 : 训练后的系统可以解100%的魔方局,平均在30步
|
h*****3 发帖数: 526 | 19 本质上把大空间全sample一遍,用NN记下
草,实质上还是一个bruteforce
【在 d*****u 的大作中提到】 : DL有一定噱头成分,其实就是典型的RL : 不过可能特征空间比较大,层数比较多
|
l******r 发帖数: 316 | 20 有啥用?一个so(3)变换群,在人类的知识库里基础的不能再基础的东西。
人工智能就知道吹。
【在 d*****u 的大作中提到】 : 大致思路是用reinforcement learning : 通过反推过程来确定每个状态下各个Move的reward : 没有人为输入任何法则 : 训练后的系统可以解100%的魔方局,平均在30步
|
|
|
d*****u 发帖数: 17243 | 21 显然不是用的暴力解法。否则就算解出来也没有价值。
NN的一个妙处就是可以找manifold
【在 h*****3 的大作中提到】 : 本质上把大空间全sample一遍,用NN记下 : 草,实质上还是一个bruteforce
|
d*****u 发帖数: 17243 | 22 这个是用有限的时间找规则,模拟人类的reasoning.
Reasoning如果表达起来其实是简单的数学
【在 l******r 的大作中提到】 : 有啥用?一个so(3)变换群,在人类的知识库里基础的不能再基础的东西。 : 人工智能就知道吹。
|
l******r 发帖数: 316 | 23 那人工智能能证明下素数有无限个吗?
人类初中生都会的reasoning。
【在 d*****u 的大作中提到】 : 这个是用有限的时间找规则,模拟人类的reasoning. : Reasoning如果表达起来其实是简单的数学
|
h*****3 发帖数: 526 | 24 用RL就要暴力sample,nn在这种learning里面只是起到构造reward作用
【在 d*****u 的大作中提到】 : 显然不是用的暴力解法。否则就算解出来也没有价值。 : NN的一个妙处就是可以找manifold
|
d***u 发帖数: 943 | 25
就是RL, 不是新方法。他们给了一种状态评估的方法,从已知解反推。阿儿发GO应该
也有用这个,新意不大。
【在 d*****u 的大作中提到】 : DL有一定噱头成分,其实就是典型的RL : 不过可能特征空间比较大,层数比较多
|
d*****u 发帖数: 17243 | 26 不知道有没有人做这类问题。
现在神经网络主要用来做分类和回归,或者一些generative model
用来搞证明也许是一个新的方向,你可以试试。
神经网络的本质是一个灵活的高维输入函数
【在 l******r 的大作中提到】 : 那人工智能能证明下素数有无限个吗? : 人类初中生都会的reasoning。
|
d*****u 发帖数: 17243 | 27 是啊。但是reward跟输入和状态相关,所以通过reward来backpropagate gradients到
参数就起到了筛选特征的作用,所以可以减少暴力度。
【在 h*****3 的大作中提到】 : 用RL就要暴力sample,nn在这种learning里面只是起到构造reward作用
|
h*****3 发帖数: 526 | 28 reward输出一定程度起到指导作用,bp出来的weight其实纯粹是构造一个高纬非线性函
数for reward。为了不丢失信息,再加一个逐渐递减的随机sampling。本质还是暴力
sample啊,只不过从100减到99或98
【在 d*****u 的大作中提到】 : 是啊。但是reward跟输入和状态相关,所以通过reward来backpropagate gradients到 : 参数就起到了筛选特征的作用,所以可以减少暴力度。
|
d*****u 发帖数: 17243 | 29 Supervised机器学习本质都是data fitting。
如果输入或状态的空间很小,其实没有特别约束参数的解法(包括暴力解法)是最好的。
但如果各种可能太多,需要训练一个系统来准确处理没见到过的数据。
对于一个N维二元向量,有2^N种赋值(输入),暴力解法必须都走一遍。但是现实中的
问题里,这N个维度有各种复杂的dependency,而神经网络可以较好地模拟这种
dependency,所以可以在训练数据不足的情况下也做出比较好的预测。不用有2^N个
instance
【在 h*****3 的大作中提到】 : reward输出一定程度起到指导作用,bp出来的weight其实纯粹是构造一个高纬非线性函 : 数for reward。为了不丢失信息,再加一个逐渐递减的随机sampling。本质还是暴力 : sample啊,只不过从100减到99或98
|
d***u 发帖数: 943 | 30
暴力没什么问题吧,我觉得NN的本质就是暴力。现在和过去的区别就是现在的暴力更强
大了。
学习好的一般都记忆力好,也是暴力的一种吧。
【在 h*****3 的大作中提到】 : reward输出一定程度起到指导作用,bp出来的weight其实纯粹是构造一个高纬非线性函 : 数for reward。为了不丢失信息,再加一个逐渐递减的随机sampling。本质还是暴力 : sample啊,只不过从100减到99或98
|
|
|
h*****3 发帖数: 526 | 31 嗯,但这是在学完之后
学的时候nn要最大化逼近sampled reward
学完了,用的时候,遇到没sample到的漏点,nn差值作用体现了。差值其实就是联想,
也是创造和推理
的。
【在 d*****u 的大作中提到】 : Supervised机器学习本质都是data fitting。 : 如果输入或状态的空间很小,其实没有特别约束参数的解法(包括暴力解法)是最好的。 : 但如果各种可能太多,需要训练一个系统来准确处理没见到过的数据。 : 对于一个N维二元向量,有2^N种赋值(输入),暴力解法必须都走一遍。但是现实中的 : 问题里,这N个维度有各种复杂的dependency,而神经网络可以较好地模拟这种 : dependency,所以可以在训练数据不足的情况下也做出比较好的预测。不用有2^N个 : instance
|
h*****3 发帖数: 526 | 32 嗯,没问题。盲人摸象,神仙也没办法
exploration and exploitation 不只在ai里面有,传统问题了
【在 d***u 的大作中提到】 : : 暴力没什么问题吧,我觉得NN的本质就是暴力。现在和过去的区别就是现在的暴力更强 : 大了。 : 学习好的一般都记忆力好,也是暴力的一种吧。
|
l******r 发帖数: 316 | 33 我完全不懂。但是对这个名字很不爽。
根本就不是智能,换个算法,根加强版的计算器没啥区别。
人类现在对智能是什么,怎么产生,运作的都不知道就妄想创造智能?完全就是忽悠老
百姓。
最根本的一点,计算机里所有的概念都是离散的,他怎么理解连续?
【在 d*****u 的大作中提到】 : 不知道有没有人做这类问题。 : 现在神经网络主要用来做分类和回归,或者一些generative model : 用来搞证明也许是一个新的方向,你可以试试。 : 神经网络的本质是一个灵活的高维输入函数
|
d***u 发帖数: 943 | 34
问题是在这种复杂度远远超出人类极限的问题上,exploration and exploitation 到
底能有多大的帮助?我觉得NN的理论从60年代就完整了,几经波折也没有新的理论突破
,这次也一样。但有一点儿不同,就是纯暴力。
【在 h*****3 的大作中提到】 : 嗯,没问题。盲人摸象,神仙也没办法 : exploration and exploitation 不只在ai里面有,传统问题了
|
d***u 发帖数: 943 | 35
名字确实是在误导,和人类的智能确实关系不大。要一定说有就是在一定意义上模仿人
的决策结果。
【在 l******r 的大作中提到】 : 我完全不懂。但是对这个名字很不爽。 : 根本就不是智能,换个算法,根加强版的计算器没啥区别。 : 人类现在对智能是什么,怎么产生,运作的都不知道就妄想创造智能?完全就是忽悠老 : 百姓。 : 最根本的一点,计算机里所有的概念都是离散的,他怎么理解连续?
|
h*****3 发帖数: 526 | 36 没有先验知识只能e&e
暴力探索
有大量先验知识(数据)
就可以暴力学
现在的实际上是已经暴力获取了以前需要暴力探索的数据,然后可以安心学了
没什么不好的,作出些关键应用,把行业热度funding保持下去就很好
【在 d***u 的大作中提到】 : : 名字确实是在误导,和人类的智能确实关系不大。要一定说有就是在一定意义上模仿人 : 的决策结果。
|
d*******9 发帖数: 1894 | 37 Congratulations
【在 d*****u 的大作中提到】 : 大致思路是用reinforcement learning : 通过反推过程来确定每个状态下各个Move的reward : 没有人为输入任何法则 : 训练后的系统可以解100%的魔方局,平均在30步
|
k******r 发帖数: 2300 | 38 解魔方用不着什么深度学习吧?解魔方类似sudoku,我老很多年前还觉得好玩还开发过
一个sudoku,我感觉解魔方应该差不多,可能更复杂一些。
【在 d*****u 的大作中提到】 : 大致思路是用reinforcement learning : 通过反推过程来确定每个状态下各个Move的reward : 没有人为输入任何法则 : 训练后的系统可以解100%的魔方局,平均在30步
|
t*****9 发帖数: 10416 | 39 这哪儿是DL,买魔方附送解法,不到1页纸的事体 ~~
【在 d*****u 的大作中提到】 : 大致思路是用reinforcement learning : 通过反推过程来确定每个状态下各个Move的reward : 没有人为输入任何法则 : 训练后的系统可以解100%的魔方局,平均在30步
|
d*****u 发帖数: 17243 | 40 不给你解法呢?正常智力的人有限时间内找不到。
这个机器通过观察找到了。
DL是个噱头。
【在 t*****9 的大作中提到】 : 这哪儿是DL,买魔方附送解法,不到1页纸的事体 ~~
|
|
|
s*****V 发帖数: 21731 | 41 这比alphaGo简单多了吧
【在 d*****u 的大作中提到】 : 大致思路是用reinforcement learning : 通过反推过程来确定每个状态下各个Move的reward : 没有人为输入任何法则 : 训练后的系统可以解100%的魔方局,平均在30步
|
d*****u 发帖数: 17243 | 42 不完全是一类问题。
当然总的来说我也觉得这个简单多了,所以一所大学实验室几个author就弄出来。
【在 s*****V 的大作中提到】 : 这比alphaGo简单多了吧
|
m**********e 发帖数: 12525 | 43 四川佬一惊一乍太鸡巴搞笑了
这问题很简单,就是定义一个势函数,同一面上颜色一致的块越多势越低,
然后定义温度,再定义与温度相关的随机转到,最后用monte carlo方法退
火搜索,
这个问题,难点在于怎么定义potential,别的都是我们吃剩下的
你妈的,你们的AI其实就我们物理学家发明的这么几招
【在 d*****u 的大作中提到】 : Intelligent Machines : A machine has figured out Rubik’s Cube all by itself : Unlike chess moves, changes to a Rubik’s Cube are hard to evaluate, which : is why deep-learning machines haven’t been able to solve the puzzle on : their own. Until now.
|
a****o 发帖数: 6612 | 44 魔方复原是NP问题,而且难度的增加是随魔方的阶数增加。三阶魔方的话,就更简单了。
魔方的任何一种解法,验算只需要P的难度。三阶魔方,暴力就可以解。
围棋是EXP问题。即使你给出下一步的解法,其验算的难度和计算下一步的难度是一样
的。
【在 s*****V 的大作中提到】 : 这比alphaGo简单多了吧
|
c****8 发帖数: 1 | 45 说说你老婆在白妞面前的心理感受
盹盹盹
[在 daigaku (๑۩۞۩๑) 的大作中提到:]
:大致思路是用reinforcement learning
:通过反推过程来确定每个状态下各个Move的reward
:没有人为输入任何法则
:训练后的系统可以解100%的魔方局,平均在30步 |
m**********e 发帖数: 12525 | 46 这是个屁问题,就是定义一个potential,然后寻找Potential的global min,
可以用annealing,也可以用GA,多如牛毛,
你妈的,也就码农还当个屁
了。
【在 a****o 的大作中提到】 : 魔方复原是NP问题,而且难度的增加是随魔方的阶数增加。三阶魔方的话,就更简单了。 : 魔方的任何一种解法,验算只需要P的难度。三阶魔方,暴力就可以解。 : 围棋是EXP问题。即使你给出下一步的解法,其验算的难度和计算下一步的难度是一样 : 的。
|
d*****u 发帖数: 17243 | 47 不懂的东西不要乱评论。Potential function方法大概5年前就过时了。(当然不是说
不存在了,而是换了一种思路)。
还有这只是一篇Arxiv paper,没人说是重大成果,一惊一乍的是你。
【在 m**********e 的大作中提到】 : 四川佬一惊一乍太鸡巴搞笑了 : 这问题很简单,就是定义一个势函数,同一面上颜色一致的块越多势越低, : 然后定义温度,再定义与温度相关的随机转到,最后用monte carlo方法退 : 火搜索, : 这个问题,难点在于怎么定义potential,别的都是我们吃剩下的 : 你妈的,你们的AI其实就我们物理学家发明的这么几招
|
d*****u 发帖数: 17243 | 48 别扯了。任何监督学习问题当然都是优化问题,问题是那么多变量你具体靠什么优化,
这才是核心。
【在 m**********e 的大作中提到】 : 这是个屁问题,就是定义一个potential,然后寻找Potential的global min, : 可以用annealing,也可以用GA,多如牛毛, : 你妈的,也就码农还当个屁 : : 了。
|
m**********e 发帖数: 12525 | 49 行了,
这算法是orphan的,只能准对特定事件,屁的AI
你们四川佬水平太差,看到现象看不穿本质
【在 d*****u 的大作中提到】 : 别扯了。任何监督学习问题当然都是优化问题,问题是那么多变量你具体靠什么优化, : 这才是核心。
|
a****o 发帖数: 6612 | 50 魔方是个NP问题,如果给出一个答案,那么验证这个答案的难度是魔方的阶数的多次方
程。三阶魔方的解,不需要AI就能搞出来。
如果AI能够给出一个证明,任何一个三阶魔方,最多多少步就能复原,那么这个解还有
点意思。
我记得好像数学上已经证明了,最多是不到25步,(可能最多是20步)。那么平均30步
的话,那么基本上可以认为这个AI根本还不够。--当然,我不清楚一步是怎么定义的。
我的理解是任何一层的90度的转动。
【在 d*****u 的大作中提到】 : 大致思路是用reinforcement learning : 通过反推过程来确定每个状态下各个Move的reward : 没有人为输入任何法则 : 训练后的系统可以解100%的魔方局,平均在30步
|
|
|
d*****u 发帖数: 17243 | 51 你们山越永远不开化,只会模仿从未超越。
任何神经网络模型都是针对具体的数据来训练,解决具体的问题。所以你说的都是废话
屁话。
【在 m**********e 的大作中提到】 : 行了, : 这算法是orphan的,只能准对特定事件,屁的AI : 你们四川佬水平太差,看到现象看不穿本质
|
a****o 发帖数: 6612 | 52 这个结果不算什么成果。如果能够给出一个严格正确的证明三阶魔方复原的最多步数,
倒是可以说是一个重大成果了。
【在 d*****u 的大作中提到】 : 不懂的东西不要乱评论。Potential function方法大概5年前就过时了。(当然不是说 : 不存在了,而是换了一种思路)。 : 还有这只是一篇Arxiv paper,没人说是重大成果,一惊一乍的是你。
|
d*****u 发帖数: 17243 | 53 他们应该没有找到最短路径。
Reinforcement learning不是搞全局优化,所以在有限训练时间内找不到最优路径是正
常的,但是能解了。
【在 a****o 的大作中提到】 : 魔方是个NP问题,如果给出一个答案,那么验证这个答案的难度是魔方的阶数的多次方 : 程。三阶魔方的解,不需要AI就能搞出来。 : 如果AI能够给出一个证明,任何一个三阶魔方,最多多少步就能复原,那么这个解还有 : 点意思。 : 我记得好像数学上已经证明了,最多是不到25步,(可能最多是20步)。那么平均30步 : 的话,那么基本上可以认为这个AI根本还不够。--当然,我不清楚一步是怎么定义的。 : 我的理解是任何一层的90度的转动。
|
d***u 发帖数: 943 | 54
了这个露点的检测就活了,真有点儿智能的意思了。
【在 h*****3 的大作中提到】 : 嗯,但这是在学完之后 : 学的时候nn要最大化逼近sampled reward : 学完了,用的时候,遇到没sample到的漏点,nn差值作用体现了。差值其实就是联想, : 也是创造和推理 : : 的。
|
d*****u 发帖数: 17243 | 55 他们的成果是训练出来一个可以解这个问题的模型。以前大概没有人用机器学习的方法
做过。
成果大不大看具体方法的新颖程度。比如去年有个用神经网络解数独的,虽然是没人做
过,但是他的方法没啥新意,投稿就被拒了。
【在 a****o 的大作中提到】 : 这个结果不算什么成果。如果能够给出一个严格正确的证明三阶魔方复原的最多步数, : 倒是可以说是一个重大成果了。
|
m**********e 发帖数: 12525 | 56 应该是严格证明三阶魔方的最大步数
【在 a****o 的大作中提到】 : 这个结果不算什么成果。如果能够给出一个严格正确的证明三阶魔方复原的最多步数, : 倒是可以说是一个重大成果了。
|
d*****u 发帖数: 17243 | 57 机器学习(不一定神经网络)都要求对新数据做出预测。
所以测试数据一般跟训练数据没有一样的。
【在 d***u 的大作中提到】 : : 了这个露点的检测就活了,真有点儿智能的意思了。
|
a****o 发帖数: 6612 | 58 三阶魔方的所有可能状态,在考虑对称性的情况下,我觉得是个非常有限的数目。应该
可以暴力求出来。那么,每一个状态复原的步数,也可以求出来。
虽然不是全局优化,对于三阶魔方来说,平均步数太多。而且不知道最多步数是多少。
这个最多步数应该是接近或者等于现在已经证明的任何一个魔方的最多复原步数的一个
上限。
【在 d*****u 的大作中提到】 : 他们应该没有找到最短路径。 : Reinforcement learning不是搞全局优化,所以在有限训练时间内找不到最优路径是正 : 常的,但是能解了。
|
a****o 发帖数: 6612 | 59 是。应该是最多只需要多少步。
【在 m**********e 的大作中提到】 : 应该是严格证明三阶魔方的最大步数
|
d***u 发帖数: 943 | 60
最短路径好像已经证明是26步,好像Rubic自己证明的
UCI这个方法我没看出来能证明最短路径
【在 d*****u 的大作中提到】 : 他们应该没有找到最短路径。 : Reinforcement learning不是搞全局优化,所以在有限训练时间内找不到最优路径是正 : 常的,但是能解了。
|
|
|
d*****u 发帖数: 17243 | 61 简单的暴力恐怕还是有点难。
如果上限是20步,要实验的状态还是很多的。
【在 a****o 的大作中提到】 : 三阶魔方的所有可能状态,在考虑对称性的情况下,我觉得是个非常有限的数目。应该 : 可以暴力求出来。那么,每一个状态复原的步数,也可以求出来。 : 虽然不是全局优化,对于三阶魔方来说,平均步数太多。而且不知道最多步数是多少。 : 这个最多步数应该是接近或者等于现在已经证明的任何一个魔方的最多复原步数的一个 : 上限。
|
I***8 发帖数: 1 | 62 三阶的最多七步
★ 发自iPhone App: ChinaWeb 1.1.4
【在 g******t 的大作中提到】 : 人最快多少步
|
d***u 发帖数: 943 | 63
这个我知道,我是说从这个意义上叫它智能也有一定道理,只是和人的智能不一样而已
不只是函数模拟curve fitting, 也可以根据新情况自学习了
【在 d*****u 的大作中提到】 : 机器学习(不一定神经网络)都要求对新数据做出预测。 : 所以测试数据一般跟训练数据没有一样的。
|
a****o 发帖数: 6612 | 64 魔方的对称性很强啊。8个顶点位置,每个位置三个状态,12个中间位置,每个位置两
个状态。不考虑任何对称性,总数目是5.19E20
【在 d*****u 的大作中提到】 : 简单的暴力恐怕还是有点难。 : 如果上限是20步,要实验的状态还是很多的。
|
h*****3 发帖数: 526 | 65 最终的联想推理创造,不一定是类人的
映射到机器域,可能就是差值,有误差预测
【在 d***u 的大作中提到】 : : 这个我知道,我是说从这个意义上叫它智能也有一定道理,只是和人的智能不一样而已 : 不只是函数模拟curve fitting, 也可以根据新情况自学习了
|
d*****u 发帖数: 17243 | 66 你这个是每一步的状态吧(我没验算)。
简单的暴力解法要找出每个状态下的合理Decision
而不知道技巧的时候这个Decision的合理性只能通过彻底解决来验证,所以还是步长的
指数次(但是每个decision是有限的,不是状态数为底)
【在 a****o 的大作中提到】 : 魔方的对称性很强啊。8个顶点位置,每个位置三个状态,12个中间位置,每个位置两 : 个状态。不考虑任何对称性,总数目是5.19E20
|
s*****V 发帖数: 21731 | 67 魔方只有简单的几条rule,深度学习理论上学习出来这几条规则不是很难。跟围棋相比
,魔方的难度是魔方的rule distribution很sharp,错一点就不行。 网络可以生成大
量的successful path, 然后任意一个start point 进行search, 只有能达到其中一个
就可以。但是神经网络是统计模型,一般不会是100%的选一个,所以搞出来不一定是最
短路径
【在 d*****u 的大作中提到】 : 你这个是每一步的状态吧(我没验算)。 : 简单的暴力解法要找出每个状态下的合理Decision : 而不知道技巧的时候这个Decision的合理性只能通过彻底解决来验证,所以还是步长的 : 指数次(但是每个decision是有限的,不是状态数为底)
|
w***u 发帖数: 17713 | 68 不通过SO(3)搞矩阵,暴力学习还是很牛的,反正是某些方面超越了人类。 |
h*********2 发帖数: 1 | 69 应该问最慢多少步
答案是20
【在 g******t 的大作中提到】 : 人最快多少步
|