大致思路是用reinforcement - Military版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Military版 - 大致思路是用reinforcement

相关主题
● 机械手解魔方	● 北美华人信的基督教是三阶赝品
● 那个围棋程序用的什么模型？	● 三阶导数为零的点在3.28号出现了
● Google围棋击败职业选手，即将挑战李世石 (转载)	● 国产大飞机C919唯一西方发动机正式确定
● AI里面重要分支reinforce learning，完全不是统计	● 大三生攻克国际数学难题
● 围棋象棋输给计算机，为啥有些人像死了爹似的？	● 中南大学22岁学生成最年轻正教授级研究员
● 河北新闻网：“科研英雄”背后社会舆论的悲哀 (转载)	● 神舟着陆确实太土了
● 人类能发明一种AI永远也赢不了的棋吗？	● 飞机落地后制动靠闸还是发动机反转？
● 我发明的即时制围棋	● 1969年登月而返——愚众谎言的最高境界

相关话题的讨论汇总
话题: 魔方话题: 暴力话题: 状态话题: 思路

进入Military版参与讨论

(共1页)

d*****u
发帖数: 17243

大致思路是用reinforcement learning
通过反推过程来确定每个状态下各个Move的reward
没有人为输入任何法则
训练后的系统可以解100%的魔方局，平均在30步

d*****u
发帖数: 17243

Intelligent Machines
A machine has figured out Rubik’s Cube all by itself
Unlike chess moves, changes to a Rubik’s Cube are hard to evaluate, which
is why deep-learning machines haven’t been able to solve the puzzle on
their own. Until now.

【在 d*****u 的大作中提到】

: 大致思路是用reinforcement learning
: 通过反推过程来确定每个状态下各个Move的reward
: 没有人为输入任何法则
: 训练后的系统可以解100%的魔方局，平均在30步

e****w
发帖数: 1565

.....有链接嘛...

g******t
发帖数: 11249

人最快多少步

【在 d*****u 的大作中提到】

S******D
发帖数: 8437

我现在只能弄好一面。。。

【在 d*****u 的大作中提到】

d****o
发帖数: 32610

这个就不该用DL

【在 d*****u 的大作中提到】

z*****2
发帖数: 4

有10来步的通解，无论起始状态是什么。

【在 g******t 的大作中提到】

: 人最快多少步

d*****u
发帖数: 17243

全文在这里
https://www.technologyreview.com/s/611281/a-machine-has-figured-out-rubiks-
cube-all-by-itself/

【在 e****w 的大作中提到】

: .....有链接嘛...

d*****u
发帖数: 17243

DL有一定噱头成分，其实就是典型的RL
不过可能特征空间比较大，层数比较多

【在 d****o 的大作中提到】

: 这个就不该用DL

F*********u
发帖数: 12190

跟machine learning自己学会玩breakout比难度大多少？

【在 d*****u 的大作中提到】

相关主题
● 河北新闻网：“科研英雄”背后社会舆论的悲哀 (转载)	● 北美华人信的基督教是三阶赝品
● 人类能发明一种AI永远也赢不了的棋吗？	● 三阶导数为零的点在3.28号出现了
● 我发明的即时制围棋	● 国产大飞机C919唯一西方发动机正式确定
进入Military版参与讨论

d**s
发帖数: 4741

本质还是线性代数？

【在 d*****u 的大作中提到】

: DL有一定噱头成分，其实就是典型的RL
: 不过可能特征空间比较大，层数比较多

d*****u
发帖数: 17243

所谓神经网络都是矩阵乘法加上一个非线性变换，一层一层上去

【在 d**s 的大作中提到】

: 本质还是线性代数？

d**s
发帖数: 4741

那个非线性变换长什么样？

【在 d*****u 的大作中提到】

: 所谓神经网络都是矩阵乘法加上一个非线性变换，一层一层上去

d*****u
发帖数: 17243

最常用的是sigmoid, tanh, relu这几个
分类器的话，最顶端一般是softmax

【在 d**s 的大作中提到】

: 那个非线性变换长什么样？

F*********u
发帖数: 12190

https://towardsdatascience.com/activation-functions-neural-networks-
1cbd9f8d91d6

【在 d**s 的大作中提到】

: 那个非线性变换长什么样？

a******9
发帖数: 20431

艹我还以为早就解完了这种有边界的， discrete choice的决策问题全都可以用MDP
来找解

：大致思路是用reinforcement learning
：通过反推过程来确定每个状态下各个Move的reward

d*****u
发帖数: 17243

这个大概状态空间太大，intractable
数独和chess之类的是可以。

MDP

【在 a******9 的大作中提到】

: 艹我还以为早就解完了这种有边界的， discrete choice的决策问题全都可以用MDP
: 来找解
:
: ：大致思路是用reinforcement learning
: ：通过反推过程来确定每个状态下各个Move的reward

d***u
发帖数: 943

确实很巧妙，但只对已知确定解的问题有效，不具通用性。

【在 d*****u 的大作中提到】

h*****3
发帖数: 526

本质上把大空间全sample一遍，用NN记下
草，实质上还是一个bruteforce

【在 d*****u 的大作中提到】

: DL有一定噱头成分，其实就是典型的RL
: 不过可能特征空间比较大，层数比较多

l******r
发帖数: 316

有啥用？一个so(3)变换群，在人类的知识库里基础的不能再基础的东西。
人工智能就知道吹。

【在 d*****u 的大作中提到】

相关主题
● 大三生攻克国际数学难题	● 飞机落地后制动靠闸还是发动机反转？
● 中南大学22岁学生成最年轻正教授级研究员	● 1969年登月而返——愚众谎言的最高境界
● 神舟着陆确实太土了	● 物理很多理论都是屎，尤其相对论
进入Military版参与讨论

d*****u
发帖数: 17243

显然不是用的暴力解法。否则就算解出来也没有价值。
NN的一个妙处就是可以找manifold

【在 h*****3 的大作中提到】

: 本质上把大空间全sample一遍，用NN记下
: 草，实质上还是一个bruteforce

d*****u
发帖数: 17243

这个是用有限的时间找规则，模拟人类的reasoning.
Reasoning如果表达起来其实是简单的数学

【在 l******r 的大作中提到】

: 有啥用？一个so(3)变换群，在人类的知识库里基础的不能再基础的东西。
: 人工智能就知道吹。

l******r
发帖数: 316

那人工智能能证明下素数有无限个吗？
人类初中生都会的reasoning。

【在 d*****u 的大作中提到】

: 这个是用有限的时间找规则，模拟人类的reasoning.
: Reasoning如果表达起来其实是简单的数学

h*****3
发帖数: 526

用RL就要暴力sample，nn在这种learning里面只是起到构造reward作用

【在 d*****u 的大作中提到】

: 显然不是用的暴力解法。否则就算解出来也没有价值。
: NN的一个妙处就是可以找manifold

d***u
发帖数: 943

就是RL，不是新方法。他们给了一种状态评估的方法，从已知解反推。阿儿发GO应该
也有用这个，新意不大。

【在 d*****u 的大作中提到】

: DL有一定噱头成分，其实就是典型的RL
: 不过可能特征空间比较大，层数比较多

d*****u
发帖数: 17243

不知道有没有人做这类问题。
现在神经网络主要用来做分类和回归，或者一些generative model
用来搞证明也许是一个新的方向，你可以试试。
神经网络的本质是一个灵活的高维输入函数

【在 l******r 的大作中提到】

: 那人工智能能证明下素数有无限个吗？
: 人类初中生都会的reasoning。

d*****u
发帖数: 17243

是啊。但是reward跟输入和状态相关，所以通过reward来backpropagate gradients到
参数就起到了筛选特征的作用，所以可以减少暴力度。

【在 h*****3 的大作中提到】

: 用RL就要暴力sample，nn在这种learning里面只是起到构造reward作用

h*****3
发帖数: 526

reward输出一定程度起到指导作用，bp出来的weight其实纯粹是构造一个高纬非线性函
数for reward。为了不丢失信息，再加一个逐渐递减的随机sampling。本质还是暴力
sample啊，只不过从100减到99或98

【在 d*****u 的大作中提到】

: 是啊。但是reward跟输入和状态相关，所以通过reward来backpropagate gradients到
: 参数就起到了筛选特征的作用，所以可以减少暴力度。

d*****u
发帖数: 17243

Supervised机器学习本质都是data fitting。
如果输入或状态的空间很小，其实没有特别约束参数的解法（包括暴力解法）是最好的。
但如果各种可能太多，需要训练一个系统来准确处理没见到过的数据。
对于一个N维二元向量，有2^N种赋值（输入），暴力解法必须都走一遍。但是现实中的
问题里，这N个维度有各种复杂的dependency，而神经网络可以较好地模拟这种
dependency，所以可以在训练数据不足的情况下也做出比较好的预测。不用有2^N个
instance

【在 h*****3 的大作中提到】

: reward输出一定程度起到指导作用，bp出来的weight其实纯粹是构造一个高纬非线性函
: 数for reward。为了不丢失信息，再加一个逐渐递减的随机sampling。本质还是暴力
: sample啊，只不过从100减到99或98

d***u
发帖数: 943

暴力没什么问题吧，我觉得NN的本质就是暴力。现在和过去的区别就是现在的暴力更强
大了。
学习好的一般都记忆力好，也是暴力的一种吧。

【在 h*****3 的大作中提到】

相关主题
● 南海仲裁判决的弱智之处反推越南靠向中国	● 那个围棋程序用的什么模型？
● 他妈的现役战斗机哪有反推的	● Google围棋击败职业选手，即将挑战李世石 (转载)
● 机械手解魔方	● AI里面重要分支reinforce learning，完全不是统计
进入Military版参与讨论

h*****3
发帖数: 526

嗯，但这是在学完之后
学的时候nn要最大化逼近sampled reward
学完了，用的时候，遇到没sample到的漏点，nn差值作用体现了。差值其实就是联想，
也是创造和推理

的。

【在 d*****u 的大作中提到】

: Supervised机器学习本质都是data fitting。
: 如果输入或状态的空间很小，其实没有特别约束参数的解法（包括暴力解法）是最好的。
: 但如果各种可能太多，需要训练一个系统来准确处理没见到过的数据。
: 对于一个N维二元向量，有2^N种赋值（输入），暴力解法必须都走一遍。但是现实中的
: 问题里，这N个维度有各种复杂的dependency，而神经网络可以较好地模拟这种
: dependency，所以可以在训练数据不足的情况下也做出比较好的预测。不用有2^N个
: instance

h*****3
发帖数: 526

嗯，没问题。盲人摸象，神仙也没办法
exploration and exploitation 不只在ai里面有，传统问题了

【在 d***u 的大作中提到】

:
: 暴力没什么问题吧，我觉得NN的本质就是暴力。现在和过去的区别就是现在的暴力更强
: 大了。
: 学习好的一般都记忆力好，也是暴力的一种吧。

l******r
发帖数: 316

我完全不懂。但是对这个名字很不爽。
根本就不是智能，换个算法，根加强版的计算器没啥区别。
人类现在对智能是什么，怎么产生，运作的都不知道就妄想创造智能？完全就是忽悠老
百姓。
最根本的一点，计算机里所有的概念都是离散的，他怎么理解连续？

【在 d*****u 的大作中提到】

: 不知道有没有人做这类问题。
: 现在神经网络主要用来做分类和回归，或者一些generative model
: 用来搞证明也许是一个新的方向，你可以试试。
: 神经网络的本质是一个灵活的高维输入函数

d***u
发帖数: 943

问题是在这种复杂度远远超出人类极限的问题上，exploration and exploitation 到
底能有多大的帮助？我觉得NN的理论从60年代就完整了，几经波折也没有新的理论突破
，这次也一样。但有一点儿不同，就是纯暴力。

【在 h*****3 的大作中提到】

: 嗯，没问题。盲人摸象，神仙也没办法
: exploration and exploitation 不只在ai里面有，传统问题了

d***u
发帖数: 943

名字确实是在误导，和人类的智能确实关系不大。要一定说有就是在一定意义上模仿人
的决策结果。

【在 l******r 的大作中提到】

: 我完全不懂。但是对这个名字很不爽。
: 根本就不是智能，换个算法，根加强版的计算器没啥区别。
: 人类现在对智能是什么，怎么产生，运作的都不知道就妄想创造智能？完全就是忽悠老
: 百姓。
: 最根本的一点，计算机里所有的概念都是离散的，他怎么理解连续？

h*****3
发帖数: 526

没有先验知识只能e&e
暴力探索
有大量先验知识（数据）
就可以暴力学
现在的实际上是已经暴力获取了以前需要暴力探索的数据，然后可以安心学了
没什么不好的，作出些关键应用，把行业热度funding保持下去就很好

【在 d***u 的大作中提到】

:
: 名字确实是在误导，和人类的智能确实关系不大。要一定说有就是在一定意义上模仿人
: 的决策结果。

d*******9
发帖数: 1894

Congratulations

【在 d*****u 的大作中提到】

k******r
发帖数: 2300

解魔方用不着什么深度学习吧？解魔方类似sudoku，我老很多年前还觉得好玩还开发过
一个sudoku，我感觉解魔方应该差不多，可能更复杂一些。

【在 d*****u 的大作中提到】

t*****9
发帖数: 10416

这哪儿是DL，买魔方附送解法，不到1页纸的事体～～

【在 d*****u 的大作中提到】

d*****u
发帖数: 17243

不给你解法呢？正常智力的人有限时间内找不到。
这个机器通过观察找到了。
DL是个噱头。

【在 t*****9 的大作中提到】

: 这哪儿是DL，买魔方附送解法，不到1页纸的事体～～

相关主题
● AI里面重要分支reinforce learning，完全不是统计	● 人类能发明一种AI永远也赢不了的棋吗？
● 围棋象棋输给计算机，为啥有些人像死了爹似的？	● 我发明的即时制围棋
● 河北新闻网：“科研英雄”背后社会舆论的悲哀 (转载)	● 北美华人信的基督教是三阶赝品
进入Military版参与讨论

s*****V
发帖数: 21731

这比alphaGo简单多了吧

【在 d*****u 的大作中提到】

d*****u
发帖数: 17243

不完全是一类问题。
当然总的来说我也觉得这个简单多了，所以一所大学实验室几个author就弄出来。

【在 s*****V 的大作中提到】

: 这比alphaGo简单多了吧

m**********e
发帖数: 12525

四川佬一惊一乍太鸡巴搞笑了
这问题很简单，就是定义一个势函数，同一面上颜色一致的块越多势越低，
然后定义温度，再定义与温度相关的随机转到，最后用monte carlo方法退
火搜索，
这个问题，难点在于怎么定义potential，别的都是我们吃剩下的
你妈的，你们的AI其实就我们物理学家发明的这么几招

【在 d*****u 的大作中提到】

: Intelligent Machines
: A machine has figured out Rubik’s Cube all by itself
: Unlike chess moves, changes to a Rubik’s Cube are hard to evaluate, which
: is why deep-learning machines haven’t been able to solve the puzzle on
: their own. Until now.

a****o
发帖数: 6612

魔方复原是NP问题，而且难度的增加是随魔方的阶数增加。三阶魔方的话，就更简单了。
魔方的任何一种解法，验算只需要P的难度。三阶魔方，暴力就可以解。
围棋是EXP问题。即使你给出下一步的解法，其验算的难度和计算下一步的难度是一样
的。

【在 s*****V 的大作中提到】

: 这比alphaGo简单多了吧

c****8
发帖数: 1

说说你老婆在白妞面前的心理感受
盹盹盹
[在 daigaku (๑۩۞۩๑) 的大作中提到：]
:大致思路是用reinforcement learning
:通过反推过程来确定每个状态下各个Move的reward
:没有人为输入任何法则
:训练后的系统可以解100%的魔方局，平均在30步

m**********e
发帖数: 12525

这是个屁问题，就是定义一个potential,然后寻找Potential的global min，
可以用annealing，也可以用GA，多如牛毛，
你妈的，也就码农还当个屁

了。

【在 a****o 的大作中提到】

: 魔方复原是NP问题，而且难度的增加是随魔方的阶数增加。三阶魔方的话，就更简单了。
: 魔方的任何一种解法，验算只需要P的难度。三阶魔方，暴力就可以解。
: 围棋是EXP问题。即使你给出下一步的解法，其验算的难度和计算下一步的难度是一样
: 的。

d*****u
发帖数: 17243

不懂的东西不要乱评论。Potential function方法大概5年前就过时了。（当然不是说
不存在了，而是换了一种思路）。
还有这只是一篇Arxiv paper，没人说是重大成果，一惊一乍的是你。

【在 m**********e 的大作中提到】

: 四川佬一惊一乍太鸡巴搞笑了
: 这问题很简单，就是定义一个势函数，同一面上颜色一致的块越多势越低，
: 然后定义温度，再定义与温度相关的随机转到，最后用monte carlo方法退
: 火搜索，
: 这个问题，难点在于怎么定义potential，别的都是我们吃剩下的
: 你妈的，你们的AI其实就我们物理学家发明的这么几招

d*****u
发帖数: 17243

别扯了。任何监督学习问题当然都是优化问题，问题是那么多变量你具体靠什么优化，
这才是核心。

【在 m**********e 的大作中提到】

: 这是个屁问题，就是定义一个potential,然后寻找Potential的global min，
: 可以用annealing，也可以用GA，多如牛毛，
: 你妈的，也就码农还当个屁
:
: 了。

m**********e
发帖数: 12525

行了，
这算法是orphan的，只能准对特定事件，屁的AI
你们四川佬水平太差，看到现象看不穿本质

【在 d*****u 的大作中提到】

: 别扯了。任何监督学习问题当然都是优化问题，问题是那么多变量你具体靠什么优化，
: 这才是核心。

a****o
发帖数: 6612

魔方是个NP问题，如果给出一个答案，那么验证这个答案的难度是魔方的阶数的多次方
程。三阶魔方的解，不需要AI就能搞出来。
如果AI能够给出一个证明，任何一个三阶魔方，最多多少步就能复原，那么这个解还有
点意思。
我记得好像数学上已经证明了，最多是不到25步，（可能最多是20步）。那么平均30步
的话，那么基本上可以认为这个AI根本还不够。--当然，我不清楚一步是怎么定义的。
我的理解是任何一层的90度的转动。

【在 d*****u 的大作中提到】

相关主题
● 三阶导数为零的点在3.28号出现了	● 中南大学22岁学生成最年轻正教授级研究员
● 国产大飞机C919唯一西方发动机正式确定	● 神舟着陆确实太土了
● 大三生攻克国际数学难题	● 飞机落地后制动靠闸还是发动机反转？
进入Military版参与讨论

d*****u
发帖数: 17243

你们山越永远不开化，只会模仿从未超越。
任何神经网络模型都是针对具体的数据来训练，解决具体的问题。所以你说的都是废话
屁话。

【在 m**********e 的大作中提到】

: 行了，
: 这算法是orphan的，只能准对特定事件，屁的AI
: 你们四川佬水平太差，看到现象看不穿本质

a****o
发帖数: 6612

这个结果不算什么成果。如果能够给出一个严格正确的证明三阶魔方复原的最多步数，
倒是可以说是一个重大成果了。

【在 d*****u 的大作中提到】

: 不懂的东西不要乱评论。Potential function方法大概5年前就过时了。（当然不是说
: 不存在了，而是换了一种思路）。
: 还有这只是一篇Arxiv paper，没人说是重大成果，一惊一乍的是你。

d*****u
发帖数: 17243

他们应该没有找到最短路径。
Reinforcement learning不是搞全局优化，所以在有限训练时间内找不到最优路径是正
常的，但是能解了。

【在 a****o 的大作中提到】

: 魔方是个NP问题，如果给出一个答案，那么验证这个答案的难度是魔方的阶数的多次方
: 程。三阶魔方的解，不需要AI就能搞出来。
: 如果AI能够给出一个证明，任何一个三阶魔方，最多多少步就能复原，那么这个解还有
: 点意思。
: 我记得好像数学上已经证明了，最多是不到25步，（可能最多是20步）。那么平均30步
: 的话，那么基本上可以认为这个AI根本还不够。--当然，我不清楚一步是怎么定义的。
: 我的理解是任何一层的90度的转动。

d***u
发帖数: 943

了这个露点的检测就活了，真有点儿智能的意思了。

【在 h*****3 的大作中提到】

: 嗯，但这是在学完之后
: 学的时候nn要最大化逼近sampled reward
: 学完了，用的时候，遇到没sample到的漏点，nn差值作用体现了。差值其实就是联想，
: 也是创造和推理
:
: 的。

d*****u
发帖数: 17243

他们的成果是训练出来一个可以解这个问题的模型。以前大概没有人用机器学习的方法
做过。
成果大不大看具体方法的新颖程度。比如去年有个用神经网络解数独的，虽然是没人做
过，但是他的方法没啥新意，投稿就被拒了。

【在 a****o 的大作中提到】

: 这个结果不算什么成果。如果能够给出一个严格正确的证明三阶魔方复原的最多步数，
: 倒是可以说是一个重大成果了。

m**********e
发帖数: 12525

应该是严格证明三阶魔方的最大步数

【在 a****o 的大作中提到】

: 这个结果不算什么成果。如果能够给出一个严格正确的证明三阶魔方复原的最多步数，
: 倒是可以说是一个重大成果了。

d*****u
发帖数: 17243

机器学习（不一定神经网络）都要求对新数据做出预测。
所以测试数据一般跟训练数据没有一样的。

【在 d***u 的大作中提到】

:
: 了这个露点的检测就活了，真有点儿智能的意思了。

a****o
发帖数: 6612

三阶魔方的所有可能状态，在考虑对称性的情况下，我觉得是个非常有限的数目。应该
可以暴力求出来。那么，每一个状态复原的步数，也可以求出来。
虽然不是全局优化，对于三阶魔方来说，平均步数太多。而且不知道最多步数是多少。
这个最多步数应该是接近或者等于现在已经证明的任何一个魔方的最多复原步数的一个
上限。

【在 d*****u 的大作中提到】

: 他们应该没有找到最短路径。
: Reinforcement learning不是搞全局优化，所以在有限训练时间内找不到最优路径是正
: 常的，但是能解了。

a****o
发帖数: 6612

是。应该是最多只需要多少步。

【在 m**********e 的大作中提到】

: 应该是严格证明三阶魔方的最大步数

d***u
发帖数: 943

最短路径好像已经证明是26步，好像Rubic自己证明的
UCI这个方法我没看出来能证明最短路径

【在 d*****u 的大作中提到】

: 他们应该没有找到最短路径。
: Reinforcement learning不是搞全局优化，所以在有限训练时间内找不到最优路径是正
: 常的，但是能解了。

相关主题
● 1969年登月而返——愚众谎言的最高境界	● 他妈的现役战斗机哪有反推的
● 物理很多理论都是屎，尤其相对论	● 机械手解魔方
● 南海仲裁判决的弱智之处反推越南靠向中国	● 那个围棋程序用的什么模型？
进入Military版参与讨论

d*****u
发帖数: 17243

简单的暴力恐怕还是有点难。
如果上限是20步，要实验的状态还是很多的。

【在 a****o 的大作中提到】

: 三阶魔方的所有可能状态，在考虑对称性的情况下，我觉得是个非常有限的数目。应该
: 可以暴力求出来。那么，每一个状态复原的步数，也可以求出来。
: 虽然不是全局优化，对于三阶魔方来说，平均步数太多。而且不知道最多步数是多少。
: 这个最多步数应该是接近或者等于现在已经证明的任何一个魔方的最多复原步数的一个
: 上限。

I***8
发帖数: 1

三阶的最多七步

★ 发自iPhone App: ChinaWeb 1.1.4

【在 g******t 的大作中提到】

: 人最快多少步

d***u
发帖数: 943

这个我知道，我是说从这个意义上叫它智能也有一定道理，只是和人的智能不一样而已
不只是函数模拟curve fitting, 也可以根据新情况自学习了

【在 d*****u 的大作中提到】

: 机器学习（不一定神经网络）都要求对新数据做出预测。
: 所以测试数据一般跟训练数据没有一样的。

a****o
发帖数: 6612

魔方的对称性很强啊。8个顶点位置，每个位置三个状态，12个中间位置，每个位置两
个状态。不考虑任何对称性，总数目是5.19E20

【在 d*****u 的大作中提到】

: 简单的暴力恐怕还是有点难。
: 如果上限是20步，要实验的状态还是很多的。

h*****3
发帖数: 526

最终的联想推理创造，不一定是类人的
映射到机器域，可能就是差值，有误差预测

【在 d***u 的大作中提到】

:
: 这个我知道，我是说从这个意义上叫它智能也有一定道理，只是和人的智能不一样而已
: 不只是函数模拟curve fitting, 也可以根据新情况自学习了

d*****u
发帖数: 17243

你这个是每一步的状态吧（我没验算）。
简单的暴力解法要找出每个状态下的合理Decision
而不知道技巧的时候这个Decision的合理性只能通过彻底解决来验证，所以还是步长的
指数次（但是每个decision是有限的，不是状态数为底）

【在 a****o 的大作中提到】

: 魔方的对称性很强啊。8个顶点位置，每个位置三个状态，12个中间位置，每个位置两
: 个状态。不考虑任何对称性，总数目是5.19E20

s*****V
发帖数: 21731

魔方只有简单的几条rule，深度学习理论上学习出来这几条规则不是很难。跟围棋相比
，魔方的难度是魔方的rule distribution很sharp，错一点就不行。网络可以生成大
量的successful path, 然后任意一个start point 进行search, 只有能达到其中一个
就可以。但是神经网络是统计模型，一般不会是100%的选一个，所以搞出来不一定是最
短路径

【在 d*****u 的大作中提到】

: 你这个是每一步的状态吧（我没验算）。
: 简单的暴力解法要找出每个状态下的合理Decision
: 而不知道技巧的时候这个Decision的合理性只能通过彻底解决来验证，所以还是步长的
: 指数次（但是每个decision是有限的，不是状态数为底）

w***u
发帖数: 17713

不通过SO(3)搞矩阵，暴力学习还是很牛的，反正是某些方面超越了人类。

h*********2
发帖数: 1

应该问最慢多少步
答案是20

【在 g******t 的大作中提到】

: 人最快多少步

(共1页)

进入Military版参与讨论

相关主题
● 1969年登月而返——愚众谎言的最高境界	● 围棋象棋输给计算机，为啥有些人像死了爹似的？
● 物理很多理论都是屎，尤其相对论	● 河北新闻网：“科研英雄”背后社会舆论的悲哀 (转载)
● 南海仲裁判决的弱智之处反推越南靠向中国	● 人类能发明一种AI永远也赢不了的棋吗？
● 他妈的现役战斗机哪有反推的	● 我发明的即时制围棋
● 机械手解魔方	● 北美华人信的基督教是三阶赝品
● 那个围棋程序用的什么模型？	● 三阶导数为零的点在3.28号出现了
● Google围棋击败职业选手，即将挑战李世石 (转载)	● 国产大飞机C919唯一西方发动机正式确定
● AI里面重要分支reinforce learning，完全不是统计	● 大三生攻克国际数学难题

相关话题的讨论汇总
话题: 魔方话题: 暴力话题: 状态话题: 思路

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天