第317章 人类大脑大模型
作者:乌鸦一号 更新:2024-11-20 02:35
()当林甲在海口陆续见车企高管的时候,此时的陈元光已经去燕京做一个详细报告了。
老中内部关于技术开源的声音很大。
原因很简单,无论是外部力量还是内部民营企业的力量,都希望技术能够开源。
如果单纯只是采取合作的方式,那谁先谁后,谁能合作,谁不能,这存在很大变数。
Robin虽然公开表示百度和光甲航天是战略合作伙伴关系,可他们是否能够在这一轮无人驾驶中获得先机,他内心实际是没有底的。
哪怕在接受采访的时候说的言之凿凿。
和存在很大不确定性的黑箱比起来,民营企业们自然更希望技术开源,这意味着技术本身也掌握在他们手里。
而持这类观点的官僚们也有很强的理论支撑,互联网技术向来开源,阿美利肯关于人工智能技术的路线和源代码从来都没有藏着掖着。
再加上陈元光都认为技术应该开源,我们应该听专业人士的意见,有谁比主导技术研究的陈元光更有说服力的吗?
这类观点一直都有,只是不太敢公开表示自己的观点,最多只是在小圈子范围内说两句。
当大家知道陈元光给燕京方面的公开意见后,大家的讨论声才开始大起来。
也敢通过南华早报对外放话。
南华早报也好,联合日报也好,可以看成是一个非官方的放话渠道,希望从外部营造舆论来在内部达成自己的目的,只是随着东大国力增强,这种方式的效果越来越不好罢了。
林甲在海口开会,陈元光在燕京开会。
“大家好,我想各位应该都对最近在申海的机器人司机有所了解,网上有着各种各样的说法。
该机器人叫铁蛋,并不是老外所说的终结者。
我们内部从立项开始,就一直有跟相关方面沟通,从铁蛋在测试路段测试,到和工信部、交通运输部等部门沟通,获得他们的批准。
包括后续在城市路段作为网约车正式营运,同样的有和相关部门沟通,铁蛋甚至获得了应该是全球唯一一张机器人驾照。
这都和交通管理部门进行了充分沟通。”
陈元光说,他想着先介绍一下来龙去脉。
“然后我想讲一下底层技术,它其实不是无人驾驶,准确来说它是人类大脑大模型。
我们内部简称为HBM。
大家都对前几年的ChatGPT不陌生,这一类模型统称为Large Language Model,中文简称是大模型。
更准确来说应该是大语言模型。
输入语言,输出语言,虽说后续它的输出内容从语言文本进化到了图像、表格甚至是视频。
这些本质输出的仍然是数据,无非是从结构化数据的排列组合变成了非结构化数据。而大模型输入的也是数据,是互联网上现有的数据
而我们这次做的HBM,是把人类脑电波输入,训练大模型,它通过机器身体作为载体,最终实现对现实世界的影响。
以铁蛋为例,我们聚集了超过10万个小时的网约车司机的脑电波,然后将这些数据喂给HBM,它在经过自我训练之后,把数据中的杂质去除,通过机器身体开始输出。
先在测试场地跑,然后在测试路段跑,然后在规定区域跑,最后没有限制地跑。
训练HBM用的也是数据,但不是文本类数据,是人的大脑。
大家可以看成人的大脑被抽象出数据,最终输入到HBM中。
因此无人驾驶只是它的应用之一,就像大模型输出文本只是最开始的应用,很快他们就开始输出图像,输出视频,输出表格。
同样的,我们未来HBM的应用场景也会有很多,单纯用来做无人驾驶从成本端来说并不划算。
无人驾驶只是类似ChatGPT最早亮相,只是打个样而已。”
在座的人都面面相觑,哪怕是和HBM有关的监管部门,大家都对技术底层没有什么了解,大家以为只是无人驾驶技术而已。
现在来看,这技术可要比他们以为的无人驾驶值钱得多。
如果仅仅只是无人驾驶,各家和l4相差都不远。
是完全有可能通过硬件来弥补的。
像很多新能源车企都在搞的光学卫星组网,从硬件层面来弥补算法的缺陷,离L4的差距已经很小了。
因此开源这项技术,对老中来说没太大损失,还可以把原本没有那么热衷于搞新能源的阿美利肯、欧洲和霓虹强行拉入到新能源车赛道中来。
油车在无人驾驶上有着天然缺陷。
但如果是像陈元光所说,那从根本上大家的观点都要经过一次重塑。
“元光,我对人工智能技术是彻头彻尾的门外汉,虽然听你们这些专家讲过很多课,但对专业的认识还是和你们有很大差距。
我想问下,它的应用场景有哪些,你可以简单说一下吗?
另外就是在军事领域的话,它能做到什么。”
陈元光说:“HBM是可以进化的。
不同工种的技术难度不同,比如建筑工人、纺织业工人,这类简单机械重复,它是完全能胜任。
司机的含金量稍微高一点,现在来看它胜任的也不错。
对于电工、钳工这些精度要求更高的工种,它去胜任不仅仅需要算法的进化,还需要硬件层面的进化,像负责视觉的摄像头精度的提高,手指上力传感器的精度提高等等。
包括它的大脑算力的提高。
这会是一个整体性的提高。
对我来说,它短期内最大的用途就是月球上的建筑工人,负责构建月球基地。
中期来看,我们的空间站会以机器人为主,负责太空采矿设备的维修和空间站的维护。
军事上,我认为不划算,机器人造价高,执行任务的效率不高,鲁棒性更是严重不足,在我看来,远不如机械狗和无人机。
少数可以用来做抢险救援工作,但本质还是成本问题,从成本来说,它替代司机都太贵了。”
“鲁棒性是指?”
“不好意思,这是指在异常情况下系统生存的能力,可以理解成稳定性。
总之这类精密仪器在战场上稳定性都不好。”陈元光说。
“元光,我原本也是支持技术开源的,但我在听过之后,我会觉得这项技术潜力巨大。
我的想法出现了比较严重的动摇,我想在座很多同僚们想法应该和我类似。
希望你能够帮助我们大家厘清一下技术开源的好处。”
陈元光笑了笑:“本身这也是这次来这里最大的目的。
很多东西通过视频是说不清楚的,面谈是最好的方式。
我想先谈一下,过去围绕人工智能研究,都是尽可能把机器去模拟人。
计算机在很多方面都有优势,最典型的应该要属信号传输速度。
人类神经元的信号传输是一个电化学的过程,它的速度是100m/s,而硅基芯片中的电信号传输速度接近光速的70%,也就是两千万米每秒,拓扑半金属的电信号传输速度就更惊人了,能够接近光速的90%。
而人体神经元在信号传递过程中的误差概率是百分之一,硅基芯片的误差是四十二亿分之一,拓扑半金属芯片的误差还要更小。
芯片在信息处理的速度和精度上有非常明显的优势。
在前两年的时候英特尔有一个神经拟态项目叫Hala point,用了11.5亿个数字神经元去模拟人类大脑。
哪怕用了这么多数字神经元,哪怕硅基芯片和人类神经元比起来有着天然优势,英特尔的Hala point仍然只能处理计算类问题,在神经拟态计算上表现得并不好。
反而是哈佛大学差不多同期做的一个叫Brainoware的项目,在模拟人类大脑上表现的更好。
哈佛的项目是把人类脑细胞和硅基芯片给结合起来,构建了被他们命名为Brainoware的新硬件。
他们先用人类的多功能干细胞培育了大脑类器官,然后整个brainoware一部分用传统的计算机硬件,一部分用这个大脑类器官。
他们构建了一个三层的计算框架,分为输入层、水库层和输出层,其中在水库层用的是大脑类器官。
类器官通过输入层接收信号,该输入层将信号转换为电刺激的信号。大脑类器官充当了自适应数据库,将这些信号映射到输出层。在输出层中则记录了表示储层状态的神经活动,并对其进行解码以提供用于分类,识别和预测等应用的读数。
通过评估变化的脉冲时间和电压的刺激的响应,测试了Brainoware的物理储层特性,包括非线性动力学,空间信息处理和褪色记忆。然后将该系统应用于实际任务,例如语音识别和非线性混沌方程预测。
在语音识别任务中,Brainoware需要在说话者池中识别说话者的声音。总共使用了由八个不同的男性说话者发音的240个孤立的日语元音音频剪辑来训练系统。
最终他们在仅仅只花了传统硬件不到10%的训练时间下,实现了相同的结果。
好了,两个例子讲完了。
这两个例子说明了,现在国外的硬件存在着天然弊端,HBM模型在传统硅基芯片的适应效果是非常差的。
当然我暂时也没有搞出可以大规模商用的大脑类器官来取代硅基芯片。
但我可以告诉各位的是,如果国外想用HBM模型,那么他们必须要买东大产的拓扑半金属芯片,相当于我们卡住了硬件端。
话说回来,即便技术不开源,考虑到HBM模型要取得进展,我们需要和国内头部的科技公司们合作,参与的人越多,技术泄露的风险也就越大。
我们不如直接开源,从上游硬件端卡住供应。
和所有参与其中的国家和组织,签一个技术开源协议,围绕HBM模型获得的所有技术进展都需要开源,不能运用在军事领域。
如果你不遵守,那么我们有协议为依据,可以正大光明地拒绝供应拓扑半金属芯片。
简单来说就是,技术早晚会泄露,而我们从硬件端有着绝对的控制权,开源给其他国家,能够全球共同来推动HBM技术的发展,帮助东大芯片企业们打开全球市场大门。
当然我认为可以交易的东西还有很多,都可以慢慢谈。”
上面提到的Brainoware是23年12月Nature的电子子刊上发表的一篇文章。
生物和机械结合构建的复合机器,在非线性方程的计算和语音识别上有着超凡潜力。
说不定以后机械飞升都是少数群体的特权。
陈元光详细表述之后,支持开源的声音占了上风。
“我认为元光说得非常好,这对我们来说是一枚非常有价值的筹码,拿出去可以,但是得换回足够有价值的东西。”
“我也支持,刚刚元光提到的我们芯片产业进军海外市场,我认为这是他们要使用HBM技术不得不采取的策略。
就像我们过去不得不买英伟达的显卡一样,因为市场上去缺乏替代品。
而我们得谈一些实质性的好处回来。”
“我赞同刚刚各位的看法,我有一个疑问想请教一下你,就是你刚刚提到哈佛的研究,人类脑组织和计算机硬件结合的设备,你提到的是暂时没有搞出来。
我想问,我们未来要不要走这个技术路线?
这个技术路线是否有潜力。”
这个问题不仅他好奇,在场很多人都好奇。
机械与肉体的结合,这可能会对伦理造成严重冲击。
“这条技术路线非常有前途,但成本太高,无论是类器官的生成和维护,还是说整个设备的功耗,以及数据层面的效率管理,都存在很大问题。
我们可以通过自然基金赞助一些预研究的项目,但是没有必要在这条技术路线上去做开拓者。”陈元光说。
等到会结束,大家意见逐渐趋于统一。
“元光,HBM模型如果只能用拓扑半金属芯片,那么我想技术开源是完全可以谈的。
接下来已经安排具体的司去找专家做验证,对真实性进行核验,写一个详细的报告递上来。
这不是不信任你,而是这件事关系到我们很重要的一个工作方向,从工作角度要把事情给做严谨。”
(本章完)
()
老中内部关于技术开源的声音很大。
原因很简单,无论是外部力量还是内部民营企业的力量,都希望技术能够开源。
如果单纯只是采取合作的方式,那谁先谁后,谁能合作,谁不能,这存在很大变数。
Robin虽然公开表示百度和光甲航天是战略合作伙伴关系,可他们是否能够在这一轮无人驾驶中获得先机,他内心实际是没有底的。
哪怕在接受采访的时候说的言之凿凿。
和存在很大不确定性的黑箱比起来,民营企业们自然更希望技术开源,这意味着技术本身也掌握在他们手里。
而持这类观点的官僚们也有很强的理论支撑,互联网技术向来开源,阿美利肯关于人工智能技术的路线和源代码从来都没有藏着掖着。
再加上陈元光都认为技术应该开源,我们应该听专业人士的意见,有谁比主导技术研究的陈元光更有说服力的吗?
这类观点一直都有,只是不太敢公开表示自己的观点,最多只是在小圈子范围内说两句。
当大家知道陈元光给燕京方面的公开意见后,大家的讨论声才开始大起来。
也敢通过南华早报对外放话。
南华早报也好,联合日报也好,可以看成是一个非官方的放话渠道,希望从外部营造舆论来在内部达成自己的目的,只是随着东大国力增强,这种方式的效果越来越不好罢了。
林甲在海口开会,陈元光在燕京开会。
“大家好,我想各位应该都对最近在申海的机器人司机有所了解,网上有着各种各样的说法。
该机器人叫铁蛋,并不是老外所说的终结者。
我们内部从立项开始,就一直有跟相关方面沟通,从铁蛋在测试路段测试,到和工信部、交通运输部等部门沟通,获得他们的批准。
包括后续在城市路段作为网约车正式营运,同样的有和相关部门沟通,铁蛋甚至获得了应该是全球唯一一张机器人驾照。
这都和交通管理部门进行了充分沟通。”
陈元光说,他想着先介绍一下来龙去脉。
“然后我想讲一下底层技术,它其实不是无人驾驶,准确来说它是人类大脑大模型。
我们内部简称为HBM。
大家都对前几年的ChatGPT不陌生,这一类模型统称为Large Language Model,中文简称是大模型。
更准确来说应该是大语言模型。
输入语言,输出语言,虽说后续它的输出内容从语言文本进化到了图像、表格甚至是视频。
这些本质输出的仍然是数据,无非是从结构化数据的排列组合变成了非结构化数据。而大模型输入的也是数据,是互联网上现有的数据
而我们这次做的HBM,是把人类脑电波输入,训练大模型,它通过机器身体作为载体,最终实现对现实世界的影响。
以铁蛋为例,我们聚集了超过10万个小时的网约车司机的脑电波,然后将这些数据喂给HBM,它在经过自我训练之后,把数据中的杂质去除,通过机器身体开始输出。
先在测试场地跑,然后在测试路段跑,然后在规定区域跑,最后没有限制地跑。
训练HBM用的也是数据,但不是文本类数据,是人的大脑。
大家可以看成人的大脑被抽象出数据,最终输入到HBM中。
因此无人驾驶只是它的应用之一,就像大模型输出文本只是最开始的应用,很快他们就开始输出图像,输出视频,输出表格。
同样的,我们未来HBM的应用场景也会有很多,单纯用来做无人驾驶从成本端来说并不划算。
无人驾驶只是类似ChatGPT最早亮相,只是打个样而已。”
在座的人都面面相觑,哪怕是和HBM有关的监管部门,大家都对技术底层没有什么了解,大家以为只是无人驾驶技术而已。
现在来看,这技术可要比他们以为的无人驾驶值钱得多。
如果仅仅只是无人驾驶,各家和l4相差都不远。
是完全有可能通过硬件来弥补的。
像很多新能源车企都在搞的光学卫星组网,从硬件层面来弥补算法的缺陷,离L4的差距已经很小了。
因此开源这项技术,对老中来说没太大损失,还可以把原本没有那么热衷于搞新能源的阿美利肯、欧洲和霓虹强行拉入到新能源车赛道中来。
油车在无人驾驶上有着天然缺陷。
但如果是像陈元光所说,那从根本上大家的观点都要经过一次重塑。
“元光,我对人工智能技术是彻头彻尾的门外汉,虽然听你们这些专家讲过很多课,但对专业的认识还是和你们有很大差距。
我想问下,它的应用场景有哪些,你可以简单说一下吗?
另外就是在军事领域的话,它能做到什么。”
陈元光说:“HBM是可以进化的。
不同工种的技术难度不同,比如建筑工人、纺织业工人,这类简单机械重复,它是完全能胜任。
司机的含金量稍微高一点,现在来看它胜任的也不错。
对于电工、钳工这些精度要求更高的工种,它去胜任不仅仅需要算法的进化,还需要硬件层面的进化,像负责视觉的摄像头精度的提高,手指上力传感器的精度提高等等。
包括它的大脑算力的提高。
这会是一个整体性的提高。
对我来说,它短期内最大的用途就是月球上的建筑工人,负责构建月球基地。
中期来看,我们的空间站会以机器人为主,负责太空采矿设备的维修和空间站的维护。
军事上,我认为不划算,机器人造价高,执行任务的效率不高,鲁棒性更是严重不足,在我看来,远不如机械狗和无人机。
少数可以用来做抢险救援工作,但本质还是成本问题,从成本来说,它替代司机都太贵了。”
“鲁棒性是指?”
“不好意思,这是指在异常情况下系统生存的能力,可以理解成稳定性。
总之这类精密仪器在战场上稳定性都不好。”陈元光说。
“元光,我原本也是支持技术开源的,但我在听过之后,我会觉得这项技术潜力巨大。
我的想法出现了比较严重的动摇,我想在座很多同僚们想法应该和我类似。
希望你能够帮助我们大家厘清一下技术开源的好处。”
陈元光笑了笑:“本身这也是这次来这里最大的目的。
很多东西通过视频是说不清楚的,面谈是最好的方式。
我想先谈一下,过去围绕人工智能研究,都是尽可能把机器去模拟人。
计算机在很多方面都有优势,最典型的应该要属信号传输速度。
人类神经元的信号传输是一个电化学的过程,它的速度是100m/s,而硅基芯片中的电信号传输速度接近光速的70%,也就是两千万米每秒,拓扑半金属的电信号传输速度就更惊人了,能够接近光速的90%。
而人体神经元在信号传递过程中的误差概率是百分之一,硅基芯片的误差是四十二亿分之一,拓扑半金属芯片的误差还要更小。
芯片在信息处理的速度和精度上有非常明显的优势。
在前两年的时候英特尔有一个神经拟态项目叫Hala point,用了11.5亿个数字神经元去模拟人类大脑。
哪怕用了这么多数字神经元,哪怕硅基芯片和人类神经元比起来有着天然优势,英特尔的Hala point仍然只能处理计算类问题,在神经拟态计算上表现得并不好。
反而是哈佛大学差不多同期做的一个叫Brainoware的项目,在模拟人类大脑上表现的更好。
哈佛的项目是把人类脑细胞和硅基芯片给结合起来,构建了被他们命名为Brainoware的新硬件。
他们先用人类的多功能干细胞培育了大脑类器官,然后整个brainoware一部分用传统的计算机硬件,一部分用这个大脑类器官。
他们构建了一个三层的计算框架,分为输入层、水库层和输出层,其中在水库层用的是大脑类器官。
类器官通过输入层接收信号,该输入层将信号转换为电刺激的信号。大脑类器官充当了自适应数据库,将这些信号映射到输出层。在输出层中则记录了表示储层状态的神经活动,并对其进行解码以提供用于分类,识别和预测等应用的读数。
通过评估变化的脉冲时间和电压的刺激的响应,测试了Brainoware的物理储层特性,包括非线性动力学,空间信息处理和褪色记忆。然后将该系统应用于实际任务,例如语音识别和非线性混沌方程预测。
在语音识别任务中,Brainoware需要在说话者池中识别说话者的声音。总共使用了由八个不同的男性说话者发音的240个孤立的日语元音音频剪辑来训练系统。
最终他们在仅仅只花了传统硬件不到10%的训练时间下,实现了相同的结果。
好了,两个例子讲完了。
这两个例子说明了,现在国外的硬件存在着天然弊端,HBM模型在传统硅基芯片的适应效果是非常差的。
当然我暂时也没有搞出可以大规模商用的大脑类器官来取代硅基芯片。
但我可以告诉各位的是,如果国外想用HBM模型,那么他们必须要买东大产的拓扑半金属芯片,相当于我们卡住了硬件端。
话说回来,即便技术不开源,考虑到HBM模型要取得进展,我们需要和国内头部的科技公司们合作,参与的人越多,技术泄露的风险也就越大。
我们不如直接开源,从上游硬件端卡住供应。
和所有参与其中的国家和组织,签一个技术开源协议,围绕HBM模型获得的所有技术进展都需要开源,不能运用在军事领域。
如果你不遵守,那么我们有协议为依据,可以正大光明地拒绝供应拓扑半金属芯片。
简单来说就是,技术早晚会泄露,而我们从硬件端有着绝对的控制权,开源给其他国家,能够全球共同来推动HBM技术的发展,帮助东大芯片企业们打开全球市场大门。
当然我认为可以交易的东西还有很多,都可以慢慢谈。”
上面提到的Brainoware是23年12月Nature的电子子刊上发表的一篇文章。
生物和机械结合构建的复合机器,在非线性方程的计算和语音识别上有着超凡潜力。
说不定以后机械飞升都是少数群体的特权。
陈元光详细表述之后,支持开源的声音占了上风。
“我认为元光说得非常好,这对我们来说是一枚非常有价值的筹码,拿出去可以,但是得换回足够有价值的东西。”
“我也支持,刚刚元光提到的我们芯片产业进军海外市场,我认为这是他们要使用HBM技术不得不采取的策略。
就像我们过去不得不买英伟达的显卡一样,因为市场上去缺乏替代品。
而我们得谈一些实质性的好处回来。”
“我赞同刚刚各位的看法,我有一个疑问想请教一下你,就是你刚刚提到哈佛的研究,人类脑组织和计算机硬件结合的设备,你提到的是暂时没有搞出来。
我想问,我们未来要不要走这个技术路线?
这个技术路线是否有潜力。”
这个问题不仅他好奇,在场很多人都好奇。
机械与肉体的结合,这可能会对伦理造成严重冲击。
“这条技术路线非常有前途,但成本太高,无论是类器官的生成和维护,还是说整个设备的功耗,以及数据层面的效率管理,都存在很大问题。
我们可以通过自然基金赞助一些预研究的项目,但是没有必要在这条技术路线上去做开拓者。”陈元光说。
等到会结束,大家意见逐渐趋于统一。
“元光,HBM模型如果只能用拓扑半金属芯片,那么我想技术开源是完全可以谈的。
接下来已经安排具体的司去找专家做验证,对真实性进行核验,写一个详细的报告递上来。
这不是不信任你,而是这件事关系到我们很重要的一个工作方向,从工作角度要把事情给做严谨。”
(本章完)
()
作品本身仅代表作者本人的观点,与本站立场无关。如因而由此导致任何法律问题或后果,本站均不负任何责任。