Googleが視覚とテキストから人間のように理解するロボット向け言語モデル「PaLM-E」を発表、「お菓子を持ってこい」などの複雑な命令も遂行可能

対話型AI「ChatGPT」などに使われる言語モデルは複雑なタスクを実行することが実証されていますが、これをロボットに応用する場合、状況にあった動作を行うために言語モデルはより詳しい情報を収集する必要があります。Googleとベルリン工科大学のAI研究者グループは、カメラで捉えた映像とテキストによる指示を理解できる新しい言語モデル「PaLM-E」を開発したことを明らかにしました。このモデルを使うこ…

このサイトの記事を見る