GPTやLlamaなどの大規模言語モデルはファインチューニングで簡単に脱獄可能だという研究結果

大規模言語モデルには、有害なコンテンツを出力しないようなセーフガードが設けられています。プリンストン大学、バージニア工科大学、IBMリサーチ、スタンフォード大学の研究チームがOpenAIのGPT-3.5 TurboとMetaのLlama-2-7b-Chat大規模言語モデルを検証した結果、小規模なファインチューニングでセーフガードを外すことができたと報告しています。続きを読む……

このサイトの記事を見る

投稿者: 管理者