通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
电影《在丈夫面前被欺负》比如弯折内屏再展开就能激发系统分屏,分屏后,图文内容甚至还能在多个应用之间进行任意拖放,你别说,这功能真挺好用,前阵子 618,我左右各开了淘宝京东,同件商品哪个平台卖得更便宜一目了然。这潦草简单的背景,让人不禁怀疑电影节的含金量。这展板的规格大小远远比不上国内的一些庆典活动,整个背景充满了浓浓的作坊气息,连电影节都显得像个草台班子。与其说是电影节,不如说更像是爱奇艺和稻草熊的团建活动。电影《在丈夫面前被欺负》国产少女免费观看电视剧字幕今年是郁达夫殉难80周年,这位被誉为“反法西斯文化战士”的作家,在1945年日本宣布投降后仍遭日本宪兵秘密杀害于印度尼西亚苏门答腊丛林。他的名字,不仅铭刻在中国文学史上,更镌刻在中国人民反法西斯战争的纪念碑上。很快,他发现声响不是爆胎所致,是附近的烟花厂“闯祸了”:水泥砖和铁皮瓦碎片砸向他的车子,方向盘也失控了。随着一阵阵强烈的爆炸冲击波,车子在路上开得歪歪扭扭。他抬起头,看到在天空中升腾起了一朵爆炸后的灰色庞大蘑菇云。
20250814 ❤️ 电影《在丈夫面前被欺负》进入第二盘的比赛,王欣瑜开局阶段没有延续首盘的势头,第二个发球局遭到了破发,被高芙压制连续失误,开局1-3落后。面对不利局势,王欣瑜顶住了压力,第五局保发之后,第六局连得4分破发成功,追到3-3平,双方回到同一条起跑线上。免费已满十八岁在线播放电视剧日剧今年元旦假期,投资者肖宇在泰国旅行期间,意外的在曼谷远郊新开幕的一家商场里,见识到了当地年轻人热情的排队长龙。
📸 田玉娥记者 陈印 摄
20250814 🖤 电影《在丈夫面前被欺负》当地时间13日,总台记者获悉,一名以色列高级安全官员透露,以色列欺骗了伊朗空军高级指挥官让他们聚集开会,随后以军对伊朗革命卫队地下指挥中心进行了定点打击,已致伊朗革命卫队多位空军领导人死亡。宝宝下面湿透了还嘴硬的原因北京时间6月14日,根据意大利记者佩杜拉的报道,利雅得胜利已经向离开意大利国家队帅位的斯帕莱蒂开出了1800万欧元的年薪待遇。
📸 袁志国记者 詹光惠 摄
😏 直播吧6月21日讯 阿斯报报道,上个赛季阿图尔在冬季转会窗最后时刻租借加盟赫罗纳,并且大幅降低了薪水要求。今年夏天,赫罗纳再次尝试引进他,尽管意愿强烈,但目前看来这几乎是一项不可能完成的任务。轮流和两个男人一起很容易染病吗