在「匿名」這件事上,網路曾經有一種默契:只要不留真名、不填住址、換個暱稱,就能把生活與帳號切開。但大型語言模型(LLM)與新一代資料分析工具,正在把這份默契瓦解。 所謂 LLM 去匿名化(LLM de-anonymization),不是魔法,而是把你散落在不同平台的文字線索、行為模式與公開資料「拼圖式」重組:你以為只是幾段留言、幾個用詞習慣、幾次時間點固定的發文,對模型而言可能已足夠推回「同一個人」甚至「可能是誰」。 去匿名化不是只有「資料外洩」才會發生 很多人把身分曝光的想像停留在:資料庫被駭、個資外流、姓名電話被貼出來。但 LLM 去匿名化更常見的場景是: 你自己公開過:社群貼文、論壇回覆、部落格、履歷、活動照片、簡報投影片、GitHub、Podcast 逐字稿。 你沒有公開姓名,但公開了足以定位的特徵:公司領域、職稱、城市、學校、特殊經歷、少見興趣。 跨平台可被關聯:同一個暱稱、相似自介、固定的口頭禪、獨特的標點與句型。 LLM 的關鍵價值在於:它能把「看似不重要的文字碎片」轉成可被比對的特徵(語氣、慣用詞、敘事方式、知識背景),再結合搜尋與資料庫,形成更可靠的推論。 LLM 是怎麼「猜中你」的:幾種常見技術路徑 實務上,去匿名化往往不是單一模型單次推理,而是一套流程: 1) 語言指紋:寫作習慣比你想像更獨特 LLM 可以協助做「文風比對」: 特定用詞(例如你習慣用哪一種同義詞) 句子長度、逗號密度、是否常用括號補充...