Twinkle AI
來自臺灣的正體中文 AI 社群
關於我們
資源
開源模型
以繁體中文語境為核心訓練的模型
開源資料集
整合政府資訊、社群與文學檔案的語料
Twinkle Eval 排行榜
模型評測與效能排行榜
社群
新聞與活動
最新消息、活動與公告
教育與推廣
Podcast、深夜實堂與熬夜讀書會
媒體專區
新聞稿、媒體素材與資源
加入 Discord
中
EN
開源資料集
彙集政府資訊、社群對話與文學檔案,並過濾淨化成我們可以用來訓練的資料集內容。
資料淨化與語境校準
我們並非單純累積資料量,而是專注於「資料淨化與語境校準」。目前的資料來源涵蓋公開政府資訊、在地社群討論及台灣文學檔案。在資料整理上,我們開發了一套自動化過濾機制,精準篩選掉非在地慣用語(例如將常用的「資訊」誤稱為「信息」的用法),並建立結構化的資料集,確保模型學習到的是符合台灣日常習慣且精確的語感。
Formosa Vision 資料集
與國家文化記憶庫合作建置視覺模型資料集。透過針對古道、眷村與馬祖戰地的影像校正,教 AI 認出台灣特有的文化符號,讓模型的在地辨識更精準。
探索資料集