字袋模型 字袋模型(英文:bag-of-words model,BoW model)係自然語言處理同資訊提取入面嘅一種做法,指嘅係將一段文字當做由啲字組成嘅多重集,忽略文法甚至啲字嘅次序。 例如以下呢句嘢: John likes to watch movies. Mary likes movies too. 用 BoW 方法表示嘅話會變成噉: "John","likes","to","watch","movies","Mary","likes","movies","too" 睇埋 N-gram 字嵌入 自然語言處理(NLP) 教 AI 處理自然語言嘅技術 語言數據 語料庫(口語語料庫 · Treebank · PropBank) 詞庫資源 機械可讀字典 受控詞表 索引典 語義網絡(WordNet · BabelNet) 對等字詞 Universal Dependencies 字句層次 文字分割 字切割 句子切割 記號化 詞法分析 淺度解析同分析樹 N-gram(2-gram · 3-gram) 詞形還原 字幹提取 命名實體識別 合成詞處理 語言辨認 停用詞 詞性標注 字袋模型 搭配詞抽取 Regex 解析 Tf-idf Truecasing 語義層次 詞義消歧同詞義歸納 語義角色標籤 指代解決 情感分析 自然語言理解 本體學習 自動總結(句子提取 · 文字簡化 · 多文件總結) 主題模型(文檔分類) 概念探勘 文本蘊涵 分佈語義 語義距離 文件詞彙矩陣 外顯同潛在語義分析 字嵌入 Word2vec 機械翻譯 翻譯器 例子為本、規則為本同統計 轉移為本 神經為本 用家介面 聲用家介面 傾偈機械人 問答系統 虛擬助理 互動式小說 第啲應用 資訊提取同抽取(詞彙抽取) 電腦輔助評閱(拼寫檢查 · 文法檢查 · 自動評分) 反垃圾電郵技術 網頁刮料 自動資料收集(語音識別同分割 · 光學字符識別) 語音合成 自然語言生成 文本探勘同遙距閱讀 相關技術 NLTK spaCy DBpedia 語義網 機械學習同人工智能完全 字串搜尋演算法 困惑度 相關領域 語言學(語料庫語言學同運算語言學) 圖書館學同資訊科學 數碼人文學 文獻計量學 市場學 心理測量學 呢篇同語言學有關嘅文章係楔位文。 歡迎幫維基百科擴寫佢。