gsub 函數多詞取代

Popular 

 [1] 中文處理 / Posted 2 年 ago by Steve Chen

在文字探勘過程中,有時候我們會想將一些不必要的詞彙從文章中刪除,例如 PTT 文章中的「作者」、「標題」、「時間」等停止詞(stop words)

這通常可以在 tm 套件中用 tm_map 函數做到。

但假如不用 tm 套件,用 R 內建的 gsub 函數加 “|” (OR) 符號也可以:

例如:

# x 是包含 3 篇文章內容的字串向量,尚未斷詞

> x = c(“作者哈哈”,”哈哈標題”,”作者哈哈時間”)
> x2 = gsub(“作者|標題|時間”,””,x)
> x2
[1] “哈哈” “哈哈” “哈哈”