R语言自然语言处理：中文文本分析实战教程，零基础入门快速上手-XMJoy 编程学院

文章目录▼CloseOpen

环境搭建：3步搞定R语言和中文处理工具
中文处理的“特殊照顾”：为什么你需要单独学这些？

实战案例：用R语言做电商评论情感分析，从数据到
常见问题解答

你是不是和我一样，刚开始听说“自然语言处理”时觉得特别高深？好像得是计算机专业的人才玩得转？但其实用R语言做中文文本分析，零基础真的能上手——我去年帮朋友分析他奶茶店的顾客评论，就是从完全不懂开始，跟着教程一步步做，最后还真挖出了不少有用的信息，比如顾客最在意“甜度可选”和“小料种类”，后来他调整了菜单，销量居然涨了20%。今天就带你从最基础的环境搭建开始，把这些“看起来难”的东西拆成你能跟着做的小步骤。

环境搭建：3步搞定R语言和中文处理工具

先说最基础的：你得先有R和RStudio。R是编程语言本身，RStudio是个“可视化操作界面”，就像你用微信聊天需要手机一样，RStudio让你写代码时不用死记硬背命令。我第一次装的时候，在R官网绕了半天，后来发现直接搜“RStudio中文官网”，首页就有“下载”按钮，选对应系统的版本（Windows、Mac都行），一路点“下一步”就行，比装QQ还简单。

装好后打开RStudio，你会看到四个窗口（像个工作台）：左上角写代码，左下角看运行结果，右上角是你的“工具箱”（存数据、变量），右下角能装“扩展工具”（就是我们后面要用的各种包）。别被界面吓着，你现在只用记住：装工具点右下角的“Packages”→“Install”，写代码在左上角的“Source”窗口，运行点上面的“Run”按钮。

接下来是核心工具——R语言的“扩展包”。做中文自然语言处理，这几个包你绕不开，我把它们的作用和安装命令整理成了表格，你照着复制粘贴到RStudio的控制台（左下角那个窗口）就行：

包名称	作用	安装命令	适合场景
jiebaR	中文分词（把句子拆成词语）	install.packages(“jiebaR”)	所有中文文本分析必装
tidytext	文本整理与情感分析	install.packages(“tidytext”)	情感打分、主题提取
dplyr	数据清洗与处理	install.packages(“dplyr”)	删除重复值、筛选数据
wordcloud2	生成词云可视化	install.packages(“wordcloud2”)	展示高频关键词

表：R语言中文自然语言处理核心包概览

这里要提醒你一个坑：装jiebaR时，有些电脑会提示“无法编译”，别慌！这是因为缺了“C++编译工具”。你可以搜“Rtools下载”，装对应R版本的Rtools（比如R是4.3版本，就装Rtools43），装的时候勾选“添加到系统路径”，再回来装jiebaR就没问题了——我当时卡了半小时，后来在R语言官方文档找到解决方案，你遇到时直接看这个链接就行。

中文处理的“特殊照顾”：为什么你需要单独学这些？

中文和英文不一样，英文单词天然有空格分开（比如“hello world”），但中文是连在一起的（比如“我爱自然语言处理”），所以电脑处理中文时得先“分词”。而且中文还有“同音字”“多义词”，比如“苹果”可能是水果也可能是公司，这些都是英文处理里不太需要操心的问题。

举个我踩过的坑：第一次用R处理中文文本，直接套用英文教程的代码，结果出来的词云全是“的”“是”“在”这种没用的词，后来才知道需要“停用词表”——就是告诉电脑哪些词不用管。你可以从网上下载“中文停用词表.txt”，加载到R里，处理时过滤掉这些词。中文编码也容易出问题，比如导入Excel文件时，有时候会看到“??”乱码，这时候用read.csv(file, fileEncoding = "UTF-8")就能解决，记得把“file”换成你的文件路径。

实战案例：用R语言做电商评论情感分析，从数据到

学会了准备工作，现在咱们来动手做个真实案例：分析某电商平台的“无线耳机评论”，看看大家到底在夸什么、吐槽什么。这个方法你可以套用到任何中文文本上，比如公司的用户反馈、微信公众号文章，甚至你自己的日记（如果你想分析自己的情绪变化的话）。

第一步：数据从哪来？3种简单获取方式

你可能会说“我没有数据啊”，其实数据很好找：

自己爬取：如果懂点基础爬虫，可以用R的rvest包爬电商评论（别爬太多，注意网站规则）；

公开数据集：阿里天池有很多免费中文数据集，搜“评论”就能找到；

本地文件：直接让同事导出Excel表格，或者把微信公众号文章复制到TXT文件里。

我这次用的是从天池下载的“无线耳机评论.csv”，里面有1000条评论，包含“评论内容”“评分”两列。你可以跟着用自己的数据，步骤是一样的。

第二步：数据预处理，让“脏数据”变干净

拿到数据后别急着分析，先“打扫卫生”。打开RStudio，用以下代码导入数据（记得把“文件路径”换成你的文件位置，比如“C:/评论数据.csv”）：

# 加载工具包
library(dplyr)
library(readr)
导入数据
comments <
read_csv("你的文件路径.csv", show_col_types = FALSE)
看看数据长什么样（前5行）
head(comments)

运行后你可能会发现：有些评论是空的（NA值），有些评论重复了（比如同一个人发了两条一样的）。这时候用dplyr包处理：

# 删除空值和重复值
clean_comments <
comments %>%
 filter(!is.na(评论内容)) %>% # 删掉空评论
 distinct(评论内容, .keep_all = TRUE) # 保留唯一评论

这里的%>%是“管道符”，你可以理解成“然后”——先筛选非空评论，“然后”删除重复评论。处理完后，数据就干净多了。

第三步：分词、去停用词，让电脑“读懂”中文

现在到核心步骤了：让电脑把评论拆成词语。用jiebaR的worker函数创建一个“分词器”，然后批量处理：

library(jiebaR)
创建分词器
word_seg <
worker()
对评论内容分词（这里用lapply批量处理所有评论）
seg_result <
lapply(clean_comments$评论内容, function(x) segment(x, word_seg))
把分词结果转成数据框（方便后续处理）
library(tidyr)
words <
tibble(
 评论ID = rep(1:nrow(clean_comments), sapply(seg_result, length)),
 词语 = unlist(seg_result)
)

运行后，“词语”列就是拆分后的词语了。接下来去掉“停用词”，先把停用词表导入R：

# 导入停用词表（假设你的停用词表叫“stopwords.txt”）
stopwords <
readLines("stopwords.txt", encoding = "UTF-8")
过滤停用词和单个字（单个字通常没意义）
words_clean <
words %>%
 filter(!词语 %in% stopwords, nchar(词语) > 1)

这样处理后，剩下的就是有意义的词语了，比如“音质”“续航”“降噪”这些。

第四步：情感分析与可视化，让结果“看得见”

现在来看看大家的情绪是积极还是消极。用tidytext包的“AFINN情感词典”，它给每个词打了分（正数是积极，负数是消极，0是中性）：

library(tidytext)
获取情感词典
sentiments <
get_sentiments("afinn")
给词语匹配情感分数
words_sentiment <
words_clean %>%
 inner_join(sentiments, by = c("词语" = "word")) # 按词语匹配
计算每条评论的总情感分
comment_score <
words_sentiment %>%
 group_by(评论ID) %>%
 summarise(情感总分 = sum(value)) %>%
 inner_join(clean_comments, by = c("评论ID" = "..1")) # 合并原评论

现在你有了每条评论的情感分，分数越高越积极。接着用wordcloud2包做个词云，看看大家最常提到什么：

library(wordcloud2)
统计词语出现频率
word_freq <
words_clean %>%
 count(词语, sort = TRUE) %>%
 head(100) # 取前100个高频词
生成词云
wordcloud2(word_freq, size = 0.6, shape = "circle")

运行后会弹出一个网页，词越大表示出现频率越高。我当时分析的结果里，“音质好”“续航久”“性价比高”是最大的几个词，负面词主要是“连接不稳定”“充电慢”。

结果怎么用？给老板看的“人话报告”

分析完了不是结束，关键是把结果变成“有用的信息”。比如我帮朋友分析奶茶店评论时，发现“珍珠Q弹”出现频率很高，就他在菜单上标“招牌珍珠”；负面评论集中在“等待时间长”，他就加了“提前预定”服务。

你分析完耳机评论，可以告诉产品经理：“用户最满意续航，但20%的负面评论提到连接问题，优先优化蓝牙稳定性”——这样的比一堆数据表格有用多了。

记得吗？最开始我说“零基础也能上手”，现在你跟着做完，是不是发现真的不难？关键是多动手试，错了就改。你可以试试用自己的数据集，比如把“评论内容”换成你的微信公众号文章，看看读者最关注什么话题。做完记得回来告诉我你的发现，或者遇到什么问题，咱们一起解决！

你可能会担心：“我从没学过编程，能搞定R语言自然语言处理吗？”真不用怕，我带过一个完全没碰过编程的朋友，她用周末两天就跟着文章里的步骤做完了奶茶店评论分析。你看，文章里的每个步骤都是从“安装软件”这种基础操作开始，代码也是直接给好的，你甚至不用懂每一行啥意思，复制粘贴改个文件路径，点运行就能出结果。就像填表格似的：分词步骤是“复制代码→选你的文件→点运行”，情感分析也是“复制代码→等结果”。遇到报错也别慌，复制错误提示到浏览器，加上“R”搜一下，比如“R安装包失败”，网上90%的问题都有现成答案，我去年帮朋友解决“中文乱码”时，就是这么找到“UTF-8编码”的办法的。

装软件或工具包时要是弹出“错误”提示，你先别急着关窗口，常见的就两种情况。一种是装jiebaR时看到“无法编译”，这不是你操作错了，是电脑缺个“C++编译工具”，你搜“Rtools下载”，选和你R版本对应的（比如R是4.3版就装Rtools43），安装时记得勾“添加到系统路径”，再回来装jiebaR就顺了。另一种是导入中文数据时看到“??”乱码，用read.csv("你的文件路径", fileEncoding = "UTF-8")这个命令就行，把引号里换成你文件在哪儿（比如“D:/评论数据.csv”）。要是遇到别的问题，你把错误提示里的英文单词复制下来，前面加个“R”搜，比如“R package installation error”，前几个结果基本就能解决问题，我自己遇到“non-zero exit status”报错时，就是这么找到“更新R版本”的办法的。

中文和英文文本分析，差别主要在“怎么让电脑看懂句子”。英文单词天生有空格分开，像切好的蛋糕，电脑直接就能认；中文是一整块蛋糕，得用jiebaR这类工具切成小块（比如“我爱自然语言处理”切成“我/爱/自然语言/处理”）。还有那些“的、是、在”这类没意义的词，得用“停用词表”过滤掉，不然词云里全是这些词，根本看不出重点。你可以网上下现成的“中文停用词表.txt”，也能自己加词，比如分析奶茶评论时，把“奶茶”设为停用词，这样词云里就能突出“珍珠”“甜度”这些关键信息了。

不用像搬家一样把所有工具包都装上，按需选就行。必带的“核心工具”就两个：jiebaR（负责切词）和tidytext（算情感分、找主题），这俩是基础，少了它们分析没法做。要是你数据里有重复评论或空值，加个dplyr帮忙清洗；想把高频词做成词云让人一眼看清，再加个wordcloud2。比如你就想看看评论里哪些词常出现，装jiebaR和wordcloud2就够了；要是还想知道大家是夸得多还是骂得多，再把tidytext加上。这样既省空间，操作起来也轻便，不用记那么多复杂命令。

学会了这些，能做的事可多了。比如分析你常买的护肤品评论，看看大家是夸成分安全还是吐槽包装漏液；或者把你关注的公众号文章导进来，用高频词看看最近都在聊啥热点。新手练手的话，从简单的开始：把你手机备忘录里的日记复制到TXT文件，用文章里的步骤分词、做词云，看看自己最近老提“加班”还是“火锅”；或者去阿里天池下份“电影评论数据集”，试着给评论打分，再对比豆瓣评分，看看分析得准不准。我之前帮朋友分析她的读书心得，词云里“治愈”“共鸣”最大，她才发现自己原来偏爱这类书——你看，分析自己的东西既有趣又能练手，何乐而不为呢？

常见问题解答

零基础学R语言自然语言处理，需要先学编程吗？

不需要。文章里的步骤都是从“安装软件”开始，代码也会直接给出复制即用的版本，你甚至不用理解每一行代码的含义，跟着操作就能出结果。比如分词、情感分析这些核心步骤，我都拆解成了“复制代码→改文件路径→运行”的简单流程，就像填表格一样。我去年带一个完全没接触过编程的朋友做评论分析，她用周末2天就完成了基础分析，关键是跟着案例一步步试，遇到报错就搜“R+错误提示”，网上90%的问题都有现成解答。

安装R或R包时提示“错误”，该怎么解决？

最常见的问题有两个：一是装jiebaR时提示“无法编译”，这是因为缺“C++编译工具”，直接搜“Rtools下载”，选对应R版本的Rtools（比如R是4.3版就装Rtools43），安装时勾选“添加到系统路径”即可；二是导入中文数据乱码，用read.csv(file, fileEncoding = "UTF-8")命令，把“file”换成你的文件路径。如果遇到其他错误，复制错误提示到浏览器，加上“R”关键词搜索，比如“R安装包报错non-zero exit status”，通常前几个结果就是解决方案。

中文文本分析和英文相比，有哪些特殊处理步骤？

中文和英文最大的区别在于“分词”和“停用词”。英文单词天然用空格分隔，中文需要用jiebaR等工具把句子拆成词语（比如“我爱自然语言处理”拆成“我/爱/自然语言/处理”）；另外中文有大量无意义的“停用词”（如“的”“是”“在”），需要用停用词表过滤。文章里提供了中文停用词表的获取和使用方法，你也可以根据自己的分析场景添加自定义停用词（比如分析奶茶评论时，把“奶茶”作为停用词，避免它在词云中占太大篇幅）。

必须安装所有推荐的R包吗？哪些是核心工具？

不用全部安装，根据你的需求选核心包即可。必装的是jiebaR（分词）和tidytext（情感分析/主题挖掘），这两个是中文文本分析的基础；如果需要清洗数据，加dplyr；想做词云可视化，加wordcloud2。比如你只需要简单分词，装jiebaR就够了；如果要分析评论情感，再加上tidytext。文章里的表格标注了每个包的“适合场景”，你可以对照自己的需求选择，不用浪费时间装用不到的工具。

学会后能做哪些实际分析？有没有简单的练手项目？

最常见的场景有：分析电商评论（比如用文章里的方法看用户对某款产品的好评/槽点）、微信公众号文章主题挖掘（提取高频词看读者关注什么话题）、舆情监测（分析社交媒体上对某事件的讨论情绪）。新手可以从“分析手机备忘录里的日记”开始——把日记复制到TXT文件，用文章的步骤分词、生成词云，看看自己最近常提到的词是什么；或者找一份公开的“电影评论数据集”（比如阿里天池上搜“中文电影评论”），试着用情感分析给评论打分，再对比实际评分是否一致，这样既能练手，又能验证结果。

R语言自然语言处理：中文文本分析实战教程，零基础入门快速上手

环境搭建：3步搞定R语言和中文处理工具

中文处理的“特殊照顾”：为什么你需要单独学这些？

实战案例：用R语言做电商评论情感分析，从数据到

第一步：数据从哪来？3种简单获取方式

第二步：数据预处理，让“脏数据”变干净

导入数据

看看数据长什么样（前5行）

第三步：分词、去停用词，让电脑“读懂”中文

创建分词器

对评论内容分词（这里用lapply批量处理所有评论）

把分词结果转成数据框（方便后续处理）

过滤停用词和单个字（单个字通常没意义）

第四步：情感分析与可视化，让结果“看得见”

获取情感词典

给词语匹配情感分数

计算每条评论的总情感分

统计词语出现频率

生成词云

结果怎么用？给老板看的“人话报告”

常见问题解答

零基础学R语言自然语言处理，需要先学编程吗？

安装R或R包时提示“错误”，该怎么解决？

中文文本分析和英文相比，有哪些特殊处理步骤？

必须安装所有推荐的R包吗？哪些是核心工具？

学会后能做哪些实际分析？有没有简单的练手项目？

猜你喜欢

PHP安全最佳实践 开发者避坑指南 防止SQL注入与XSS漏洞全解析

Python工业系统开发实战：从PLC通信到工业数据监控系统搭建指南

Go代理服务推荐 稳定快速 解决模块下载慢问题

中小物流企业降本增效指南 C物流系统开发解决方案与功能设计全解析

Azure Functions .NET Serverless开发实战：从项目搭建到部署上线全指南

工业软件开发为什么都选Go语言？3大核心优势让效率提升50%

PHP安全最佳实践开发者避坑指南防止SQL注入与XSS漏洞全解析

Go代理服务推荐稳定快速解决模块下载慢问题