用户注册



邮箱:

密码:

用户登录


邮箱:

密码:
记住登录一个月忘记密码?

发表随想


还能输入:200字
云代码 - python代码库

python中文分词+词频统计

2023-07-12 作者: Python自学举报

[python]代码库

import jieba
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    "我喜欢使用Python编程语言",
    "Python是一种强大的编程语言",
    "Python编程语言被广泛使用"
]

# 使用分词进行中文分词
corpus_seg = []
for sentence in corpus:
    seg_list = jieba.cut(sentence)
    corpus_seg.append(" ".join(seg_list))

# 使用CountVectorizer进行词频统计
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus_seg)

#并输出词汇表和词频矩阵
print(vectorizer.get_feature_names())
print(X.toarray())

#['python', '一种', '使用', '编程', '语言', '强大', '广泛', '喜欢', '被']
#[[1 0 1 1 1 0 0 1 0]
# [1 1 0 1 1 1 0 0 0]
# [1 0 0 1 1 0 1 0 1]]


网友评论    (发表评论)


发表评论:

评论须知:

  • 1、评论每次加2分,每天上限为30;
  • 2、请文明用语,共同创建干净的技术交流环境;
  • 3、若被发现提交非法信息,评论将会被删除,并且给予扣分处理,严重者给予封号处理;
  • 4、请勿发布广告信息或其他无关评论,否则将会删除评论并扣分,严重者给予封号处理。


扫码下载

加载中,请稍后...

输入口令后可复制整站源码

加载中,请稍后...