用户注册



邮箱:

密码:

用户登录


邮箱:

密码:
记住登录一个月忘记密码?

发表随想


还能输入:200字
云代码 - python代码库

NLP数据清洗:去除HTML标签、URL链接、数字、标点等噪音信息

2023-04-07 作者: Python自学举报

[python]代码库

import re
import string
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

def clean_text(text):
    text = re.sub(r'<.*?>', '', text)  # 去除HTML标签
    text = re.sub(r'http\S+', '', text)  # 去除URL链接
    text = re.sub(r'\d+', '', text)  # 去除数字
    text = text.translate(str.maketrans('', '', string.punctuation))  # 去除标点符号
    text = text.lower()  # 转换为小写字母
    stopwords_set = set(stopwords.words('english'))  # 获取停用词集合
    words = nltk.word_tokenize(text)  # 分词
    words = [w for w in words if w not in stopwords_set]  # 去除停用词
    text = ' '.join(words)
    return text


网友评论    (发表评论)


发表评论:

评论须知:

  • 1、评论每次加2分,每天上限为30;
  • 2、请文明用语,共同创建干净的技术交流环境;
  • 3、若被发现提交非法信息,评论将会被删除,并且给予扣分处理,严重者给予封号处理;
  • 4、请勿发布广告信息或其他无关评论,否则将会删除评论并扣分,严重者给予封号处理。


扫码下载

加载中,请稍后...

输入口令后可复制整站源码

加载中,请稍后...