import re
re.findall("[a-zA-Z0-9]", "How are you?")
이렇게 쓰는데는 줄임 표현인 \w 가 있다!
re.findall("[\w]", "How are you?")
\w에는 공백이 포함되지 않는다. 이를 이용하면 공백이나 쉼표 등으로 구분되는 단어들을 찾아낼 수 있다.
"[\w]+"
+가 1번 이상 반복을, {2,4}를 이용하면 횟수 지정 가능
[\w']+ 와 [\w]+ 차이
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w']+") #regular expression(정규식)을 이용한 tokenizer
#단어단위로 tokenize \w:문자나 숫자를 의미 즉 문자나 숫자 혹은 '가 반복되는 것을 찾아냄
print(tokenizer.tokenize("Sorry, I can't go there."))
# can't를 하나의 단어로 인식
세글자 이상의 단어들만
tokenizer = RegexpTokenizer("[\w']{3,}")
result = [word for word in tokens if word not in english_stops]
'컴퓨터이야기' 카테고리의 다른 글
DTM (0) | 2023.12.20 |
---|---|
메타학습 (0) | 2023.12.20 |
pytorch 설치하기 (0) | 2023.12.11 |
CUDA 설치하기 (1) | 2023.12.05 |
GPU 맞는 버전 설치하기 (3) | 2023.12.05 |