파이썬에서 정규식을 지원하는 라이브러리 re

import re

re.findall("[a-zA-Z0-9]", "How are you?")

이렇게 쓰는데는 줄임 표현인 \w 가 있다!

re.findall("[\w]", "How are you?")

\w에는 공백이 포함되지 않는다. 이를 이용하면 공백이나 쉼표 등으로 구분되는 단어들을 찾아낼 수 있다.

"[\w]+"

+가 1번 이상 반복을, {2,4}를 이용하면 횟수 지정 가능

[\w']+ 와 [\w]+ 차이

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w']+") #regular expression(정규식)을 이용한 tokenizer
#단어단위로 tokenize \w:문자나 숫자를 의미 즉 문자나 숫자 혹은 '가 반복되는 것을 찾아냄
print(tokenizer.tokenize("Sorry, I can't go there."))
# can't를 하나의 단어로 인식

세글자 이상의 단어들만

tokenizer = RegexpTokenizer("[\w']{3,}")

result = [word for word in tokens if word not in english_stops]

저작자표시 비영리 (새창열림)

'컴퓨터이야기' 카테고리의 다른 글

DTM (0)	2023.12.20
메타학습 (0)	2023.12.20
pytorch 설치하기 (0)	2023.12.11
CUDA 설치하기 (1)	2023.12.05
GPU 맞는 버전 설치하기 (3)	2023.12.05

좋은 엄마 만들기

파이썬에서 정규식을 지원하는 라이브러리 re

'컴퓨터이야기' 카테고리의 다른 글

티스토리툴바

파이썬에서 정규식을 지원하는 라이브러리 re

'컴퓨터이야기' 카테고리의 다른 글

'컴퓨터이야기' Related Articles

티스토리툴바