pytorch

boostcamp AI Tech/기타 정리

[torchtext, sklearn] get_tokenizer(), vocab(), get_stoi(), get_itos(), CountVectorizer()

Text 데이터를 핸들링하는 기본적인 TextMining 내용 torchtext.data.utils.get_tokenizer(tokenizer, language=’en’) 파라미터 tokenizer: 어떤 방식으로 토큰화를 진행할지 결정해주기 적어주지 않으면 그냥 split() 기능을 하도록 설정 기본적으로 많이 하는 것이 ‘basic_english’ ‘basic_english’ 예시 tokenizer = torchtext.data.utils.get_tokenizer('basic_english') tokenizer("You can now install TorchText using pip!") # ['you', 'can', 'now', 'install', 'torchtext', 'using', 'pip',..

강주형
'pytorch' 태그의 글 목록