<데이터분석과정 수강기> #3 트위터크롤링

in #kr-science7 years ago (edited)

#2 에서 이어짐
안녕하세요, 데이터분석 뉴비 @islandvibes입니다. 데이터분석을 하려면 일단 데이터가 있어야 하지 않겠어요. 그리고 트잉여라면 당연히 트위터를 긁어보고 싶지 않겠습니까

<hr /> <h1>두번째, 크롤링(트위터)입니다. <p dir="auto">제가 쓸 패키지로는 모든 트위터를 긁어올 수는 없고 일주일쯤이었나.. 주는대로 잘라서 받아올 수 밖에 없었습니다.<br /> (streamR패키지로 streaming API를 쓸 수 있는 방법도 있긴 했지만 어차피 제가 원하는 결과를 내기 위해서는 대략 긁어오면 되니 여기서는 아래의 패키지로 진행합니다.) <p dir="auto">진행하기 전에 OAuth 설정이 필요합니다. 키값을 받아오기 위해서인데요, 계정이 있으셔야 되고<br /> <a href="https://developer.twitter.com/en/docs/basics/authentication/guides/access-tokens" target="_blank" rel="nofollow noreferrer noopener" title="This link will take you away from hive.blog" class="external_link">generating a token 을 따라하시면 됩니다. createnewapp을 누르시고 적절히 항목을 채워주시면 됩니다.<br /> <center><img src="https://images.hive.blog/768x0/https://steemitimages.com/DQmTcCM3AoAMXkgRx8mUBYciNm2qpQe3yLmuYMEMnCmTeVR/image.png" srcset="https://images.hive.blog/768x0/https://steemitimages.com/DQmTcCM3AoAMXkgRx8mUBYciNm2qpQe3yLmuYMEMnCmTeVR/image.png 1x, https://images.hive.blog/1536x0/https://steemitimages.com/DQmTcCM3AoAMXkgRx8mUBYciNm2qpQe3yLmuYMEMnCmTeVR/image.png 2x" /><br /> <br /> 준비가 되셨으면 R로 돌아와서 쓸 라이브러리를 불러옵니다.<br /> 없으시면 install.packages()해주시면 됩니다.<br /> <code>library("twitteR")<br /> library("ROAuth")<br /> library("base64enc")<br /> <p dir="auto">아까 받아둔 키를 넣고(각각 ""사이에 넣어줍니다.)<br /> <code>consumerKey <- ""<br /> consumerSecret <-""<br /> accessToken <-""<br /> accessTokenSecret <-""<br /> <p dir="auto">아래와같이 설정을 해줍니다. 뭐가 뜨면 1번 누르고 엔터<br /> <code>setup_twitter_oauth(consumerKey, consumerSecret, accessToken, accessTokenSecret)<br /> <p dir="auto">그 다음엔 원하시는 걸 긁어오면 되요. 나의 마음을 긁어온다든지, RT를 긁어온다든지<br /> 제가 쓸 라이브러리 자세한 설명은 <a href="https://cran.r-project.org/web/packages/twitteR/twitteR.pdf" target="_blank" rel="nofollow noreferrer noopener" title="This link will take you away from hive.blog" class="external_link">여기있으니 원하시는 걸 해보시면 되고 일단 저는 특정 키워드를 포함한 트윗을 긁어보았습니다. <p dir="auto"><code><img src="https://images.hive.blog/768x0/https://steemitimages.com/DQmS5xGZzrmHJT9cZKn6YqrGN32A6gxntsr1dPVczKcj6K6/image.png" srcset="https://images.hive.blog/768x0/https://steemitimages.com/DQmS5xGZzrmHJT9cZKn6YqrGN32A6gxntsr1dPVczKcj6K6/image.png 1x, https://images.hive.blog/1536x0/https://steemitimages.com/DQmS5xGZzrmHJT9cZKn6YqrGN32A6gxntsr1dPVczKcj6K6/image.png 2x" /> <del>#'원달러'표시가 안되서 이미지로 붙였습니다....<br /> bigdata <- searchTwitter(searchString=keyword1, n=30000, lang="ko", since = '2018-02-09')<br /> <br /> 긁어온 것 중에 텍스트컬럼만 저장합니다.<br /> <code>tweets.df <- twListToDF(bigdata)<br /> text <- tweets.df$text<br /> <br /> 이것저것 힘들었으니 한번 끊어갑시다. 다음시간의 목표는 워드클라우드입니다.<br /> <code>save(text, file="twitter.Rdata")<br /> <br /> 저장! 다음에 로드해서 이어서 쓰면 되요.
Sort:  

Congratulations @islandvibes! You received a personal award!

Happy Birthday! - You are on the Steem blockchain for 1 year!

Click here to view your Board

Support SteemitBoard's project! Vote for its witness and get one more award!

Congratulations @islandvibes! You received a personal award!

Happy Birthday! - You are on the Steem blockchain for 2 years!

You can view your badges on your Steem Board and compare to others on the Steem Ranking

Vote for @Steemitboard as a witness to get one more award and increased upvotes!