20180722 Python, Atom, parsing

Python 3.6 에서 beautifulsoup4 패키지를 사용, xml파일을 긁어오는(parsing) 작업을 하고 있다. 이를 위한 코딩에는 Atom 에디터를 사용하고 있다. 

파이썬은 이제 겨우 초보를 벗어난 수준인데, 웹에서 데이터들을 다운받아 마구잡이로 쌓여있는 xml덩어리들을 하나하나 나누고, 나눈 xml 파일마다필요한 정보들을 긁어 csv로 옮기려니 초보 수준에서 부딪히는 문제들이 많다. 그래도 구글링과 stackoverflow의 도움으로 어찌어찌 조금씩 나아가는 중. 

코딩 에디터로 처음에는 SublimeText 3를 썼는데, 뭔가 편하지 않았고 이후 Python을 공부했던 강의에서 Atom 에디터를 쓰기에 주욱 쓰고 있다. 원래 에디터는 하나에 익숙해지면 계속 그것만 쓰게 되기 때문에, 파이썬용 코딩 에디터로는 Atom을 쓰게 될 것 같다. 마치 내 경우 LaTex 문서 편집용으로 lyx이 더 편하다는 걸 들어 알면서도, 새로 배우기 귀찮아서 석사때 부터 쓰던 Texmaker를 계속 쓰고 있듯이.

Atom에서 파이썬을 돌리면 무겁다는 이야기들도 봤는데, 아직까지는 그런 문제를 겪고 있지 않다. (나쁘지 않은 데탑을 1년 전에 산 덕일까.) 그리고 무겁다 싶으면 Atom에서는 코딩만 하고 돌리는건 윈도 command 창에서 돌리면 되니 에디터를 탓할 일은 아닌 듯. Atom에서 간단한 것들은 Jupyter와 연동된 Hydrogen으로 바로 돌리는데, 매우 유용하다. 

지난 학기 3년차 페이퍼 마치고 python 강의를 하나 처음부터 끝까지 들으면서 초보 수준은 벗어난 것 같다. (과제를 끝까지 정확하게 다 해야 수강료를 돌려주는 강의였다. 역시 사람은 인센티브에 반응한다는.) 앞으로 몇몇 패키지들, 특히 beautifulsoup4과 pandas 를 틈나는대로 더 익히면 유용할 것 같다. 

모든 프로그래밍이 그렇듯이 안쓰다 보면 유용한 단축키나 유의사항 같은 것은 잘 까먹는다. 여기에 메모해둬야겠다. 

- Atom에디터에서 Hydrogen은 Jupyter와 연동해서 돌아간다. 따라서 hydrogen을 사용할 때, 코드에서 불러들이는 패키지가 conda 가상환경에서 불러들이는 것이라면 그 패키지는 Jupyter가 깔린 conda 가상환경에 함께 설치되어 있어야 한다. 일전에 beautifulsoup과 lxml을 Jupyter가 깔려있는 가상환경과 다른 가상환경에 깔았더니 hydrogen에서 돌아가지 않아 원인을 찾는데 한나절을 헤맸다. 

- 윈도 커맨드 창에서 beautifulsoup을 실행할 때는 conda 가상환경을 activate 한 이후 코드를 실행해야 한다. (너무 당연한거지만 잘 까먹는다.)

- Atom 단축키(http://ondesk.tistory.com/178) 중 유용한 단축키

Hydrogen 실행 단축키 : Ctrl + Enter
코드 비활성화 : Ctrl + /
들여쓰기/내어쓰기 : Ctrl + [ , Ctrl + ] 


- XML 문서에서 태그안에 들어 있는 값 자체를 파싱하는 경우
https://stackoverflow.com/questions/8533673/beautifulsoup-get-tag-name-of-element-itself-not-its-children

덧글

댓글 입력 영역


통계 위젯 (블랙)

21
17
713

통계 위젯 (화이트)

21
17
713

이 이글루를 링크한 사람 (블랙)

1