20190326 연말정산

미국 와서 하는 4번째 연말정산이다. 

전에도 블로그에 적었지만(Link), 미국에 있는 외국인 납세자(Non-resident alien)의 경우 우편으로 연말정산을 진행해야 한다.
그래서 올해도 국제학생처에서 하는 외국인 학생 대상 연말정산 세미나에 가서 연말정산 프로그램(Glacier)의 코드를 받아 집에서 연말 정산 서류를 작성했다.

...

음, 환급 금액이 예상보다 좀 적은데...? 

뭔가 이상하다. 자세히 보니 과세소득이 예년보다 좀 큰 것 같다. 과세소득이 적어도 $6000+장학금 정도는 깎여야 하는데 절반 정도 밖에 깎이지 않았다. 

작년부터 아내도 칼리지에서 파트타이머로 일을 시작했기 때문에 소득이 생겼고, 그래서 아내도 올해부터는 세금보고를 해야 한다.
아내의 세금보고 서류를 입력해 보았다. 
아내의 경우 소득 자체가 워낙 적었기 때문에 아마 낸 세금을 모두 돌려 받을 거라고 예상....했....는데...

..
무려 세금을 더 내야 한다는 결과가 나왔다.
아니, 벼룩 간을 빼먹지, 파트타임으로 일한 소득에 세금을 원천징수해 갔는데 더 내야 한다고? ㅂㄷㅂㄷ....

...
...
...

결론만 얘기하면, 올해부터 적용되는 미국 개정 세법의 피해를 보는 그룹중 하나가 우리 같은 저소득, 외국인, 유학생 부부라는 것이었다.

(외국인 학생을 대상으로 한 세법 개정안을 설명한 자료 : Link)

- 종래에는 과세소득 계산시 가구의 1인당 $4,050씩 인적 공제를 해 주었으나, 올해부터는 없어짐. 따라서 내 경우에도 내 수입(TAship)에서 4,050달러씩 빠지던 것이 빠지지 않았기에 과세소득 및 세액이 늘어남. 아내의 경우 애초에 작년 연소득이 $4,050보다 미만이기 때문에 종전 같으면 내야하는 세금이 0이어야 하지만, 바뀐 세법에서는 꼼짝없이 세금 다 내...야...함

- 위와 같은 '인적공제' 가 없어진 대신 가구별 전체 과세소득에서 일정금액을 빼주는 표준 공제금액은 늘었다고 하는데, (거주한지 5년이 안된) 외국인은 해당사항 없음. (따라서 대부분의 유학생들은 세금 부담이 제법 늘게 됨.)

- 게다가 무슨 이유인지 정확히 모르겠지만 아내의 경우 한미조세협정에 따른 인적공제 $2,000 도 받지 못함. (아마 2년제 칼리지라서 그런게 아닐까 추측하는데, 정확하지는 않음.)

...

그래서 결론은, 예전 같으면 그래도 편도 한국행 비행기표 한 장 정도의 금액을 환급받을 수 있었는데
바뀐 세법 덕에 절반도 못돌려받게 되었다는 어느 유학생 부부의 슬픈 이야기가 되겠다. 

20190228 한글인코딩

csv를 엑셀, STATA, 메모장에서 한글 깨지지 않게 인코딩/디코딩하기.
삽질하면서 방금 해결한 거니까 여기에 정리해둬야겠다.

- 한국 특허청에서 한국 특허데이터를 불러올 경우 양수인이 거의 대부분 한글로 적혀 있음.
(LG전자도 엘지전자로, STX조선해양도 에스티엑스조선해양 이런식으로)

- 이를 .csv로 기록할 때 엑셀에서도 한글을 깨지지 않고 읽어내려면 cp949나 euc-kr로 인코딩해야 함.
(그냥 utf-8로 인코딩해도 메모장에서 보는데는 문제 없는 듯.)

- 이를 STATA에서 불러들이려면 다시 한글이 깨지는 문제 발생. 
처음에는 구글링 하니 STATA14 이상 버전에서 'unicode encoding / translate' 명령어로 해결하라는 조언들이 여럿 있어 그렇게 해 봤으나 잘 안됐음.

- 대신 STATA14에서 csv를 불러들일 때 인코딩 방식을 지정하니 깨지지 않았음. 아쉽지만 STATA13에는 인코딩을 지정하는 옵션이 없음.

import delimited 파일이름, encoding("euc-kr")

- 내 경우 STATA 13이 정식버전이라 주로 그걸로 작업하는데, 
그 경우 STATA 14에서 euc-kr로 불러들인 데이터를 saveold 명령어로 stata 13버전으로 바꿔주면 또 깨짐. 
근데 그냥 에디터에서 데이터를 복붙하면 멀쩡하게 들어감(;;;). 이유는 모르겠음.

- 아 그냥 엑셀파일로 읽어낼 수 있으면 csv를 엑셀에서 저장한 다음  stata에서 import해도 깨지지 않음. 
다만 엑셀의 경우 최대 읽어낼 수 있는 건수가 100만 몇천건인가 그러니 데이터 관측치가 그보다 큰 경우 이 방법은 불가능.

아무튼 그러함.

20190227 특허 자료

- 한 반년 넘게 미국 특허청(USPTO) 특허 데이터를 만지고 있다보니 이제 특허 데이터에 대해서는 제법 알게 된 것 같다. 

- 사실 특허 데이터를 처음 알게 된 계기는 벌써 7년 전, 석사 첫 학기에 같은 연구실에 있던 동생이 밤늦게까지 뭔가를 열심히 코딩하는걸 보게 되면서였다. 이 늦게까지 무얼 하고 있는지 물으니 교수님들 연구보조(RA)하는 건데, 미국 특허 데이터를 받아서 파이썬(Python)으로 막 긁어서 이렇게 저렇게 뭔가 하고 있다고 간단히 설명해 주었다. (2012년이었으니 아마 Python2였겠다.)

그때만해도 Python이나 특허나 아무것도 몰랐고, 그저 '오....뭔지 잘 모르겠지만 아무튼 멋지군...' 하며 신기하게 본 기억이 난다. 관측치 수천-수만의 개인 단위 패널데이터만 보던 내게 관측치가 백만이 넘는 특허데이터는 뭔가 신기해 보였던 것 같다. 

(그 친구가 하던 그 작업은, 교수님들과의 공저로 전세계 경제학계 20위권의 저널에 실렸다. 물론 경제학계 전체에서 20위권이면 매우 좋은 수준의 저널이다. 해당 연구를 하시던 교수님이 그 연구에 대해 언론에 쓰신 칼럼도 내게는 좋은 동기가 되었다. Link)

- 그리고 유학을 와 무역을 공부하면서, 무역-혁신에 관련된 연구들을 알게 되고 특허데이터를 이용한 연구들이 최근 몇몇 있다는 것을 알게 되었고, 7년전 그 기억이 나로 하여금 결국 지금 이쪽 연구를 시작하게 하였다. 
특허 데이터를 만질 수 있다는걸 알지 못했다면 아예 이쪽 연구를 시도할 생각도 못했을지 모르니, 석사 때 지나가며 곁눈질로 본 것이 결국 지금 내 연구를 시작하는데 중요한 계기가 된 셈이다. (이래서 이것저것 구경하는게 도움이 된다.)

- 어제는 한국특허청의 데이터를 처음으로 받아보았다. 미국 특허청의 데이터를 다운 받아 긁어내는 코드를 만들어 둔 덕분에, 한국 특허청의 특허를 받는 것은 기존 코드를 약간 고쳐서 그리 어렵지 않게 할 수 있었다. 
미국이나 한국이나 xml 형태의 자료로 특허 데이터를 제공하는데, Python의 Beautifulsoup을 활용하면 약간의 코딩+삽질로 내가 필요한 변수들만을 긁어내 데이터를 만들 수 있다. 
다만 좀 더 기술적인 부분에 있어서, 미국 자료의 경우 xml을 쌓아놓은 형태로 제공하기 때문에 그걸 하나씩 잘라주는 코드도 필요하다. 한국 자료의 경우 신청인 정보가 한글로 되어 있기 때문에 csv파일에 저장할 때 한글이 깨지지 않도록 인코딩하는데 신경쓸 필요가 있다. 

- 데이터를 받는데 있어 미국 특허청의 경우 대용량 데이터 시스템을 구축, 다양한 종류의 특허 데이터를 매주 웹에 게시한다. (link) 그렇기 때문에 연구자는 그냥 '클릭'만으로 원자료를 컴퓨터에 받을 수 있다. 물론 수개년~수십년치 자료를 그렇게 받는 것도 귀찮은(;;) 일이니 그냥 코드 몇 줄 적어 자동적으로 다운 받도록 하는게 더 편할 것이다. (물론 교수님들은 대신 대학원생들 시키면 되겠지)

반면 한국 특허청의 경우 대용량 특허 자료를 바로 다운받을 수 있는 시스템은 없다.(돈 많이 주면 대용량 자료 자체를 팔긴 한다.) 대신 Open API 로 데이터를 쏴주는 플랫폼은 갖고 있어서 (Link) , 서비스 키를 신청해 받은 다음 내가 원하는 조건들을 입력하면 원자료들을 불러 올 수는 있다. 웹에서 데이터를 전송받는 방식이기 때문에 한번에 요청할 수 있는 건수가 제한되어 있고, 그래서 불러 들이는 코드를 짤 때 전체 데이터를 여러번에 걸쳐 받도록 코딩해야 한다. 한번에 최대 5,000건이긴 한데 실제로 해 보니 2,000건만 요청해도 전송이 특허청 쪽에서 툭 끊기는 경우가 생기는 것 같다ㅠㅠ 반면 한 번에 데이터를 받는 건수를 적게 하면 안정적으로 받을 수 있기는 하지만, 대신 무료 서비스의 경우 한 달 동안 api를 요청할 수 있는 기회가 제한되어 있기 때문에 결국 '적당한' 수준을 찾아야 하는 듯. 

- 원자료를 받는 것은 비교적 쉽지만, 이걸 내가 쓸 수 있게 가공하는데는 생각할 부분들이 여럿 있다. 예컨대 특허의 출원인/양수인 정보를 사용하려 할 때 그 이름들의 오타/표기 양식의 차이들을 클리닝하는 문제라든지... 특허의 분류 정보를 사용하려 할 때 분류 체계의 일관성에 관한 문제라든지... 그렇지만 특허 데이터 자체는 기업 단위의 기술 축적 및 연구/혁신활동에 대해 꽤 자세한 정보를 담고 있다. 

- 내 연구에 있어 미국 특허데이터와 한국 특허 데이터를 사용하는데는 각각 일장일단이 있다. 다만 그건 너무 긴 이야기가 될 것 같고, 연구자가 데이터를 사용하는 것만 보면 미국 데이터가 더 친절하고 한국 데이터가 좀 더 불친절한 면이 있다. 예컨대 미국 자료의 경우 특허의 양수인 국적도 포함되어 있지만 한국 특허 자료는 국적 정보가 없다. 그리고 양수인이 여럿인 경우 미국 특허는 하나하나 구별해서 제공하지만 한국 특허는 그냥 뭉뚱그려 던져주는 느낌이다. (삼성전자와 홍길동이 같이 출원한 특허라면 미국은 양수인1-삼성전자, 양수인2 - 홍길동이라고 되어 있지만 한국은 그냥 '삼성전자 홍길동' 이렇게 되어 있는 셈.) 특허 분류 체계도 마찬가지. 그 밖에 미국 특허는 인용/피인용 정보도 포함되어 있지만 한국 특허는 인용 정보를 사용하기 어렵다는 것도 단점. 

- 미국의 경우는 이미 연구자들이 사용하기 편하게끔 가공한 특허 자료들도 몇몇 존재한다. 심지어 미국 특허청도 최근에 원자료를 가공해 특허 데이터를 서비스하기 시작했다. 머신러닝 알고리즘을 사용해서 위에 언급한 오타, 표기 양식 문제까지도 상당부분 클리닝해서 제공한다. 물론 알고리즘이 아직 완벽하지는 않아서 마지막에는 결국 연구자가 직접 봐야하는 부분들이 있지만, 앞으로 더욱 개선될 것이라 생각한다.
반면 한국의 경우 내가 과문할 수 있겠지만, 아직 대중적으로 사용할 수 있게끔 정리되어 나온 특허 자료는 없는 것 같다. 연구자/그룹 단위에서 내부적으로 갖고 있는 것은 있을지 몰라도.

- 어제 아내에게 이런 이야기를 막 늘어놓으니 아내는 재밌어 하면서도 세상의 빠른 변화가 약간 무섭다고 그런다. 나도 동의했다. 경제학계에서도 데이터를 활용한 실증 논문들을 보면 1980-2000년대 논문들은 사실 큰 변화를 느끼기 어려운데, 최근 10년 정도의 논문들을 보면 데이터나 분석 방법론들이 제법 빠르게 변화하는 것이 느껴진다. 지금 내가 하고 있는 것도 전혀 첨단이라 보기 어렵지만, 불과 10여년 전만 해도 박사과정 연구자가 자신의 방 컴퓨터에서 전체 특허 원자료를 긁어 연구를 시도하는 것은 쉽지 않은 일이었을 것이다. 경제학계의 경우 가장 고전적인 연구용 미국 특허 데이터가 전미경제연구소(NBER)의 프로젝트로 만든 데이터(Link)인데 이것이 처음 나온 것이 2002년, 아마 많은 RA들의 '공밀레'로 만든 데이터였을 것이다. 
요새는 어딜 가도 '머신 러닝' '딥 러닝'이니 이런 단어들이 쉽게 들리는데, 몇년만 지나면 이런 것들도 이제 학부생들 레포트 정도에서 쉽게 보이는 기술들이 되려나. 물론 정말 중요한건 이런 기술들이 아니지만...

190221 연구 관련 잡기록

- 3년차가 끝나고 나서, 나는 3년차 필드 페이퍼로 쓴 것과는 완.전.히 다른 주제로 연구 방향을 바꿨다. 물론 무역이라는 대주제 안에서 새로운 소주제를 찾은 것이긴 하지만..

연구 주제를 바꾼지는 1년, 본격적으로 시작한지는 반년 정도 되었는데 '무역과 혁신'이라는 큰 틀에서 이론 모형을 세우고 기업-특허 데이터를 사용한 분석을 한 연구를 진행중이다. 그 사이에 세부적인 방향도 한 번 바뀌었고.
주제를 새로 바꾸려고 마음먹은지 약 1년이 다 되어가는데, 지금까지는 잘한 선택이라고 스스로 보고 있다. 
진척이 더디지만, 그래도 느리더라도 꾸준히 나아가려고 노력하고 있다. 

- 연구 주제를 바꾸고 나서 해당 주제를 연구한 적이 있는, 혹은 관련이 있어보이는 한국인 연구자들 서넛을 연락했고 그 중 한 분과 이야기가 맞아 작년 12월 경부터 다른 공동 프로젝트를 하나 시작했다. 공동 연구자분도 젊은 조교수라 바쁘시고 해서 아직 진척이 많지는 않지만, 조만간 빠르게 진척을 내자고는 합의가 된 상태. 

- 내가 연락을 한 분들은 물론 모두 박사를 받은 교수/박사급 연구원들로 나보다 연령, 경력등이 대부분 위인데 호칭이 재밌다. 어떤 분은 (내 이름에) '박사님'이라고 호칭하는 경우도 있었고, XX 씨라고 호칭한 경우도 있었고, XX 학생이라고 호칭한 경우도 있었다. 개인적으로는 'XX 씨'가 가장 좋은 호칭이라고 생각한다. 같이 일하고 계신 교수님도 연락을 주고 받을 때 'XX 박사님'이라고 호칭해 주시는데 민망하다. 나 아직 학생이고, 박사 아닌데...

- 잡마켓이 빠르면 한 해, 평균적으로는 두 해 정도 앞으로 다가왔다. 이제 직접적으로 아는 선배, 친구들도 잡마켓에 나가고 해서 주위에서 보고 듣는 케이스도 많아진다. 올해 경제학 박사 한국인 잡마켓의 경우 박사의 공급도 많았지만 수요도 상당히 많았다고 한다. 그래서 그럭저럭 적당한 선에서 균형을 찾고 시장이 청산된듯. 

(개인적으로는 가깝게 지내는 친구가 올해 졸업해서 잡마켓에 나갔고, 결과도 좋았다. 그 친구를 통해 이것저것 주워들었다. 미국의 대학 및 Fed, 홍콩이나 대만 등 아시아의 학교들, 한국의 국책연구기관들 등등등) 

(내가 나갈 때는 공급은 적고 수요는 폭증했으면 좋겠다ㅎㅎ 아 근데 언제 나갈 수 있을까ㅠㅠ)

- 며칠 전에 학과 오피스에서 2년 후배랑 오피스아워에 잡담하다가 이야기를 하나 들었다. 
나와 그 후배가 한국에서 졸업한 학과에 재직중인 (외국인) 교수가 경제학 탑저널인 AER에 논문을 냈는데, 그 공동저자들과의 저자권(authorship) 문제로 떠들석했다는 것. 
그 교수의 폭로를 요약하면, 연구에 기여한 바가 없는 교수 둘이 자신들을 공저자로 추가해달라고 요구했고, 이를 거절하자 그들이 자신들의 인맥을 동원해서 논문의 게재를 막겠다고 협박했고, 결국 협박을 통해 공동저자로 무임승차했다는 것. 
대관절 AER이 뭐길래 공부도 많이하고 명문대 교수라는 양반들이 저렇게 막장스럽나싶다.(Link

- 박사과정중에 멘탈적으로 up and down이 계속되기에, 아내랑 의논한 끝에 다다음 주 봄방학에 동네의 심리상담전문가를 찾아가보기로 했다. 사실 스스로 위급, 심각한 상황이라고 생각하지는 않지만, 비용이 무지막지하게 비싼게 아니라면 심리 상담을 미리 받아보는 것도 좋을 것 같다. (+ 영어 연습도 할 겸.)

190129 배울 것들 버킷리스트

1. 연구에 주로 쓰는 프로그램

Latex, STATA, Matlab, Python, Excel...

2. 연구에 배우면 좋겠는 프로그램/기술

- Mathematica (배우는데 막 오래걸리지는 않는 것 같은데, 배우면 그림을 좀 쉽게 예쁘게 그릴 수 있는 듯?)

- R (언젠가 R을 한 번 깊게 만저보면 좋을 것 같음)

- Machine learning with Python 

(R도 그렇고 머신러닝도 그렇고 항상 '배우고 싶은 것' 리스트에는 있는데 직접적으로 연구에 연결되는게 아닌 한 당장 시간내서 배우기는 쉽잖다. 어떤 연구자분께서 '프로그램이나 스킬을 습득하는 가장 좋은 방법은, 그걸 사용하는 논문을 하나 쓰는거다'라고 하셨는데 맞는말이라 생각한다. 뭘 배워도 이걸 어떻게 써먹겠다는 생각이 없으면 별 소용이 없는 듯. 

예컨대 지금 내 연구를 위해 특허데이터를 열심히 만지고 있는데, 요새 왕왕 나오는 특허 데이터 연구들 중에는 특허의 초록에서 키워드를 추출해 분석하는 연구들이 있다. 예컨대 이런 연구... 지금 당장은 어렵지만 조금 길게 보아 언젠가 이런걸 해보고 싶다는게 희망사항.)

3. 인생 길게 보고 죽기 전에 언젠가 공부해 보고 싶은 것들

- 신학, 철학, 정치사상사. 

1 2 3 4 5 6


통계 위젯 (블랙)

21
17
713

통계 위젯 (화이트)

21
17
713

이 이글루를 링크한 사람 (블랙)

1