Author Archives: purplechun

坐在公司喝啤酒

现在的我坐在办公室里,周围同事都已回家,我在fix bug。周四的下午公司里的tgif提供酒,所以我的面前有一瓶啤酒。

七月的我结婚了,和心爱的在一起八年的女孩。一闭眼第一次在小西门见到依的情景还清晰不已。戒指戴着还是不习惯。从此人生从一个人,变成了两个。

九月第一个团队制作的产品EatZ上线,从开始的0到一次一次的讨论,从对objc的鄙视到现在完整的开发出成型产品。自己也在随着产品在成长。不知不觉要到而立之年,有时觉得自己很渺小,但更多的时候还是想要突破小池塘,变成big fish。

桌子的正上方是一个硕大的地球气球,加入Google Geo一年有余,十分喜欢这个公司,遗憾成为不了自己的归属。乘坐的地铁每天从河底穿到另一个地方,它决定的我生活中的两个重要的点。什么时候其中一个点也能变成一个硕大的地球呢?

美国(纽约)驾照换北京驾照攻略

前两天(2014.09.01)刚在北京换了驾照,趁还记得写出来提供给有同样需求的人。

先说说我的情况,纽约驾照,北京集体户口的身份证。之前准备好复印件,表格;前一天照好照片,当天早上去附近医院很快做好体检。

具体的攻略网上有,我直接贴后面了,就说说我在看攻略的时候有疑问的几个点:

Continue reading

记忆碎片@影

经常回到豆瓣最主要的原因,是去记录自己看过的电影。再有几十部,那个数字就要满一千了。我与电影的缘分,自然是从那个数字起跳开始。

有时会想自己看过最早的电影是哪部,当真记不清了。小学到了南洋学校后,学校的电视台会在周末放映一些租来的VCD碟片,每当周末不回家住校,都和同学一起在教室看校电视台放的影片。好像是五年级的时候,一天父母单位组织出去看《泰坦尼克号》,回来后他们都说很好看,后来学校的电视台也放映了,里面的大场景和宏大的音乐记忆颇深。我最喜欢的的电影之一《大话西游》就是在高小的时候看的,那时候还是父亲拿回来的录像带。后来看到很多文章说《大话西游》刚放映的时候反响并不太好,但我真的是小学第一次看就无比喜欢。

Continue reading

宇宙魔力

想象着躺在一片铺满蒲公英的原野的夜,闭眼的一霎那魂飞快的冲出地球。

流体的形态悬浮在太空中–极自然优美的悬浮姿势。

火红的太阳在远处剧烈的燃烧着,仿佛能听到巨大的爆裂声。周围无限的寂静。

蓝色的星球旋转着向我冲来,一瞬间就冲到了我的面前,又一瞬间已在几百公里外。上面满是生命。

目光驶向远方,无数绚丽的星系悬挂在宇宙中,超行星绚烂的诞生,白矮星孤零零,红巨星逝去的王者风范,黑洞的贪婪,恒星的耀眼……

无比辽阔的让人窒息的宇宙,漂浮在那里,霎那间感觉到被虫洞吸进去,又被吐出到一个完全陌生的星系,在那一刻,呆住了,呈现在眼前的,是7颗大小不一的巨大行星,他们一个个的从我面前驶过,每经过一次,都是一个音符,do,ri,mi……也许这是宇宙中最和谐的旋律,天籁。

开阔的

use Hive Partition to Read/Write with subfolders

We all know that Hive read/write data in folder level, the limit here is that by default it will only read/write the files from/to the folder specified. But sometimes, our input data are organized by using subfolders, then Hive cannot read them if you only specify the root folder; or you want to output to separate folders instead of putting all the output data in the same folder.

For example, we have sales data dumped to hdfs(or s3), and their path structure is like sales/city=BEIJING/day=20140401/data.tsv , as you can see, the data is partitioned by city and day, although we can copy all the data.tsv to the same folder, we need to do the copy and change the filename to avoid conflict, it will be a pain if the files are a lot and huge. On the other hand, even if we do copy all the data.tsv to the same folder, when output, we want to separate the output to different folders by city and day, how to do that?

Can hive be smart enough to read all the subfolder’s data and output to separate folders? The answer is Yes.

Continue reading

记忆碎片@书

最早的读书记忆,应该是上学前,从姥爷家的箱子里翻出的舅舅看过的小人书。巴掌大得图画,开始了我的翻阅故事。

印象中还记得的小人书有《八仙过海》,香港电视剧的截图版;《神力王》,近代列强侵略中国,仁人志士是如何在擂台上扬眉吐气;当然少不了《丁丁历险记》,表情无辜机智勇敢的洋葱头带领小白雪历险的故事。

Continue reading

How to use Hadoop MultipleOutputs

Just like MultipleInputs, Hadoop also supports MultipleOutputs, thanks to the equality, we can output different data/format in the same MapReduce job.

It’s very easy to use this useful feature, as before, I will mainly use Java code to demonstrate the usage, hope the code can explain itself 🙂

Note: I wrote and ran the following code using Hadoop 1.0.3, but it should be working in 0.20.205 as well

Continue reading

快速批量修改豆瓣电影评分 using Javascript

截止 2016.05.06 依然有效

最近遇到一个问题,想要给早期自己在豆瓣上收藏的看过的电影评分,但问题是一个一个修改的话巨慢,于是写了一个小plugin脚本,只要在firebug的console里运行了就好(Chrome里应该也可以).

前提:登陆自己的豆瓣账户,进入自己的电影列表(需要是列表模式)。

movie_list_before

代码:(下面的code默认用到了 jQuery, 豆瓣支持此库)

Continue reading

use Secondary Sort to keep different inputs in order in Hadoop

SecondarySort is a technique that you can control the order of inputs that comes to Reducers.

For example, we wants to Join two different datasets, One dataset contains the attribute that the other dataset need to use. For simplicity, we call the first dataset ATTRIBUTE set, the other dataset DATA set. Since the ATTRIBUTE set is also very large, it’s not practical to put it in the Distributed Cache.

Now we want to join these two tables, for each record in the DATA set, we get its ATTRIBUTE. If we don’t use SecondarySort, after the map step,  the DATA and ATTRIBUTE will come in arbitrary order, so if we want to append the ATTRIBUTE to each DATA, we need to store all the DATA in memory, and later when we meet the ATTRIBUTE, we then assign the ATTRIBUTE to DATA.

Continue reading

怀念仙剑-词一首

2007.05.27 作于北大,最初写在校内网,拷贝至此留念    

仙字一把,剑御前

万千个小鬼寻衅

呵声怒,冲它个乱,影不全

灵绕,柔意里是那笑颜

月洒,夜半衣披肩

还有奴,精怪翩翩

情满,不羡神仙

身去,泪予谁?搁浅

也罢

一切本是因缘

仙字难圆,剑敛

然这份感动,长留心间

————————-

一下午,脑中总是浮现出仙剑的画面,月如在圣姑床上冷冰冰的身体,灵儿与水魔兽的同归于尽,月如抱着忆如出现在雪地……“我们三个永远不要分开”“吃到老,玩到老”,月如的幸福是那样的让人心碎。我总和别人说我是灵儿派的,可是哪分那么清楚,他们给我带来的感动,已无法衡量。