专访 Thoora

thoora.jpg

Thoora 是一家位于多伦多的公司,2008 年 3 月成立,他们的产品是新闻聚合器。低调开发一年之后,它入围了今年的 Techcrunch 50 。传统新闻聚合器的资讯来源主要是 Top 100 类的网站和博客,Thoora 认为不应忽略来自普通博客的声音,所以他们索引了大约 8000 万个博客,不仅如此,他们还增加了对评论与 Twitter 的监测,将这些数据综合在一起,来判断某件新闻的影响力。

新闻聚合器可以分为三类,全人工(如 Digg),半人工(如 Techmeme)和全自动化(如 Thoora),Thoora 走的更远一些,加入了对社会化媒体的监测。虽然许多人认为新闻聚合器的市场几近饱和,但如上所述,Thoora 在细分市场里有独特的地方,即挖掘了所有可能的信息来源。它是少有的能让我很快就弄明白日后盈利方法的公司:在页面中出售广告和向企业出售统计数据。

这是技术与盈利手段结合紧密的一个例子,由于 Thoora 的核心是回应(Reaction),回应样本越多,数据的精确程度就越高,商业上的价值也越大,所以若要说 Thoora 是纯粹的聚合器,其实也不尽然,它还有监测器的成分。以下是我对 Thoora 团队高级软件工程师 Yingbo Miao 的采访。

 

Q:Thoora 在 TechCrunch50 之后的运营状况如何?注册人数增长情况怎样?近一段工作主要是什么?

A:正在紧张的完善现有功能。很快就会有「Public Beta」出现(编者:目前已经进入 Public Beta 阶段。)功能主要是一些比较小的改进,系统运行进一步完善。同时,质量(比如 Ranking)是一直在改善的。其实有很多工作在后台,从用户的角度可能不是很明显。注册人数几千吧。

 

Q:Thoora 这个名字的来历是?

A:哈哈,这是自己造的词。当时创始人 Hyun Chul Lee (nickname Chul) 试验了很多简单,比较好辨认的名字,都被人注册了。最后发现 Thoora 没人用。Thoora 这个词有一点希腊渊源,大约有 gateway, vision 之类的愿意。教训是即使不开公司,注册个 5、6 个字母的域名先。:-)

 

Q:你们采用什么工具来开发网站架构?Thoora 似乎有使用到亚马逊 S3 ,有使用 EC2 吗?

A:没有用 S3 或者 EC2, Thoora 的网站架构和数据存储是自己开发的。后台有很多 Process ,包括数据采集、分析,这些结果储存在自己开发的分布式数据库里。前端主要是显示数据和用户登录,中间有中间层来传递数据(包括进一步处理数据)。主要系统开发语言是 C++。当然个别的内部研发可以更自由一些,比如少量的 Python 或者 Perl 。

 

Q:Thoora 是如何做到采集互联网上所有博客的?排序的依据我不大明白,为什么有一些发布时间、响应规模都更大的消息排在后面了?是否是因为你们对新闻的重要性也有判断?

A:不敢说所有博客吧,绝大部分的英语博客是采集了的。从各大 Blog platform 和 Ping service 可以得到很多,还有就是网站连接,这比 Google 之类的爬虫要简单,但是,我们也有一些复杂的算法来控制访问某个网站的频率。

排序是有很多因素控制的,算法比较复杂,设计很多 Research,而且在不断改进中。Thoora 主要是想:到底什么新闻最重要。如果我们相信各大媒体的编辑的话,就很简单了:把几大新闻媒体的头条拿来就可以了,可是,这样的结果完全偏向于主流媒体(的编辑们)。Digg 试图让读者「digg」一下,来解决「大众投票」的问题,结果成了希奇古怪新闻的集散地。 Thoora 通过对 Blog 和新闻的结合分析来解决「What the world is talking about」的问题。最重要的 Story ,应该有大量的高质量的 Post(可能是Blog,也可能是News)。可以想像的是,时间、Post质量等等因素,都会影响某个Story的排名。

 

Q:请谈谈在 Mac 和 PC 上的开发有什么不同,你主要使用什么平台和工具进行开发的呢?负责哪一块的工作?

A:Thoora 所有的程序都在 Linux 服务器上运行,编译基本上也是在服务器上完成的,所以对于开发人员来说,Mac 还是 PC ;OS X,Linux 还是 Windows 都差不多。不少人是开个 Terminal 连到服务器上去 VI 或者 Emacs,本地操作系统只是用来做开发以外的工作:邮件、文档、IM 或者上网什么的,其实什么计算机或者操作系统都行,公司对个人使用什么也不限制。反正不是 Macbook 就是 PC 的笔记本,价格也差不多。不过用 PC 的同事都装 Linux,个别需要用 Windows 特殊软件的(比如 Visio 或者一些 System / Netword admin 的软件),就用虚拟机跑一下也够用了。公司里大约一半人使用 Mac 。

开发上看不出什么不同。用 VI / Emacs 的就不用说了。Windows 上可能程序编辑器多些,不过 Linux 的 Kedit 什么的也不错。 Mac 上好像就没有什么特别好的写程序的编辑器,大名鼎鼎的 Textmate 和 Bbedit 有很多需要完善的地方。可是看看 Textmate,多少年没有什么大的改善了,可惜没有什么更好的选择。 Mac 上开发大部分人还是用 Textmate 和 Expandrive,我因为觉得这两个都不方便,就用了 Xcode + Vmware 的组合,不过同事都懒得折腾,目前只有我这么做:

用 Vmware 虚拟和服务器一样的 Linux 以及各种第三方 Library。程序代码存在 Mac 本地目录,不过和 Vmware 的 Linux 共享。用 Xcode 开发,编译是修改 Xcode 的「taget」:SSH 到 Vmware 上 make。好处是可以利用 Xcode 的一些 IDE 特性,缺点是蛮麻烦的。

我主要负责搜索的工作。

 

Q:在 Startup 中的工作感受是否会与之前在 Ask.com 有不同呢?

A:Startup 还是要更忙碌一些。「延长劳动时间,增加劳动强度」等方法都被用上了,呵呵。小公司就几个人,一个人是否用心工作,全公司都能看见,而且人手永远不够,所以要忙很多。Thoora 招人的时候是秉着「宁缺毋滥」的原则,所以所有成员的水平都蛮高的,这意味着要更努力工作才行。公司小,成员之间都很熟,平时上班感觉环境还是很亲切的。

好在作息时间上并不严格的早 9 晚 6,基本上什么时候到公司都可以。好处是可以晚点到公司来躲开交通高峰,缺点是晚上回家还要加班了。Ask.com 比起来要相对轻松一些,更象大公司一些。当然,如果一个人要想好好表现,还是要很努力工作才行。

 

Q:Twitter Impact 很有意思,这个功能是如何实现的?

A:用 Twitter API 实现的。

 

Q:未来是否有计划加入对中文信息的索引?

A:还没有具体的计划。加入中文一方面意味着要加强中文的处理,另一方面也要求公司处理中国的市场。后者相对更难一些。当然,「国际化」一直是公司的目标之一,Thoora 一直希望能加入各个国家各种语言的新闻和博客。

 

Q:Thoora 目前无须登录也能使用了,这其中的考量是?正式版何时推出?

A:之前是 Private Beta,现在是 Public Beta 了,就不用登录了。登录的用户会有更多的功能,比如评论,查看好友评论等。对不起,暂时还不能公布正式版的时间。

 

Q:Thoora 从 Buzz 开始逆向扫描,这是否要动用比传统新闻聚合器更多的处理资源和带宽消耗?我觉得 Buzz 大多是由新闻和博客所引发的,这样做似乎不如同时监测新闻和 Buzz。

A:Thoora 是从新闻和博客扫描开始,生成 Buzz。

 

Q:这样同传统的聚合器差不多啊。

A:Thoora 的特点是:
不仅仅是新闻,博客的反应更重要。目前的聚合器只考虑新闻,这样就偏向于传统媒体的编辑的口味了。有时,一个事件的发生,可能时博客领先于媒体,比如「谣传」某大公司要如何如何,Thoora 可以很好的捕获这个事件。如果只依赖传统新闻就不行了。
排序时考虑「social media」和用户评论。
把新闻和博客联系起来。这样,在 Thoora 的「story」里,可以看见事情的新闻报道和相关的博客(评论),所以用户可以找到感兴趣的博客。
所有故事的生成的都是自动的,没有任何人工干预。

 

Q:语义分析对新闻聚合器来说是否很重要?特别是对 Thoora 这种完全自动化的聚合器?

A:是很重要。

 

Q:标题缩略图的选择也是完全自动化的吗?有的图片在原文中并未出现。

A:是自动化的,所以现在有一些错误,:)

 

Q:投放广告似乎能带来立竿见影的效果,Thoora 在商业化上有时间表吗?

A:暂时没有。是的,投放广告是我们的商业模式之一,同时 Thoora 也在考虑其他模式,比如提供一些公司的付费服务,帮助它们跟踪市场。

 

Q:Thoora 在成立伊始即获得为数不少的投资,能否谈谈这其中的故事。

A:故事其实挺简单。创始人之一 Hyun Chul Lee,Thoora 的 CTO,遇到了现在的 CEO Mike Lee。Mike Lee 是 Rogers 的管理人员。Rogers 决定投资 Thoora,哈哈, 就是这样了。

 

Q:有 Rogers 做推,Thoora 是否省下了许多带宽开支?能否介绍一下服务器的硬件配置?

A:Thoora 并没有采用 Rogers 的数据中心和网络。原因其实可以想像:作为一个庞大的运营公司,对自己的数据中心有详细的规章制度。而 Thoora 作为一「start up」的公司,需要快速灵活的反应。于是,Thoora 的数据中心是由第三方提供的。

十分抱歉,服务器的配置也是不能透露的。不过,Thoora 有大量的服务器,来满足后台运算的需要,快速实时处理对互联网的新闻、博客和社会媒体。