此前,腾讯云搜借势黍黎事件亮相,凭借独家开放的“高级纠错”功能,腾讯云搜引发行业内的广泛关注。
近日,云搜背后的腾讯智能计算与搜索实验室(简称TICS LAB)逐渐浮出水面,走入公众视野。该实验室的研究方向透露了腾讯对前沿技术的布局,产品陆续开放更凸显了腾讯开放的决心。据了解,在云搜之后,实验室的语义分析产品文智亦已通过腾讯云对外开放。
布局前沿技术,建立智能计算与搜索实验室
腾讯智能计算与搜索实验室成立于2015年,成立的目的是结合学术力量和行业力量,连接符合行业发展趋势的先进科技与互联网产品。该实验室目前专注于四大研究方向:搜索技术、自然语言处理、数据挖掘和人工智能。
我们或许可以想象这样的一个图景:实验室通过搜索技术汇集网友的海量搜索信息;再用自然语言处理技术将海量用户的搜索语句拆分成词、句等模块并理解其意思,得到以大数据呈现的海量分析结果;最后再通过数据挖掘和人工智能领域技术对大数据进行自动的分析处理,输出实时计算结果、趋势分析等。
为了实现研究目的,实验室的研究人员汇集了腾讯内外部优秀的科研人才。对内,实验室组织腾讯公司技术与工程事业群里有学术志向的员工参与研究工作;对外,邀请了业界专家学者担任顾问。同时,腾讯还积极地与哈工大,中科大等高校展开合作。多方研究人员合力奠定了实验室厚重的理论基础。
在此基础之上,腾讯依托于自身的业务资源和海量数据做出了深入的研究,并将研究数据及时地应用到了腾讯的各项业务中。目前,研究成果已经成功应用于微信、QQ、QQ音乐、QQ视频等产品之中。接下来通过腾讯云,实验室的两大产品云搜和文智都将开放给行业使用。
腾讯云搜:一站式搜索服务平台
移动互联网时代,人们使用移动应用的时间越来越多。但相对互联网页面而言,移动应用是一个个信息“孤岛”,传统网络搜索引擎无法抓取其内容和内部使用情况。这就需要更适合移动互联网、功能更强大的搜索引擎。
云搜是腾讯智能计算与搜索实验室对外开放的第一个产品,基于腾讯在搜索领域多年的技术积累,对公司内部各大垂直搜索业务搜索需求进行高度抽象、整合,并且把搜索引擎组件化、平台化、服务化,最终形成成熟的搜索对外开放能力。云搜,可以为移动应用开发者和网站站长提供一站式搜索托管服务。
云搜功能丰富而简单易用,客户不需要关注云搜的运行原理和维护方式,只需简单接入即可。此外,云搜还为用户提供了专属的定制服务。例如搜索是依托于数据进行的,云搜为用户提供可视化的数据定制服务,包括可视化的数据预处理和离线排序定制能力。
搜索结果产生之后要进行排序,排序的结果决定了搜索引擎的优劣。在排序方面,云搜同样提供了定制功能,即用户可根据自己的应用特性选择匹配的打分库模版,同时能够通过友好的可视化界面自定义排序表达式,充分定制自己的个性化搜索服务,获得更加合理的搜索排序结果。
除了在基本功能上可定制,云搜还提供了多种高级武器:联想词推荐、高级纠错、人工干预、按域检索、个性化分词等附件组建功能。
腾讯文智:一站式中文语义分析开放平台
文智中文语义开放平台基于并行计算系统和分布式爬虫平台,一站式满足用户NLP、转码、抽取、全网数据抓取等需求。用户能够基于平台对外提供的API实现搜索、推荐、舆情、挖掘等语义分析应用,也能够通过深入合作定制产品特色的语义分析解决方案。
文智平台包含四大模块,第一是词法类模块,当得到一个句子的时候,它可以完成智能分词。即把一个句子拆成几个部分,每个部分由一个词组成。紧接着词法类模块会将所有的词做词性标注,分为名词、动词、形容词等。此外,该模块还包含实体识别功能,目前支持游戏、人名、机构等实体的识别。
第二类模块是句法类模块,目前包含短串纠错,同义词扩展等功能。
第三类模块是篇章类模块,该模块可以从短文中提供关键词并具备情感分析、自动摘要、分类等功能。也就是说针对这篇文章,篇章类模块可以提取文章的关键词,并根据关键词得出文章内容所属的领域,比如美食类、旅游类、健康类等。此外,还能分析出文章的正面情绪与负面情绪的占比。因此篇章类模块可应用于文章的智能分类和舆情分析等领域。
第四类模块是下载类模版,即帮助用户一站式实现网页抓取、转码、结构化抽取功能。
基于这些功能强大的模块,文智可以给客户提供强大的中文语义分析功能。
腾讯云搜、文智都是腾讯智能计算与搜索实验室的拳头产品,代表的是当下互联网时代的前沿技术。现在,腾讯通过云计算将前沿技术能力开放给全行业,让创业团队都能装备上互联网巨头级别的前沿技术积累,这样无保留的开放势必可以为开发者提供有力支持,给行业带来新的变化。
(新闻稿 2015-08-06)