Back to Top

技术博客

有关语言云的更新、应用以及其他

24
March

使用语言云分析微博用户饮食习惯

饮食习惯分析

饮食习惯分析属于传统社会学范畴内的问题。但我们知道,无论使用问卷调查,还是通过调研各种食品消耗量来进行饮食习惯分析,都是很耗时耗力且昂贵的。 而另一方面,比如微博这样的社会媒体上,又存在着大量诸如“我今天去吃麻辣烫”这样反映用户真实饮食行为的文本,并且通常你还可以看到这个人的性别、地区、发微博时间等信息。 所以,我们很容易联想到,用微博等社会媒体上的数据,加上自然语言处理工具,你可以以很低的成本,进行饮食习惯的挖掘和分析,且很可能获得更真实有效的结果。

我们所提到的饮食习惯分析,也只是一个抛砖引玉,你完全可以进行阅读习惯分析、某种商品的消费行为分析等等。

[READ MORE]

21
March

使用语言云API开发微信公众平台相关应用

微信公众平台是腾讯公司在微信的基础上新增的功能模块,通过这一平台,个人和企业都可以打造一个微信的公众号,可以群发文字、图片、语音、视频、图文消息五个类别的内容。目前微信公众平台支持PC,移动互联网网页登录,并可以绑定私人帐号进行群发信息。 微信公众平台是一个自媒体平台,它提供出色的消息推送与交互的方式。本文将介绍如何使用语言云API开发微信公众平台相关应用。

使用语言云API开发微信公众平台APP需要具备以下三种条件:

  • 语言云API_KEY:开发者需要先持有语言云服务的API_KEY,注册方式:http://www.ltp-cloud.com/accounts/register/
  • 微信公众平台帐号:开发者需要首先是微信用户,并且需要申请一个微信公众平台帐号,申请地址:https://mp.weixin.qq.com/。为了演示方便,本文使用的是微信公众平台开发者测试帐号,读者也可以申请测试帐号用于开发调试使用,申请地址: http://mp.weixin.qq.com/debug/cgi-bin/sandbox?t=sandbox/login。 在开发者申请测试号成功后,可以管理测试号的相关信息,如下图所示:
  • 服务器:开发者需要有一台能够接入互联网的服务器,这个条件是必要的。读者应该注意到在申请微信公众帐号测试号的时候需要填写接口配置信息并验证,其中的URL即是依赖于开发者自己的服务器的(Token可以随意填写,用签名验证)。在本文中,使用了新浪公有云计算平台SAE,读者也可以申请,申请地址为:http://sae.sina.com.cn/ 。本文在SAE上部署了Django Web框架,使用Python语言来演示此应用。有关在SAE部署Python应用请参考:http://sae.sina.com.cn/doc/python/tutorial.html。开发者当然可以使用其他语言开发,但本文不提供其他语言的开发代码实例,聪明的读者可以自己完成。本文的代码示例完全基于Python语言和Django Web框架。有关Django,读者可以参考文档:https://docs.djangoproject.com/
[READ MORE]

20
Jan.

语言技术平台3.1.0版发布

  • 在分词、词性标注和依存句法分析模块中加入模型裁剪功能,减少了模型大小。用户可以通过配置文件里的rare-feature-threshold参数配置裁剪力度,如果rare-feature-threshold为0,则只去掉为0的特征;rare-feature-threshold大于0时将一步去掉更新次数低于阈值的特征。这一优化方法主要参考Learning Sparser Perceptron Models
  • 增加了ltp_server在异常输入情况下返回错误代码,如果输入数据编码错误或者输入xml不符合规则,将返回400
  • 修复了词性标注、命名实体识别、依存句法分析训练套件中的内存泄露问题
  • 修复了语义角色标注的内存泄露问题
  • 修复了词性标注、命名实体识别模型文件的错误标示符,这项修改将导致3.1.0以及之后的版本不能与3.0.x的模型兼容,请务必注意
  • 修复了由boost.multi_array.views引起的MSVC下不能以Debug方式编译的问题
  • 修复了由打开文件时字符串为空引起的Windows下不能正常运行的bug
[READ MORE]