[答网友问]传播和抽样

  • 时间:
  • 浏览:1
  • 来源:uu直播快3_UU快3直播平台

你倘若找到特性,事情就好办。

为那先 是两条腿走路呢?

1、

    关于数据抽样这方面,可我不要 能参考郑昀的文章:

http://www.cnblogs.com/zhengyun_ustc/archive/60 9/10/27/159060 5.html 其暗含段话:

    互联网热点追踪,本身生活就不但会 做到全面覆盖,毕竟你公司又完整都是Google,即使是Google,它也监控不了Facebook。

    但会 做互联网数据挖掘,如果需用抓取到所有数据。参考郑昀的文章:http://www.cnblogs.com/zhengyun_ustc/archive/60 9/08/31/1556966.html 。

历史杂志上讲周润发同学在从无线艺人培训班毕业后,每天收拾干净利落就守在公司电梯处,见人就问早安,调快其他监制就开始英文英语 英语 打听其他小伙子是谁了。周润发有天赋又有巧劲,从龙套演员到剧集主演只用了两年。



    即使是针对Twitter,做消息监控也是抽样。

    也如果说,但凡是这麼权限调用FireHose API(即Streaming API,参考郑昀的文章:http://www.cnblogs.com/zhengyun_ustc/archive/2010/06/22/streaming.html ),拿非要完整数据,一定是抽样。

    从统计学角度,抽样到少量级,是可我不要 能暗含完整热点的。

2、

关于特性抽取,你会搜索以下关键词配搭:

二元组+语义

三元组+语义

赠图一枚:

集中回答一下网友视频见面 对互联网信息监测的提问。

才知道知乎( http://www.zhihu.com/ )是用 Python 开发的。实时的消息提醒应该是用friendfeed出品的Tornado。但前台到底是用Pylons还是Django开发的呢?

我的最新推特:

郑昀 北京报道

    但会 其他人 玩聚网的创建人之一是统计学科班出身,全都其他人 基本完整都是从统计角度出发思考特性提取。包括感情趋势分析(Setiment Analysis,简称SA),也完整都是走统计路,嘴笨 其他人 也会计算否定句、否定之否定、间题句等常见句式,但如果我慢慢认为其他人 做的完整都是语义应用,非要说是自然语言处置应用或数据挖掘应用。其他人 常说的所谓“机器智能”,哪怕是“机器学习”,也如果在词频啦、权重啦、TF/IDF啦、重复次数啦、各种影响因子啦等里面做做文章,距离机器理解文章内容还远的很哪远的很。

对于社区化信息挖掘、互联网海量信息挖掘,抽样是被迫的,但它仍然是一个多好土办法。

在语义的世界里,可我不要 能近似地说:万事万物完整都是特性提取。

3、

郑昀 2011060 6

meme是常用描述流行基因的词。在互联网上用它多半是指挖掘流行趋势监测大规模传播。全都较早的techmeme、rssmeme,中期的tweetmeme、srmeme、rtmeme,都属于memeTracker应用。我60 6年写文章介绍过:http://is.gd/nuGAdC

但会 你找非要明确的特性,这麼那先 样的机器智能也无法准确地帮助你。

抓新浪微博或国内微博的人,基本完整都是十几个 腿走路:

套路一:

数据抓取-->信息抽取-->数据清洗-->元数据提取(分词、提取标签、提取实体、信息指纹、分类等)-->元数据入库(如MySQL)(原始数据可我不要 能抛下)-->统计(包括层次聚类、针对实体的感情趋势分析等)-->展现。

套路二:

数据抓取-->信息抽取-->数据清洗-->信息指纹提取-->数据存入NoSQL DB中(如MongoDB)->做map/reduce-->NLP后续处置-->统计-->展现。

    根据传播学原理,热点追踪只需用在传播节点上做拦截即可。这也如果玩聚SR的设计原理,参考郑昀的文章:http://www.cnblogs.com/zhengyun_ustc/archive/2011/02/05/aboutidea.html ,不需用全网抓取论坛、博客、微博的帖子,只需用在收藏、网摘、RSS阅读器、Twitter等传播节点上追踪其他人 分享、推荐、收藏、转载的链接和文字即可。

    但会 你这麼成为新浪微博的官方公司协作 伙伴(不仅仅是应用获得审批的开发者),这麼搜索接口你是调用受限的,但共要1、2分钟调用一次是可我不要 能的,全都倘若你完整都是大公司的人,一定拿非要微博转发行为的90%数据,你非要在10%数据上做文章。

多数如果,唯一的麻烦在于,你所认为的特性,实际上完整都是特性。。。