F****3 发帖数: 1504 | 1 请问把下面几段文字的的信息转换成machine readable的relational database数据库
形式 在CS领域里应该搜索什么关键词?
我知道这个问题可能很深,需要看书,但是不知道要看什么书最对路子。。。
请问在CS里面这个一般行话怎么称呼啊?
要取出下面的信息
1. Company name
2. period to which on which the company issue the announcements
3. Financial measures: earnings or revenue?
4. Number of the financial measures such as $45,360,000
Example:
Veris Gold Corp. announced unaudited consolidated earnings and operating
results for the first quarter ended March 31, 2013. For the quarter, the
company reported revenue of $45,360,000 against $20,889,000 a year ago.
1. Veris Gold Corp.
2. the first quarter ended March 31, 2013
3. $45,360,000
4. revenue |
E*****m 发帖数: 25615 | |
F****3 发帖数: 1504 | 3 谢谢!
下载安装了,书也借了。。。
在StanfordNLP下载了一个StanfordNLP的包,但是是用java编译的。
http://www-nlp.stanford.edu/software/corenlp.shtml
请问是不是用那个Python wrapper就可以使用了在python环境下调用这个包了。
不要意思啊,我的用词不专业。 |
E*****m 发帖数: 25615 | 4
可以用 Stanford parser, 也可以不用, NLTK 自己有傳統的 grammar, 沒有
Stanford 那樣的 statistical parser 那麼強大就是了。
【在 F****3 的大作中提到】 : 谢谢! : 下载安装了,书也借了。。。 : 在StanfordNLP下载了一个StanfordNLP的包,但是是用java编译的。 : http://www-nlp.stanford.edu/software/corenlp.shtml : 请问是不是用那个Python wrapper就可以使用了在python环境下调用这个包了。 : 不要意思啊,我的用词不专业。
|
F****3 发帖数: 1504 | 5 好的,我先把NLTK掌握好。。。
谢谢!
【在 E*****m 的大作中提到】 : : 可以用 Stanford parser, 也可以不用, NLTK 自己有傳統的 grammar, 沒有 : Stanford 那樣的 statistical parser 那麼強大就是了。
|
l*******s 发帖数: 1258 | 6 这个,叫unstructured data to structured data
如果要搞好,基本上NLP是唯一解决方案。
不知道你要达到什么样的精确度。
有一些现成的包,比如opennlp之类的,但是没法抽取出你要求的所有内容,或许只能
搞定公司名而已。因为那些都是基于machine learning的用wall street journey语料
训练的
除非你自己标注一堆data然后重新训练模型,不过听你的意思这方面不擅长,还是工作
量很大的。
要是能凑活的话,不妨试试写一堆regex,搞rule based,或许能对付一阵子,就看你
们需求如何了。
另外,考虑下一些网上的API,比如Alchemy API等 |
F****3 发帖数: 1504 | 7 太谢谢你告诉我这些! 非常有用!
请问要用StanfordNLP那个包,我只会用python可不可以。我是文科生,java根本不会
。。。
想做的事情就是把类似下面这样的东西转换成机器可读形式:
Transat A.T. Inc. announced the signing of an agreement with International
Lease Finance Corporation for the long-term (eight-year) leasing of four
Boeing B737-800 aircraft. These planes will be introduced in summer 2014 and
become the core of Air Transat's permanent narrow-body fleet. They will be
used on sun-destination routes to Mexico, the Caribbean and Florida. The
agreement also includes the... More >>
【在 l*******s 的大作中提到】 : 这个,叫unstructured data to structured data : 如果要搞好,基本上NLP是唯一解决方案。 : 不知道你要达到什么样的精确度。 : 有一些现成的包,比如opennlp之类的,但是没法抽取出你要求的所有内容,或许只能 : 搞定公司名而已。因为那些都是基于machine learning的用wall street journey语料 : 训练的 : 除非你自己标注一堆data然后重新训练模型,不过听你的意思这方面不擅长,还是工作 : 量很大的。 : 要是能凑活的话,不妨试试写一堆regex,搞rule based,或许能对付一阵子,就看你 : 们需求如何了。
|
l***i 发帖数: 16 | 8 Try information extraction. |
l*******s 发帖数: 1258 | 9 那就有点麻烦,很多NLP的包都是java的
那就试试nltk吧,是python的。
不过话又说回来了,为什么你非要搞这个东西呢?是不是老板让干的?跟老板谈谈,就
说自己是文科生,确实不擅长这个,能不能找个人合作?然后自己负责其他部分,毕竟
完整任务是最终目的,没必要所有事情都自己干,尤其是自己不擅长的。
文科生,就应该有点文科生解决问题的思路吗。
哈哈 虽然我也是文科生。。。
--Dishes Map,基于餐馆Review的美食发现引擎
https://play.google.com/store/apps/details?id=dishesmap.mobile
and
be
【在 F****3 的大作中提到】 : 太谢谢你告诉我这些! 非常有用! : 请问要用StanfordNLP那个包,我只会用python可不可以。我是文科生,java根本不会 : 。。。 : 想做的事情就是把类似下面这样的东西转换成机器可读形式: : Transat A.T. Inc. announced the signing of an agreement with International : Lease Finance Corporation for the long-term (eight-year) leasing of four : Boeing B737-800 aircraft. These planes will be introduced in summer 2014 and : become the core of Air Transat's permanent narrow-body fleet. They will be : used on sun-destination routes to Mexico, the Caribbean and Florida. The : agreement also includes the... More >>
|